L pour détecter les Lignes avant de déchiffrer

J’explore les usages de l’intelligence artificielle par les généalogistes. J’ai présenté la plateforme de reconnaissance d’écriture Transkribus dans K pour allez essayer Transkribus.

Maintenant, quelque chose qu’il faut comprendre avant de se lancer : dans l’acte de déchiffrage, le premier truc qu’on fait, sans y penser, ce n’est pas le déchiffrage.

Le premier truc qu’on fait quand on veut lire

Je vous donne ça à lire

Wallon-Cappel (59), naissance de Charles Louis CAUWEL, 1816

En fait le première chose que vous allez faire, si on y pense, c’est : identifier où il faut lire. Accrocher du regard le début de la première ligne (je l’ai mise en bleu), suivre la ligne (en déchiffrant), et à la fin de la ligne repérer la ligne suivante (je l’ai mise en rouge).

Le premier truc qu’on apprend à faire aux IA

Dans le déchiffrage avec IA, il y a forcément deux étapes. La première comprend la détection de ligne (c’est un peu plus large en fait), et la second le déchiffrage.

Dans Transkribus, on peut choisir de le faire explicitement en deux étapes : d’abord faire la Segmentation, ou Layout détection, ou détection de Mise en page; éventuellement corriger ; puis lancer la reconnaissance d’écriture.

Mode opératoire avec Transkribus

Pour lancer uniquement une reconnaissance de ligne avec Transkribus. Cette action n’utilise pas de crédit. Je ne vous ai pas encore parlé des crédits dans Transkributs, j’y reviendrai. J’appelle ça reconnaissance de ligne, je pense que le vrai terme est Segmentation. En anglais, segmentation ou layout detection.

  • je vais dans https://app.transkribus.eu/, je me me connecte (il faut avoir crée un compte donc)
  • Je charge mon image dans une de mes collections, je sélectionne mon image et je choisis : « recognize » (mon interface est en français, mais ce bouton n’a pas l’air tout à fait traduit)
  • Ensuite, très important, sélectionner « Mise en page ». En anglais c’est : Layout.
  • ll y a une liste de différents modèles. Il faut choisir un modèle. Je pense qu’il faut commencer par « Universal lines », je suppose que c’est un modèle qui marche à peu près pour tous les documents simples, en écriture de gauche à droite.
  • Sélectionner un modèle, puis bouton « début de la reconnaissance ». Après il faut attendre que je ‘job’ soit fini (faudra que je vous explique ça aussi), retourner dans le document.

Résultat de la détection de ligne

Vous voyez des lignes bleues. L’IA a réussi sans problème à détecter les lignes. Vous voyez aussi un cadre vert, l’IA a vu qu’il n’y a qu’une zone de texte, je vous montrerai d’autres exemples.

On a réussi une détection de ligne (une segmentation, en fait) sur un document simple. Là on est content, sinon l’interface de Transkribus permet de modifier les lignes.

A ce stade, on a très envie de tester de déchiffrage, mais je veux encore parler de la segmentation (détection de lignes) pour des documents plus compliqués. A bientôt!

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer