Nouvel essai de détection de ligne sur un acte de naissance de 1816

Dans l’article L pour détecter les Lignes avant de déchiffrer, j’ai lancé la détection de ligne dans Transkribus sur l’acte de naissance de Charles Louis CAUWEL, 1816. J’avais utilisé le modèle « Universal Lines », et le résultat était parfait : l’IA avait bien repéré chaque ligne.

Mais pourquoi je m’étends sur la détection de lignes?

Cela ne parait pas bien sorcier, car la structure de cet acte est claire, les lignes sont bien séparées, légèrement penchées mais bien parallèles, il n’y a pas d’annotation en marge, pas de lignes écrites entre les lignes. La détection de ligne peut sembler une formalité, sur laquelle on se demande pourquoi je m’étends.

Détection de ligne avec modèle « Universal lines » de Transkribus.

En fait, c’est que souvent ça a l’air de bien marcher, mais en fait il y a des détails qui peuvent rendre le déchiffrage incompréhensible et difficile à corriger.

Un détail pas grave : inversion d’ordre de ligne

Voilà ce que je pense qu’il y a écrit après le trait rouge. J’ai rajouté la ponctuation pour qu’on comprenne :

Lesquels, après qu’il leur en a été fait lecture, ont signé avec le père de l’enfant et nous, maire, date que dessus. [signature] P.V. CAUWEL

Mais l’aviez-vous repéré ? La détection de ligne a inversé l’ordre de la signature et la dernière ligne. Regardez les lignes 15 et 16, je vous ai surligné les numéros. L’IA pense que la signature doit être lue d’abord, et la ligne 15 ensuite. Je me demande pourquoi d’ailleurs.

Donc quand on demandera à l’IA de déchiffrer, en supposant qu’elle arrive bien à lire les mots, elle nous dira :

[13] Lesquels, après qu’il leur en a été [14] fait lecture, ont signé avec le père de l’enfant et nous [15] P.V. CAUWEL [16] maire, date que dessus.

Cette inversion n’est pas bien grave, on s’y retrouve.

Un peu plus embêtant : coupure de ligne

Cet exemple sur le même acte a été obtenu en appliquant un autre modèle de détection de ligne*. Tout va bien jusqu’à la zone où il y a la signature. Après, regardez le 15, 16 et 17. C’est un peu n’importe quoi.

Là, quand on demandera à l’IA de déchiffrer, en supposant toujours qu’elle arrive bien à lire les mots, elle nous dira :

[13] Lesquels, après qu’il leur en a été [14] fait lecture, ont signé avec le père de l’enfant et nous [15] P.V. CAUWEL [16] date que dessus [17] maire.

Je dirais que ce n’est pas encore dramatique en lecture rapide. Par contre, si on doit corriger la transcription pour la publier, par exemple, ça fait vraiment du travail manuel en plus.

En conclusion : la détection de ligne, c’est important

C’est tout, c’est ma conclusion

Notes

  • 2ème essai de détection de ligne obtenu avec segmentation utilisée par la détection d’écriture « Transkribus french model 1 »
  • Plus ou moins synonymes : détection de ligne, détection de mise en page, segmentation, layout detection

Un avis sur « Nouvel essai de détection de ligne sur un acte de naissance de 1816 »

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer