Pourquoi parfois ça ne marche pas : essai de trois autres modèles IA pour la transcription de l’acte 1816

On a vu transcription transcription réussie Objectif observation d’une transcription par IA (réussie). Tout à fait lisible, avec noms de lieux, patronymes et prénoms souvent inexacts mais reconnaissables. Avec le même acte en utilisant d’autres modèles, on a des résultats bien différents. Cela va du ‘pas mal du tout’ au ‘catastrophique’

Les autres modèles de transcription que j’ai testés

Nom du modèle – lien – identifiantInformation sur le modèleRésultats sur acte N 1816
1The Text Titan I
voir article
ID : 51170
Il s’agit d’un super-modèle, entraîné pour reconnaître les écritures manuscrites et imprimées, dans plusieurs langues dont le français. Je pense qu’il est entraîné sur des énormes volumes de documents.
Créé par l’équipe Transkribus
Le meilleur dans cette série d’essais. 86% des mots sont lus correctement. Voir article Objectif observation d’une transcription par IA (réussie)
2French – General Model

Nom : Transkribus french model 1. ID : 37758
Modèle général pour l’écriture manuscrite en français, sans précision de date. Pas d’information sur le volume de document utilisé pour entraîner le modèle.
Créé par l’équipe Transkribus
Deux fois plus de mots erronés que le modèle précédent, mais reste bien lisible. J’ai fait une comparaison détaillée avec le 1er modèle, en dessous
3French Handwriting 19th century
Nom : BBM Bulliot French C19th handwritten 2021

ID : 48300
Les cahiers de Jacques-Gabriel Bulliot (1817-1902), érudit français, découvreur de Bibracte. Modèle entraîné sur 140 000 mots.

Créé par le projet “Bulliot, Bibracte et moi »
Catastrophique. On sent que le truc galère totalement. Par exemple il prend des lettres (C majuscules?) pour des parenthèses. Structure de l’acte très très difficilement devinable.
4New France 17th-18th centuries

ID : 46116
Modèle entraîné sur 300 000 mots, 1600 pages, de documents de l’administration coloniale des territoires de Nouvelle France (Québec…) du 17è et 18è s. , sur tous les types d’écritures utilisés à l’époque, en français
Crée par Maxime Gohier, nouvellefrancenumerique.info)
Au doigt mouillé, on doit être à 10% de mots exacts, 50% en comptant les petits mots (à, de…). On arrive à lire la structure de l’acte, mais c’est pénible
Modèles testés sur un acte unique de Wallon-Cappel, 1816. Transkribus. Repérage par identifiants (ID)

Comparaison détaillée modèle 1 et modèle 2

Modèle 1 = The Text Titan I, ID : 51170 (super-modèle). Le meilleur dans cette série d’essais. 86% des mots sont lus correctement (14% erreur)

Modèle 2 = French – General Model, ID 37758 (modèle général pour le français). Deux fois plus de mots erronés que pour le modèle 1, mais pas mal non plus je trouve. 29% erreur

J’avais déjà relevé et classifié les mots mal lus par le modèle 1, j’ai fait pareil avec le modèle 2.

Modèle1 % erreur Modèle 1
Text Titan I
Modèle2 % erreurModèle 2
French – General Model
Tous mots confondus19/132
14%
37/132 29%
Noms de lieux4/6
67%
Harbrouill pour Hazebrouck
Cattre pour Castre
Bon pour Borre
Veuberquin pour Vieu[x]berquin
100%Wattonappel pour Walloncappel,
Habront pour Hazebrouck
Bord pour Nord,
Boiree pour Borre,
Couttre pour Castre,
Vieubergein pour vieuberquin
Noms de famille3/6
50%
Cauvel et Cauwie pour CAUWEL
Vitte pour VITSE
3/6
50%
Cauel pour CAUWEL
Vitte pour VITSE
Nauvie pour PV CAUWEL
Prénoms4/13
31%
Binoit pour Benoit
Emolie Rotalier pour Emilie Rosalie
Louet pour Louis
9/13
69%
Valintin pour Valentin, Bertroit pour Benoit
Tose pour Rose, Emolie pour Emilie,
Retatre pour Rosalie,
Rouis pour Louis,
Barles pour Charles,
Toins pour Louis
Dominigue pour Dominique
Mots spécifiques aux actes de naissance7, peuencore vivante, défunt, ans, sexe, lecture, né, vouloir (dans expression « vouloir donner »)11defut pour défunt, volopte pour vivante, sixe pour sexe, époute pour épouse, prenoint pour prénom, prisentet pour présence, he pour né, lectrard pour lecture

Conton pour Canton, ant pour ans (2 fois), heuret pour heures
Erreurs de lecture du modèle « The text Titan 1 » dans mon acte

Pour moi, le modèle 2 reste lisible, même à 29% de mots erronés. Les mots sont découpés correctement et les erreurs ne portent souvent que sur une lettre. Par contre, je trouve que c’est incroyable d’être aussi nul en reconnaissance de prénoms très communs comme Charles et Louis.

Transcriptions obtenues par les modèles 3 et 4

A noter que la détection de ligne se trompe sur les trois dernières lignes, voir article Nouvel essai de détection de ligne sur un acte de naissance de 1816. La signature se trouve sur l’avant-avant-dernière ligne

Modèle 2 French – General Model, ID 37758

Deux fois plus d’erreurs que le modèle 1, mais reste lisible (du moins je trouve)

De Wattonappel, Conton D’harbront, Departement de Bord.
Et Comparu pierre Vatintin Cauel, agé de tronte Cinq ant.
Cultivateur né et Domicilié en Cette Commune fils de defut
Jean Betroit, et dencore Votopte Jeanne tose Vitte Lequel
Nous a présenté un enfant du Sixe Masculin Né hier
à onze heuret de relevée de lui declarant et de Emolie retatre
Duverlie Son Epoute et au quel enfant, il a déclaré Vouloir
Donner les prenoint De Charles rouis les dites declaration
et présentation faites en prisentet det Sieun Barles toins
Smagghe age de Vingt Sept ant ne a Boiree domicilié
a Couttre et Dominigue Degroote age de trinte trois ant
he a Vieubergein et domicilié en Cette Commune tous deux
notaires de profession, Lesquels apris qu’ils leur en a été
fait lectrard ont signé a tuc le pere de l’enfant et nont
Nauvie
été que dessus
Maire Sare p

Modèle 3 French handwriting 19th century ID : 46116

C’est celui-là que je trouve catastrophique, je pense que vous serez d’accord

De Battonappel, (outon D 1h au brans 4,m de posromente du vros d.
La compass piene d’alontion (oullec, age de trouhe ng aunt
l’attidatins dec st donistée en cette Commene s.l de rfusest
fandevait, et deninr donse jonne rale fin Le quele
vous à misenté un eutont du vier masenton du teur
à one tremer de relolie de l’s declarant et de lonsle rababée
(Duleslse etou vourd et au quel es tant, il a dulare Souloir
donner les formmant de (surles aouit les dibet des laracion
et iorésenlation foite en portenma au ians de aucles lonel
e mayale age de l’ingleriot aur on a dond daunistee
a ppare et domine que de porle age de tamnbe troir rentde
ne a ttrembriguées et danslestee en tette fonmince dons demp
hoone de profidion Les quele aprè quil lene en a clé
foit biued ont eligne avec le pee de ‘enfour et nour
dCausée
a que defut
iie u

Modèle 4 New France 17th-18th centuries ID 46116

On arrive à lire la structure de l’acte, mais c’est pénible. J’estime 10% de mots « importants » exacts, mais à la relecture c’est un peu sévère. En recomptant, c’est plutot 50% de mots exacts si on compte les petits mots (à, de..)

De Valloncappel, Contont D’harbranch, De parteomnent de Rord.
Et Comparn pierre Valimtin Cauel, age de trute Cinq ant
laffiratent du S Domuulie en Cette Commence vils de defsect
Jean Betroit, et denor Bopte Jrann tole Vitre Lequel
vous a presenté un enfont du sixe Masemin De hier
à onze hemet de relevée de lusdeclatant et de Eineles rolalie
Diverlue Son poud et auquel etfaut il a declaré Vouloit
Donne les prenoint de Charles romt lesdites dutaration
et presentation fortes en prisemet du Sieur Bharles lom
Smaguhe age de Vingt Sest audue a Borte et donneilie
a Contre et Domiingue degroote age de trente troid du
he a Vieuberquin et donneilie en Cette Commene tout deux
Rolanet de prosession Lesquell apri qu’il leur en a eté
fait lectead ont signé adec le pere de l’enfant et nous
&laurrie
ste que dessus /.
Chaire dae 2

Notes annexes

  • Pour tester un modèle rapidement: page des modèles publiques https://readcoop.eu/transkribus/public-models/, sélectionner un modèle, charger le document, ça transcrit (parfois ça met du temps). Sauver le résultat sur son ordinateur. Je vois que le super-modèle « Text Titan 1 » n’est pas disponible ici, les autres modèles testés dans l’article le sont
  • Pour faire des transcriptions à un document ou une collection de document et les conserver, les retravailler :
    • se connecter à https://app.transkribus.eu/, avoir des crédits de disponible (on en a 500 à la création d’un compte), charger le document dans une collection
    • étape facultative: détection de layout et correction. Sélectionner le document, clic ‘Recognize’, clic ‘Layout’ (mise en page, segmentation), sélectionner un modèle (ici, « Universal Lines » convient), lancer la détection. Cela ne consomme pas de crédit. Visualiser comment on été détectées les lignes, corriger si besoin. Dans ces test je ne l’ai pas fait, j’ai conservé le défaut sur les trois dernières lignes lues dans le désordre.
    • ‘Recognize’, ‘Text Recognition’, sélectionner le modèle, « Start recognition ». Cela consomme un crédit
    • Retourner à la page principale, en haut à droite : Jobs. Surveiller la progression de la tache (ou revenir plus tard). Quand c’est fini, click sur le document l’ouvre, avec sa transcription

6 commentaires sur « Pourquoi parfois ça ne marche pas : essai de trois autres modèles IA pour la transcription de l’acte 1816 »

  1. Merci Emmanuelle pour toute cette série d’articles ! Je suis en train de faire le même genre d’expériences pour les modèles de transcription de textes en « allemand gothique »… le meilleur taux de reconnaissance affiché par Transkribus sur les modèles gratuits est à moins de 9% !
    Laure

    J’aime

      1. En effet Emmanuelle, ma confusion est extrême… car les résultats sont tellement éloignés de phrases vaguement compréhensibles qu’on pourrait croire que le taux d’erreur est un taux de réussite !
        Laure

        J’aime

  2. bonjour Emmanuelle,
    je suis tombé sur votre blog en cherchant des informations sur transkribus, avec la même motivation : la généalogie. Ou plus précisément, l’histoire familiale
    Tout d’abord, merci pour votre blog, ça m’a fait gagné du temps. J’ai bien aimé aussi la première partie sur l’IA où vous listez les utilisations possibles.
    Depuis bientôt an, j’utilise deux outils complémentaires pour récupérer des textes tapuscrits, du début du XXème siècle.
    1) Un OCR puissant pour récupérer une première version du texte : Google vision AI. https://cloud.google.com/vision?hl=fr (descendre vers le milieu de la page pour pouvoir déposer votre image)
    2) chatGPT (copilot depuis Edge) pour corriger le texte issu de l’OCR

    Cette deuxième améliore spectaculairement la reconnaissance du texte. Il faut demander à chatGPT de corriger mot à mot et d’éviter de modifier les tournures de phrases. On peut aussi lui donner une suite de mots qu’il pourra utiliser : des noms propres que l’on sait être probables dans le textes (personnes, lieux ), des métiers, etc.
    Le plus dur est de l’empêcher de corriger des expressions complètes au lieu des mots. Il faut être très impératif.
    Mais même quand il ne respecte pas exactement le mot à mot, chatGPT renvoie une phrase dont le sens correspond au texte original. C’est bluffant.
    Je n’ai pas calculé le taux de réussite, mais il est certainement de plus de 90%
    Il y a une limite quand même. En version gratuite, chatGPT a un quota assez court en nombre de caractères. Il faut donc souvent découper le texte pout le traiter entièrement.

    Dernière chose : pour simplifier la vérification du texte retranscrit par rapport au texte original, je colle la transcription dans word et je le fais lire par l’outil de lecture vocale de word, très au point. j’écoute le texte tout en regardant l’image d’origine et je fais les dernière corrections.

    Pour les textes manuscrits, j’ai fait aujourd’hui des premiers essais avec transkribus selon la même méthode : le texte récupéré de transkribus est passé à la moulinette chatGPT. Très bons résultats , même si on n’atteint pas le même score que pour les tapuscrits.
    Transkribus est indispensable car les outils puissants comme google vision ou textract (de aws = amazon) ne sont disponibles en français que pour les textes dactylographié. Pour les manuscrits, il n’y a que l’anglais pour l’instant.

    Je pense que la raison pour laquelle chatGPT reconnait bien mieux les mots que les simples OCR est la façon dont il est entraîné. Grosso modo, ils prennent pleins de vrais textes existants, enlèvent certains mots et entraînent la machine à deviner le mot manquant. C’est pile ce qu’on essaie de faire là. Les OCR, même s’ils sont entraînés aussi sur des textes, cherchent exclusivement à reconnaitre des lettres ou petits groupes de lettres, sans chercher à donner un sens global à la phrase. ChatGPT est le chaînon manquant.
    Meci encore et bonne continuation,

    Aimé par 1 personne

    1. Merci beaucoup pour ce retour d’expérience très intéressant. Je suis en ce moment sur des tapuscrits de mauvaise qualité de mi 19ème 3n latin, pour lesquels j’ai du utiliser transktibus. Je vais voir si Google vision s’en sort aussi.

      Sur des manuscrits du 15e – 16eme en latin, j’ai un modèle transkribus qui s’en sort pas mal. De là, je demande à chatGPT de m’expliquer ce que contient ce texte. Jusqu’à maintenant, j’ai rarement des résultats exploitables, ça va du refus total à des affirmations delirantes (ce sont des chartes monastiques du 11eme siècles, il m’a affirmé que c’était du Pline le jeune) – et une fois, un résumé tout à fait pertinent. Quand j’aurai compris, je ferai probablement un article

      Merci pour l’astuce de la lecture vocale de Word.

      Emmanuelle

      J’aime

  3. Si vous avez l’image de votre texte du XIX ème siècle, je peux tester de mon côté.
    J’utilise uniquement chatGPT pour corriger le résultat de l’ocr, google vision cloud ou transkribus. Le plus dur étant de l’empêcher d’ajouter des mots ou de les remplacer par des mots ayant le même sens. Il se trompe rarement sur le sens. Et pour les résumés, il est imbattable.
    J’ai aussi en tête de créer un chatbot pour discuter virtuellement avec une de mes grandes tantes qui a écrit une trentaine d’articles de presse (anarchiste et féministe) dans les années 1920. Et aussi un système d’interrogation de ce corpus avec GPT (technique dite RAG). J’ai encore de quoi m’amuser …

    Gilles

    J’aime

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer