Regarder les projets en cours : RegistrIA, indexation par IA d’un fonds du SHD

J’en suis toujours à me demander comment automatiser l’indexation des registres militaires napoléoniens grâce à l’IA. Dans le dernier article Quasi-échec…, j’ai constaté que je n’arrive pas à m’en sortir avec la plateforme de transcription Transkribus. Soit que je m’y prends comme un manche, soit que c’est quand-même encore plus compliqué que ça ma bonne dame.

Je suis donc allée rechercher des retours d’expérience de projets similaires. Il est question ici d’un projet nommé RegistrIA, mené en 2021-2022 par le Service Historique de la Défense (SHD). Le projet a été présenté en décembre 2022 lors de Gene@22, les assises de la généalogie, organisé par la Société française de Généalogie et les Archives départementales des Yvelines. Brigitte a fait un compte-rendu de cette journée dans cet article (merci), et la FFG met à dispositions les enregistrements des conférences sur sa chaîne YouTube, c’est ici (merci)

Voici ce que je retiens de cet enregistrement d’une durée de 30 minutes.

  • Conférence donnée en duo, M. Touko-Nicheu, chef du bureau de la transformation numérique ; Catherine Méot, archiviste spécialisée en numérique. Commentaire : c’est un marqueur des conférences sur le numérique et l’histoire ou les archives, deux voix, une personne de l’informatique, une du métier de l’histoire ou des archives. Je trouve ça vraiment intéressant. Je ne peux aussi pas m’empêcher de rajouter que l’informaticien est toujours (?) un homme. Si vous croisez des contre-exemples, signalez-le moi !
  • Le projet RegistrIA du SHD s’intéresse aux fiches matricules d’Oran, Constantine et Alger, car les anciennes colonies sont du ressort du SHD. Commentaire : je n’ai jamais eu à consulter ce fond, je suis allée voir sur le site du SHD Mémoire des hommes. Dates 1866-1918. Le modèle des fiches est le même que les fiches matricules conservées par les Archives départementales. Formulaire imprimé, remplissage à la main, éventuellement plusieurs écritures différentes
  • Le projet RegistrIA par des fiches déjà numérisées. Par contre les documents ne sont pas structurés, on ne peut pas faire de recherche dedans. Il y a 477 registres, 200 000 fiches, plus d’un million d’informations à indexer. Commentaire : je lis par ailleurs que le numérisation de ce fonds date de 2019. Numérisation 2019, indexation par IA 2021, ça va vite! Dans les question – réponses, le conférencier souligne que 3 ans auparavant, le volet numérisation n’était pas engagé au SHD ; là ils ont l’air d’avoir sécurisé le budget pour la numérisation, je comprends que c’est une volonté politique.
  • Le SHD a fait appel prestataire, une startup spécialisé en IA. Suite à une question de la salle sur la possibilité de se passer d’aide extérieure, les intervenants répondent que ce n’est pas la nature de leurs fonctions ni leurs compétences. Commentaires : je n’ai pas trouvé quelle startup a travaillé pour eux (et ça m’énerve un peu). Je me souviens avoir vu une retour d’expérience (conférence) d’une startup sur un projet en partenariat avec des archives, je n’ai plus les détails, ça m’intéresserait maintenant de revoir cette intervention, si quelqu’un l’a.
  • Projet en plusieurs phase. Commentaire : ils parlent de phases de conception puis réalisation, et aussi d’un processus en 4 phases, je n’ai pas compris comment ils découpent ça, il me faudrait un accès au diaporama de la conférence qui n’est pas visible sur la vidéo. Commentaire 2: je comprends aussi que la plateforme technique est chez le prestataire, je suppose qu’il s’agit de l’infrastructure d’ordinateurs, processeurs, mémoires, stockages, car le « Cloud » n’est pas fait que de nuages, c’est très matériel derrière.
  • Création d’un algorithme de reconnaissance d’mages par le prestataire.
    • D’abord: identification des zones à traiter sur la fiche, c’est-à-dire celles où il y a des champs à extraire. Ces zones sont toujours au même endroit. Commentaire : c’est bien le processus qui s’appelle la segmentation, et que j’ai aussi appelé détection de mise en page ou détection de lignes dans mes précédents articles. Et on est bien dans le cas où les informations sont toujours au même endroit, fiche après fiche.
    • Puis : reconnaissance de caractères. Et également : suppression de bruit. Le bruit c’est par exemple les taches, les ratures. Commentaires : Je suppose que la suppression de bruit est effectuée avant la reconnaissance de caractères.
    • Mise à disposition du prestataire un dictionnaire de mots : noms, prénoms, lieux. Pour vérification d’exactitude et de cohérence avec le déchiffrage. Commentaire : là je suis frustrée, j’aurais bien aimé en savoir plus sur la logique qu’ils ont appliquée pour faire coller le déchiffrage aux listes de noms, prénoms, lieux. Peut-être que c’est de l’ordre de la propriété intellectuelle.
  • Amélioration du modèle par itération. Ils fournissent à l’IA suffisamment d’objets pour s’entraîner, ils lancent un premier test, on fait des corrections dans le code , on refait une implémentation. Commentaires un peu techniques : là je crois que c’est encore au stade du développement, ils sont en train d’ajuster les paramètres du modèle. Pas encore à la phase d’entraînement du modèle.
  • A chaque itération, ils surveillent le taux de conformité. Dans les projets IA, les livrables sont restitués quand on a un taux de conformité appréciable. Dans ce projet, il s’agit en quelque sort du taux d’exactitude. Si inférieur à 60%, c’est pas intéressant. Par itération, ils ont fini par avec un taux de conformité de 80-85%. Commentaire : pour ce type de projets, ne pas oublier de bien se mettre d’accord sur ce que c’est la conformité ou exactitude. Je pense que cela doit s’évaluer au regarde de ce qu’on en attend en tant qu’utilisateurs. Je reviens sur des articles précédents, le déchiffrage d’un acte simple avec Transkribus : l’évaluation des modèles se fait en taux d’exactitude de caractères (acronyme CER), alors que pour moi, ce qui compte, c’est le taux de mots convenablement transcrits. Un mot est juste ou pas, je m’en fiche qu’il y ait juste une lettre erronée, ou plusieurs, ça compte pareil. Articles : Pourquoi parfois ça ne marche pas : essai de trois autres modèles IA pour la transcription de l’acte 1816 et  Objectif observation d’une transcription par IA (réussie).
    Commentaires 2. Plus tard on pourra aussi poser la question des mots incompréhensibles car mal découpés, ils sont souvent mal découpés dans l’écriture manuscrite, doit-on demander à l’IA de faire mieux? (oui, j’espère)
  • Le prestataire leur a restitué un fichier structuré (format xml) qui permet la recherche par mot clef. Commentaire : lien direct vers page de recherche dans cette base spécifiquement. On peut aussi chercher d’un coup sur toutes les bases de Mémoire des Hommes, ce site est vraiment super bien fait.
  • Le projet a pris 9 mois. S’ils avaient entrepris cette indexation avec les ressources humaines qu’ils ont au SHD, ils auraient mis 30 ans à extraire les champs de ces 200 000 fiches. Là, en 9 mois, c’est fait avec un taux de conformité tout à fait acceptable, 85%. Commentaire : ah ouais quand même, 9 mois contre 30 ans. Après ce sont les estimations juste avec les professionnels du SHD. C’est possible aussi de lancer des indexations collaboratives avec des bénévoles, ça irait probablement plus vite mais nécessite une bonne communication et coordination.
  • Quand il restitue le résultat, le prestataire fournit le taux de confiance. Ce taux est donnée pour chaque registre, et/ou pour chaque champs extrait. Commentaire : Taux de confiance par registre ou par champs ? Les deux conférenciers ne disent pas la même chose, j’imagine que ces taux sont calculés par l’algorithme au niveau des champs, puis présentés par fiche et par registre. En tous cas c’est ce que j’essaierais de faire si c’était moi. C’est très important que la machine donne des « taux de confiance » avec des informations dont les humains peuvent se servir pour aller directement secourir la machine là où elle a galéré. Après, évidemment, il faut que la machine soit réglée pour ne pas trop douter d’elle, ou ne pas avoir trop confiance en elle, cela se configure pendant la phase d’apprentissage.
  • Pour pouvoir les mettre en ligne, le SHD fait un contrôle qualité. Les 15% d’informations inexactes sont faites à la main, par l’humain. Au moment de la conférence, un seul registre est en ligne, les autres étaient en cours de contrôle qualité. Commentaire : 15% de 200 000 fiches, cela fait quand même 30 000 fiches – ou moins, enfin ça dépend comment on calcule le taux de conformité. Il y a encore du boulot pour les humains.
    Commentaire 2 : Faut-il 100% de conformité avant la mise en ligne ? Pour les archivistes apparemment oui. Je pense que pour les généalogistes, 85% suffirait dans un premier temps, en cours de projet. Le niveau de qualité exigé doit être mis au regard des utilisations, notamment de l’impact des inexactitudes.
  • Au fur et à mesure de la relecture humaine, les données corrigées sont re-traitées par la machine jusqu’à obtenir un taux de conformité de 100%. Tout cela a pris 9 mois. Commentaire : Pas clair pour moi si a) les humains ont corrigé la totalité les 15% de non conformités, ou si b) les humains ont corrigé un ensemble de non conformités, et le prestataire a montré ces corrections à l’IA pour qu’elle apprenne, et ensuite l’IA a relu tout le paquet. Je crois que c’est b)
  • Conclusion du projet
    • l’IA a permis d’avoir 100% de conformité en 9 mois. Commentaire : c’est superbe ! Néanmoins on n’a pas d’information sur le budget engagé avec le prestataire, ni les ressources humaines mobilisés en interne au SHD
    • Préalable : fichiers issus d’un même fonds avec le même formalisme. Commentaire : ça veut dire que si le formulaire change de forme, c’est mort, il faut reformer la machine
    • Autre préalable : la numérisation doit être exemplaire, c’est plus facile pour la machine de travailler sur les bonnes résolutions, pas de zones d’ombre, de flou. Commentaire : dans d’autre retours d’expérience d’utilisateurs de Transkribus, j’entends qu’une trop haute résolution n’est pas nécessaire, voire qu’elle est néfaste car augmente les temps de traitement sans améliorer les résultats
  • Commentaire : Pour voir ce que donne le résultat fini : site Mémoires des hommes, -> recrutement et parcours individuels -> Recensement des engagés et appelés des anciennes colonies françaises -> « Faire une recherche ». Cela permet une recherche par nom, prénom, et tous les autres champs indexés dont date et lieu de naissance, classe, numéro matricule. Au jour où je consulte, la présentation indique que 353 registres [sur 477? ] sont en ligne et que cela va être complété au fur et à mesure. Lien vers la présentation du fonds + click sur ‘faire une recherche’

La conférence se poursuit avec la généralisation du projet à d’autres fonds d’archive, à commencer par les Registres des gens de mer. Je compte y revenir. A+

Liens

(591) Géné@2022 02 Les projets RegistrIA et MaritimIA du Service Historique de la Défense (SHD) – YouTube. 30 minutes

Journées de décembre 2022 aux AD Yvelines, Article de Brigitte L’intelligence artificielle au service de la généalogie (chroniquesdantan.com)

Mémoire des hommes, le portail culturel du ministère des armées https://www.memoiredeshommes.sga.defense.gouv.fr/

Présentation et recherche sur le fonds https://www.memoiredeshommes.sga.defense.gouv.fr/fr/article.php?larub=431&titre=recensement-des-engages-et-appeles-des-anciennes-colonies-francaises

Quasi-échec de détection d’un tableau avec Transkribus

(si vous cherchez un article avec des conclusions, passez votre chemin et revenez plus tard)

Dans l’article Indexer 0,016% des matricules Napoléoniens, j’expliquais que l’indexation des registres militaire des armées de Napoléon, ça m’a lassée et donné envie de regarder ce que peut l’IA. Il s’agissait de faire ça (des centaines de milliers de fois) :

Le format du registre

Le registre est un formulaire imprimé, rempli à la main. Sa structure est toujours identique. Cela se présente comme une table de 6 lignes, 5 colonnes. Une ligne = une personne

Sur chaque ligne, on a les informations à relever : le nom, le nom des parents, la date et lieu de naissance. Et d’autres informations qui ne sont pas relevées dans le cadre de ce projet d’indexation. D’ailleurs je trouverais intéressant d’indexer la profession.

Il faut faire détecter un tableau

Je pense qu’on ne va s’en sortir que si la détection de mise en page arrive bien à identifier un tableau, ligne par ligne d’abord, case par case ensuite. Le contenu qui nous intéresse est dans les premières cases de chaque colonne. C’est juste une partie de cette case qui nous intéresse, pas tout.

Mon idée, c’est de ne pas apprendre à l’IA à tout lire, ça ne sert à rien, ça prend de la ressource. Je ne sais pas si j’ai raison de penser ça, peut-être qu’avec les IA il ne faut pas trop réfléchir en amont, balancer des gros volumes de données, et voir comment ça se débrouille.

Toujours est-il que pour le moment, je voudrais que l’IA sache faire une détection de mise en page comme ça : d’abord, en rouge, une case par bonhomme. Puis, plus tard, dans chaque case, 5 lignes et c’est tout. Je vous les ai soulignées en vert. Mais on n’en est pas encore là.

Résultat avec Transkribus

Je vais faire court : quasi rien.

J’ai testé les détections de ligne standard : Universal Lines, Mixed Lines orientation, Horizontal Lines orientation. Je n’ai pas réussi à avoir des détection de case (cellule) individuelle

Ma conclusion

Je pense qu’il y a déjà moyen d’utiliser les modèles de Transkribus pour lire des documents présentés sous forme de tableau. C’est peut-être un peu compliqué, il doit falloir trouver les modèles à entraîner. Faudrait trouver des exemples et des retours d’expérience.

Mais également, Transkribus a annoncé tout récemment (octobre 2023) le lancement de « Table modèles » et de « Field modèles », encore en phase de tests. Il s’agit donc d’une affaire à suivre !

Annonce la plus récente

Introducing Table Models – Trainable Layout AI in Transkribus – READ-COOP (readcoop.eu) – annonce de fin octobre 2023 sur l’introduction de modèles de tables, pas encore disponibles sauf en version beta (https://beta.transkribus.eu/). J’ai essayé de tester, avec divers problèmes qui me bloquent pour l’instant.

Autres ressources pas encore exploitées

Pourquoi parfois ça ne marche pas : essai de trois autres modèles IA pour la transcription de l’acte 1816

On a vu transcription transcription réussie Objectif observation d’une transcription par IA (réussie). Tout à fait lisible, avec noms de lieux, patronymes et prénoms souvent inexacts mais reconnaissables. Avec le même acte en utilisant d’autres modèles, on a des résultats bien différents. Cela va du ‘pas mal du tout’ au ‘catastrophique’

Les autres modèles de transcription que j’ai testés

Nom du modèle – lien – identifiantInformation sur le modèleRésultats sur acte N 1816
1The Text Titan I
voir article
ID : 51170
Il s’agit d’un super-modèle, entraîné pour reconnaître les écritures manuscrites et imprimées, dans plusieurs langues dont le français. Je pense qu’il est entraîné sur des énormes volumes de documents.
Créé par l’équipe Transkribus
Le meilleur dans cette série d’essais. 86% des mots sont lus correctement. Voir article Objectif observation d’une transcription par IA (réussie)
2French – General Model

Nom : Transkribus french model 1. ID : 37758
Modèle général pour l’écriture manuscrite en français, sans précision de date. Pas d’information sur le volume de document utilisé pour entraîner le modèle.
Créé par l’équipe Transkribus
Deux fois plus de mots erronés que le modèle précédent, mais reste bien lisible. J’ai fait une comparaison détaillée avec le 1er modèle, en dessous
3French Handwriting 19th century
Nom : BBM Bulliot French C19th handwritten 2021

ID : 48300
Les cahiers de Jacques-Gabriel Bulliot (1817-1902), érudit français, découvreur de Bibracte. Modèle entraîné sur 140 000 mots.

Créé par le projet “Bulliot, Bibracte et moi »
Catastrophique. On sent que le truc galère totalement. Par exemple il prend des lettres (C majuscules?) pour des parenthèses. Structure de l’acte très très difficilement devinable.
4New France 17th-18th centuries

ID : 46116
Modèle entraîné sur 300 000 mots, 1600 pages, de documents de l’administration coloniale des territoires de Nouvelle France (Québec…) du 17è et 18è s. , sur tous les types d’écritures utilisés à l’époque, en français
Crée par Maxime Gohier, nouvellefrancenumerique.info)
Au doigt mouillé, on doit être à 10% de mots exacts, 50% en comptant les petits mots (à, de…). On arrive à lire la structure de l’acte, mais c’est pénible
Modèles testés sur un acte unique de Wallon-Cappel, 1816. Transkribus. Repérage par identifiants (ID)

Comparaison détaillée modèle 1 et modèle 2

Modèle 1 = The Text Titan I, ID : 51170 (super-modèle). Le meilleur dans cette série d’essais. 86% des mots sont lus correctement (14% erreur)

Modèle 2 = French – General Model, ID 37758 (modèle général pour le français). Deux fois plus de mots erronés que pour le modèle 1, mais pas mal non plus je trouve. 29% erreur

J’avais déjà relevé et classifié les mots mal lus par le modèle 1, j’ai fait pareil avec le modèle 2.

Modèle1 % erreur Modèle 1
Text Titan I
Modèle2 % erreurModèle 2
French – General Model
Tous mots confondus19/132
14%
37/132 29%
Noms de lieux4/6
67%
Harbrouill pour Hazebrouck
Cattre pour Castre
Bon pour Borre
Veuberquin pour Vieu[x]berquin
100%Wattonappel pour Walloncappel,
Habront pour Hazebrouck
Bord pour Nord,
Boiree pour Borre,
Couttre pour Castre,
Vieubergein pour vieuberquin
Noms de famille3/6
50%
Cauvel et Cauwie pour CAUWEL
Vitte pour VITSE
3/6
50%
Cauel pour CAUWEL
Vitte pour VITSE
Nauvie pour PV CAUWEL
Prénoms4/13
31%
Binoit pour Benoit
Emolie Rotalier pour Emilie Rosalie
Louet pour Louis
9/13
69%
Valintin pour Valentin, Bertroit pour Benoit
Tose pour Rose, Emolie pour Emilie,
Retatre pour Rosalie,
Rouis pour Louis,
Barles pour Charles,
Toins pour Louis
Dominigue pour Dominique
Mots spécifiques aux actes de naissance7, peuencore vivante, défunt, ans, sexe, lecture, né, vouloir (dans expression « vouloir donner »)11defut pour défunt, volopte pour vivante, sixe pour sexe, époute pour épouse, prenoint pour prénom, prisentet pour présence, he pour né, lectrard pour lecture

Conton pour Canton, ant pour ans (2 fois), heuret pour heures
Erreurs de lecture du modèle « The text Titan 1 » dans mon acte

Pour moi, le modèle 2 reste lisible, même à 29% de mots erronés. Les mots sont découpés correctement et les erreurs ne portent souvent que sur une lettre. Par contre, je trouve que c’est incroyable d’être aussi nul en reconnaissance de prénoms très communs comme Charles et Louis.

Transcriptions obtenues par les modèles 3 et 4

A noter que la détection de ligne se trompe sur les trois dernières lignes, voir article Nouvel essai de détection de ligne sur un acte de naissance de 1816. La signature se trouve sur l’avant-avant-dernière ligne

Modèle 2 French – General Model, ID 37758

Deux fois plus d’erreurs que le modèle 1, mais reste lisible (du moins je trouve)

De Wattonappel, Conton D’harbront, Departement de Bord.
Et Comparu pierre Vatintin Cauel, agé de tronte Cinq ant.
Cultivateur né et Domicilié en Cette Commune fils de defut
Jean Betroit, et dencore Votopte Jeanne tose Vitte Lequel
Nous a présenté un enfant du Sixe Masculin Né hier
à onze heuret de relevée de lui declarant et de Emolie retatre
Duverlie Son Epoute et au quel enfant, il a déclaré Vouloir
Donner les prenoint De Charles rouis les dites declaration
et présentation faites en prisentet det Sieun Barles toins
Smagghe age de Vingt Sept ant ne a Boiree domicilié
a Couttre et Dominigue Degroote age de trinte trois ant
he a Vieubergein et domicilié en Cette Commune tous deux
notaires de profession, Lesquels apris qu’ils leur en a été
fait lectrard ont signé a tuc le pere de l’enfant et nont
Nauvie
été que dessus
Maire Sare p

Modèle 3 French handwriting 19th century ID : 46116

C’est celui-là que je trouve catastrophique, je pense que vous serez d’accord

De Battonappel, (outon D 1h au brans 4,m de posromente du vros d.
La compass piene d’alontion (oullec, age de trouhe ng aunt
l’attidatins dec st donistée en cette Commene s.l de rfusest
fandevait, et deninr donse jonne rale fin Le quele
vous à misenté un eutont du vier masenton du teur
à one tremer de relolie de l’s declarant et de lonsle rababée
(Duleslse etou vourd et au quel es tant, il a dulare Souloir
donner les formmant de (surles aouit les dibet des laracion
et iorésenlation foite en portenma au ians de aucles lonel
e mayale age de l’ingleriot aur on a dond daunistee
a ppare et domine que de porle age de tamnbe troir rentde
ne a ttrembriguées et danslestee en tette fonmince dons demp
hoone de profidion Les quele aprè quil lene en a clé
foit biued ont eligne avec le pee de ‘enfour et nour
dCausée
a que defut
iie u

Modèle 4 New France 17th-18th centuries ID 46116

On arrive à lire la structure de l’acte, mais c’est pénible. J’estime 10% de mots « importants » exacts, mais à la relecture c’est un peu sévère. En recomptant, c’est plutot 50% de mots exacts si on compte les petits mots (à, de..)

De Valloncappel, Contont D’harbranch, De parteomnent de Rord.
Et Comparn pierre Valimtin Cauel, age de trute Cinq ant
laffiratent du S Domuulie en Cette Commence vils de defsect
Jean Betroit, et denor Bopte Jrann tole Vitre Lequel
vous a presenté un enfont du sixe Masemin De hier
à onze hemet de relevée de lusdeclatant et de Eineles rolalie
Diverlue Son poud et auquel etfaut il a declaré Vouloit
Donne les prenoint de Charles romt lesdites dutaration
et presentation fortes en prisemet du Sieur Bharles lom
Smaguhe age de Vingt Sest audue a Borte et donneilie
a Contre et Domiingue degroote age de trente troid du
he a Vieuberquin et donneilie en Cette Commene tout deux
Rolanet de prosession Lesquell apri qu’il leur en a eté
fait lectead ont signé adec le pere de l’enfant et nous
&laurrie
ste que dessus /.
Chaire dae 2

Notes annexes

  • Pour tester un modèle rapidement: page des modèles publiques https://readcoop.eu/transkribus/public-models/, sélectionner un modèle, charger le document, ça transcrit (parfois ça met du temps). Sauver le résultat sur son ordinateur. Je vois que le super-modèle « Text Titan 1 » n’est pas disponible ici, les autres modèles testés dans l’article le sont
  • Pour faire des transcriptions à un document ou une collection de document et les conserver, les retravailler :
    • se connecter à https://app.transkribus.eu/, avoir des crédits de disponible (on en a 500 à la création d’un compte), charger le document dans une collection
    • étape facultative: détection de layout et correction. Sélectionner le document, clic ‘Recognize’, clic ‘Layout’ (mise en page, segmentation), sélectionner un modèle (ici, « Universal Lines » convient), lancer la détection. Cela ne consomme pas de crédit. Visualiser comment on été détectées les lignes, corriger si besoin. Dans ces test je ne l’ai pas fait, j’ai conservé le défaut sur les trois dernières lignes lues dans le désordre.
    • ‘Recognize’, ‘Text Recognition’, sélectionner le modèle, « Start recognition ». Cela consomme un crédit
    • Retourner à la page principale, en haut à droite : Jobs. Surveiller la progression de la tache (ou revenir plus tard). Quand c’est fini, click sur le document l’ouvre, avec sa transcription

Objectif observation d’une transcription par IA (réussie)

On se lance enfin dans l’observation d’une transcription par Transkribus.

Je travaille sur l’acte de 1816, Wallon-Cappel, en français, celui qui nous a servi d’exemple dans les articles L pour détecter les Lignes avant de déchiffrer et N Nouvel essai de détection de ligne sur un acte de naissance de 1816.

On a vu que le modèle de détection de lignes s’en sort plutôt bien, avec un problème dans la zone de signature, mais cela ne va pas trop nous gêner.

J’ai essayé deux modèles, je vous présente en détails celui qui marche le mieux.

Tuto rapide Transkribus

  • https://app.transkribus.eu
  • il faut avoir un compte et des crédits. A la création du compte, on a un crédit de 500, ce qui permet de faire 500 transcriptions
  • il faut avoir chargé le document dans Transkribus (bouton « Upload File » car mon interface s’est remise en anglais)
  • sélectionner le document, puis bouton « Recognize »
  • voir capture d’écran, il faut sélectionner un modèle en s’aidant des filtres. Je choisis « handwritten » (manuscrit), French (français), entre le 18ème et 19ème siècle (c’est la barre sous « centuries »).
  • Sélectionner un modèle, et cliquer sur « Start recognition »
  • Ça va travailler en arrière-plan. Pour voir où ça en est, il faut aller dans le menu « Jobs ». De là, on voit tout ce que Transkribus a fait pour nous en arrière plan. Sur cet exemple, toutes mes tâches sont en état « Finished », tout est fait. C’est très rapide, de l’ordre de une minute pour un document dans mon essai.

Résultats avec le modèle « The Text Titan 1 »

Voilà le résultat

En première impression, la transcription donne quelque chose de très lisible. Quelle en est la précision? Pour l’évaluer, j’ai compté le nombre de mots dans l’acte d’origine : 132. Puis j’ai compté le nombre de mots erronés dans la transcription : 19. Cela fait un pourcentage d’erreurs de 14%, ou 86% d’exactitude

Ensuite, j’ai analysé sur quelles catégories de mots la transcription est imprécise. Voilà mes catégories:

  • les noms de lieu (ou toponymes)
  • les noms de familles (patronymes)
  • les prénoms
  • et les mots stéréotypés, je ne sais pas comment les appeler, les mots qui reviennent très souvent dans un type d’acte donné et que les humains reconnaissent facilement dès qu’ils ont quelques modèles. Je vais les appelé ‘mots spécifiques au type de document »

TotalErreurs% Liste
Tous mots confondus1321914%
Noms de lieux6467%Harbrouill pour Hazebrouck
Cattre pour Castre
Bon pour Borre
Veuberquin pour Vieu[x]berquin
Noms de famille6350%Cauvel et Cauwie pour CAUWEL
Vitte pour VITSE
Prénoms13431%Binoit pour Benoit
Emolie Rotalier pour Emilie Rosalie
Louet pour Louis
Mots spécifiques aux actes de naissancebeaucoup7peuencore vivante, défunt, ans, sexe, lecture, né, vouloir (dans expression « vouloir donner »)
Erreurs de lecture du modèle « The text Titan 1 » dans mon acte

On voit donc que le modèle IA se trompe sur les lieux deux fois sur trois, sur les patronymes une fois sur deux et sur les prénoms une fois sur trois. Il se trompe aussi sur les noms spécifiques aux actes de naissance, mais je n’ai pas quantifié.

On a l’impression que ce problème sur ces quatre catégories de mots est relativement facile à résoudre. Voici comment les humains les résolvent, et ce qu’il faudrait aux IA pour les résoudre.

HumainsIntelligence artificielle
noms de lieuxliste de noms de lieux, sélection par proximité géographique avec le lieu de l’acte ou d’autres lieux mentionnés dans l’actedéjà, arriver à identifier qu’un mot est un nom de lieu; accéder à des ressources sur les noms de lieu
noms de familleconnaissances des noms de familles présents dans la zone géographique; rapprochement avec des noms de famille déjà présents dans l’acte, ou dans le registre (consultation des tables décennales par exemple)idem qu’avec les noms de lieu, mais pour les patronymes
prénomsprénoms présents sur la zone géographique à l’époque considérée ; prénoms déjà présents dans le même registre (tables décennales également)idem qu’avec les noms de lieu et les patronymes, mais avec les prénoms. C’est plus simple peut-être car il me semble que le stock de prénoms est beaucoup, beaucoup plus limité.
mots spécifiques au type d’acteprendre modèle sur les autres actes du même registrele modèle IA doit être entrainée avec des documents de similaires à ceux qu’on veut déchiffrer

Notez que ce tableau vient de ma réflexion immédiate là, à chaud. Néanmoins, il y a un parallèle avec l’article de recherche dont je rends compte ici : Finir l’expérience IA et cartes : compte rendu d’un article de recherche. Une des conclusions des chercheurs est (traduit et interprété par moi)

Les modèles sont limités car ils n’ont pas accès aux données à mettre sur les cartes [ je suppose qu’il s’agirait, exemple super simple, de listes de communes géolocalisées ]. L’intégration de modules de recherche et de collecte de données est incontournable. En effet, les IA entraînées juste à partir d’exemple de cartes existantes ne peuvent pas produire de carte représentant des phénomènes spécifiques, ou des statistiques

Transkribus French model 1

Bien moins bonnes performances que l’autre. mettre le tableau, pas de calcul d’erreurs

In Progress         In Progress                Done                Ground Truth                Final       25.11.2023, 12:51

Ma conclusion

Très forte sensibilité au modèle ; grosse grosse différence ; comparer les modèles, pas bien documentés, la différence = nombre de documents?

Erreurs sur les mots stéréotypés, noms propres, prénoms, lieux. Ce qui me fait penser qu’en entraînant un modèle sur un petit corpus donné, l’IA peut vraiment se débrouiller. Là on a entrainé sur qq chose de vraiment gros et général, on a bien l’impression qu’on apprend à qq un à lire uniquement à partir des registres de Wallon Cappel, il va très bien s’en sortir. par contre, pas en généralisation.

Pour accélérer la lecture d’un corpus je pense que ça marche très bien: tout un registre, puis lecture humaine de qq un, qui saura survivre aux approximations et reconstituer les prénoms, noms et toponymes sans s’émouvoir. reprendre la correction acte par acte de ceux qui posent problème

2- les subtilités de détection de ligne sont diaboliques

Nouvel essai de détection de ligne sur un acte de naissance de 1816

Dans l’article L pour détecter les Lignes avant de déchiffrer, j’ai lancé la détection de ligne dans Transkribus sur l’acte de naissance de Charles Louis CAUWEL, 1816. J’avais utilisé le modèle « Universal Lines », et le résultat était parfait : l’IA avait bien repéré chaque ligne.

Mais pourquoi je m’étends sur la détection de lignes?

Cela ne parait pas bien sorcier, car la structure de cet acte est claire, les lignes sont bien séparées, légèrement penchées mais bien parallèles, il n’y a pas d’annotation en marge, pas de lignes écrites entre les lignes. La détection de ligne peut sembler une formalité, sur laquelle on se demande pourquoi je m’étends.

Détection de ligne avec modèle « Universal lines » de Transkribus.

En fait, c’est que souvent ça a l’air de bien marcher, mais en fait il y a des détails qui peuvent rendre le déchiffrage incompréhensible et difficile à corriger.

Un détail pas grave : inversion d’ordre de ligne

Voilà ce que je pense qu’il y a écrit après le trait rouge. J’ai rajouté la ponctuation pour qu’on comprenne :

Lesquels, après qu’il leur en a été fait lecture, ont signé avec le père de l’enfant et nous, maire, date que dessus. [signature] P.V. CAUWEL

Mais l’aviez-vous repéré ? La détection de ligne a inversé l’ordre de la signature et la dernière ligne. Regardez les lignes 15 et 16, je vous ai surligné les numéros. L’IA pense que la signature doit être lue d’abord, et la ligne 15 ensuite. Je me demande pourquoi d’ailleurs.

Donc quand on demandera à l’IA de déchiffrer, en supposant qu’elle arrive bien à lire les mots, elle nous dira :

[13] Lesquels, après qu’il leur en a été [14] fait lecture, ont signé avec le père de l’enfant et nous [15] P.V. CAUWEL [16] maire, date que dessus.

Cette inversion n’est pas bien grave, on s’y retrouve.

Un peu plus embêtant : coupure de ligne

Cet exemple sur le même acte a été obtenu en appliquant un autre modèle de détection de ligne*. Tout va bien jusqu’à la zone où il y a la signature. Après, regardez le 15, 16 et 17. C’est un peu n’importe quoi.

Là, quand on demandera à l’IA de déchiffrer, en supposant toujours qu’elle arrive bien à lire les mots, elle nous dira :

[13] Lesquels, après qu’il leur en a été [14] fait lecture, ont signé avec le père de l’enfant et nous [15] P.V. CAUWEL [16] date que dessus [17] maire.

Je dirais que ce n’est pas encore dramatique en lecture rapide. Par contre, si on doit corriger la transcription pour la publier, par exemple, ça fait vraiment du travail manuel en plus.

En conclusion : la détection de ligne, c’est important

C’est tout, c’est ma conclusion

Notes

  • 2ème essai de détection de ligne obtenu avec segmentation utilisée par la détection d’écriture « Transkribus french model 1 »
  • Plus ou moins synonymes : détection de ligne, détection de mise en page, segmentation, layout detection

Mon essai maladroit de repérage d’un patronyme dans un acte de 1589

Soit mon plus vieil acte concernant le patronyme de ma mère. Hondeghem (59), 1589. Naissance de Rémi GHYS.

L’acte transcrit par un humain

Sauf erreur, l’acte en latin raconte que le 16 a été baptisé l’enfant de Rémi (Remigi) GHYS et Jacqueline (Jacoba, sans patronyme), le parrain François (Franciscus) XXX, la marraine Jacqueline XXX le nom de l’enfant François.

La transcription n’est absolument pas de moi mais d’une personne super forte croisée sur une forum il y a une dizaine d’années. Je mets XXX quand cette personne n’est pas sûrs du patronyme, parrain pourrait être GHIRAULT, marraine RYCKE.

L’acte est en latin, la version transcrite par qqun qui s’y connaît : 16 baptiz(atus) proles Remigii | Ghys et Jacobae suscep(tor) | Franciscus Ghirault ? | et suscep(trix) Jacoba Rycke ? | nomen prolis Franciscus

Détection de lignes par Transkribus

J’ai décrit L pour détecter les Lignes avant de déchiffrer. Enfin j’ai essayé, j’ai des retours qui me disent que ce n’est pas facile à comprendre.

Néanmoins je fais pareil avec l’acte de 1589, pour voir comment le modèle « Universal Lines » de Transkribus se débrouille avec un vieil acte comme ça.

Voilà la résultat. Les lignes bleues, c’est les lignes. Transkribus a bien trouvé où il faut lire et dans quel ordre. En apparence il a tout bon. Il a bien repéré où il faut lire, dans quel ordre.

Par contre si on zoom, on voit un défaut assez embêtant

Le défaut embêtant

Je vous montre. Déjà, avez-vous repéré le patronyme GHYS? Il est là

Je vous explique comment on lit, parce que ce n’est vraiment pas évident. Je déchiffrage n’est pas de moi, le décorticage l’est.

Regardez bien maintenant la ligne bleue du milieu. Il y a un petit 2, et un petit 3. Ce sont deux lignes disjointes. Cela veut dire que l’IA pense qu’elle a un mot à lire (ligne 2), puis un blanc (ou un gribouillis), puis qu’une autre ligne reprend (ligne 3).

On voit peut-être mieux comme ça :

Vous voyez que le patronyme GHYS est coupé en deux. Un bout sur la ligne 2, un bout sur la ligne 3. Aucune chance de le déchiffrage comprenne qu’il y a écrit GHYS.

Ma conclusion

Dans des articles précédents, j’ai décrit des cas d’usages de la reconnaissance automatique d’écriture en généalogie. Je m’intéresse au cas numéro 1 décrit ici : Genèse de mon intérêt pour reconnaissance automatique d’écriture. Il s’agirait de repérer un patronyme donné dans un ensemble de documents, par exemple tout un registre.

Dans le présent article, j’ai montré à l’IA un acte de l’ensemble de document. Dès l’étape de détection de ligne, sans même aller jusqu’à l’étape de déchiffrage, on voit que dans cet exemple, l’IA est inopérant à détecter notre patronyme d’intérêt.

Ce qu’on a appris : pour repérer un patronyme dans un corpus, il y a des chances que la méthode consistant à tout faire déchiffrer puis chercher le patronyme dans le résultat ne marche pas. C’est assez maladroit en fait, on demande à l’IA de faire beaucoup plus que ce dont on a besoin.

En fait, il faudrait entraîner un modèle d’IA à faire la tâche « repérage d’un patronyme donné » et uniquement celle-ci, sans chercher à trouver les lignes ni à déchiffrer le reste. Trankribus ne permet pas de faire cela. Il faudrait trouver ou créer d’autres solutions.

L pour détecter les Lignes avant de déchiffrer

J’explore les usages de l’intelligence artificielle par les généalogistes. J’ai présenté la plateforme de reconnaissance d’écriture Transkribus dans K pour allez essayer Transkribus.

Maintenant, quelque chose qu’il faut comprendre avant de se lancer : dans l’acte de déchiffrage, le premier truc qu’on fait, sans y penser, ce n’est pas le déchiffrage.

Le premier truc qu’on fait quand on veut lire

Je vous donne ça à lire

Wallon-Cappel (59), naissance de Charles Louis CAUWEL, 1816

En fait le première chose que vous allez faire, si on y pense, c’est : identifier où il faut lire. Accrocher du regard le début de la première ligne (je l’ai mise en bleu), suivre la ligne (en déchiffrant), et à la fin de la ligne repérer la ligne suivante (je l’ai mise en rouge).

Le premier truc qu’on apprend à faire aux IA

Dans le déchiffrage avec IA, il y a forcément deux étapes. La première comprend la détection de ligne (c’est un peu plus large en fait), et la second le déchiffrage.

Dans Transkribus, on peut choisir de le faire explicitement en deux étapes : d’abord faire la Segmentation, ou Layout détection, ou détection de Mise en page; éventuellement corriger ; puis lancer la reconnaissance d’écriture.

Mode opératoire avec Transkribus

Pour lancer uniquement une reconnaissance de ligne avec Transkribus. Cette action n’utilise pas de crédit. Je ne vous ai pas encore parlé des crédits dans Transkributs, j’y reviendrai. J’appelle ça reconnaissance de ligne, je pense que le vrai terme est Segmentation. En anglais, segmentation ou layout detection.

  • je vais dans https://app.transkribus.eu/, je me me connecte (il faut avoir crée un compte donc)
  • Je charge mon image dans une de mes collections, je sélectionne mon image et je choisis : « recognize » (mon interface est en français, mais ce bouton n’a pas l’air tout à fait traduit)
  • Ensuite, très important, sélectionner « Mise en page ». En anglais c’est : Layout.
  • ll y a une liste de différents modèles. Il faut choisir un modèle. Je pense qu’il faut commencer par « Universal lines », je suppose que c’est un modèle qui marche à peu près pour tous les documents simples, en écriture de gauche à droite.
  • Sélectionner un modèle, puis bouton « début de la reconnaissance ». Après il faut attendre que je ‘job’ soit fini (faudra que je vous explique ça aussi), retourner dans le document.

Résultat de la détection de ligne

Vous voyez des lignes bleues. L’IA a réussi sans problème à détecter les lignes. Vous voyez aussi un cadre vert, l’IA a vu qu’il n’y a qu’une zone de texte, je vous montrerai d’autres exemples.

On a réussi une détection de ligne (une segmentation, en fait) sur un document simple. Là on est content, sinon l’interface de Transkribus permet de modifier les lignes.

A ce stade, on a très envie de tester de déchiffrage, mais je veux encore parler de la segmentation (détection de lignes) pour des documents plus compliqués. A bientôt!

K pour allez essayer Transkribus

Transkribus est une plateforme de reconnaissance d’écriture, qui propose aussi des fonctionnalités de transcription, recherche de documents, collaboration. Le projet est la continuité de deux projets de recherche européens. Il est maintenant géré par une société privée, READ COOP.

Les atouts de Transkribus

Selon moi :

  • accès entièrement en ligne (pas d’installation à faire sur son ordinateur ou sur un serveur local)
  • interface super simplifiée il y a deux mois (avant, c’était un peu plus compliqué). Interface partiellement en français. Par contre le contenu est plutôt en anglais par exemple la description des modèles, ci-dessous.
  • beaucoup de tutoriels et de retours d’utilisation en ligne, sur Youtube. Surtout en anglais, un peu en français (Québec) et dans d’autres langues
  • permet de travailler à plusieurs (pas testé)
  • modèle économique qui permet de tester sans frais. Plus en détail, il n’y a que l’utilisation des modèles de transcription qui sont payants. Les modèles de segmentation (j’expliquerai dans un autre article) et toutes les autres fonctionnalités sont gratuites. J’ai cru comprendre que ce modèle doit évoluer bientôt.

page d’accueil de la plateforme Transkribus

Qu’attendre de Transkribus pour le déchiffrage

Transkribus sait déchiffrer des documents manuscrits ou imprimés. Il utilise des modèles d’intelligence artificielle (IA).

Le propre des IA, c’est qu’elles savent faire les choses pour lesquelles elles ont été entraînées. Entrainer une IA (on parle plutôt de modèle d’IA), c’est lui donner des données avec la solution, et elles se débrouillent pour comprendre comment arriver à la solution.

Pour le déchiffrage, on donne donc au modèle des documents à déchiffrer, et la transcription faite par des gens, des vrais. Cela s’appelle données d’apprentissage, et on trouve les termes de « ground truth », ou « vérité de terrain ». L’apprentissage marche mieux si on donne à l’IA pour son apprentissage des corpus homogènes, plutôt que d’essayer de lui apprendre tout à la fois.

Transkribus propose des modèles entraînés, soit par l’équipe Transkribus, soit par les utilisateurs. Bon nombre de modèles sont issus de ces projets de recherche. Echantillons ci-dessous (faites défiler), regardez la diversité des projets ou institutions d’origine, et la diversité des langues et des époques. Pour voir la liste de tous les modèles, c’est ici https://readcoop.eu/transkribus/public-models/

Il y a encore peu de modèles entraînés en français, 14 à ce jour. Certains sont très généraux, comme celui appelé « French – General Model », on ne sait pas bien sur quoi il y été entraîné, la description dit juste « modèle pour l’écriture manuscrite ancienne et moderne, en français » ; d’autres très spécifiques, comme celui dédié à l’écriture réputée illisible d’un certain notaire de Montréal au 17ème siècle.

Tester un modèle, pas à pas

Pour commencer, je vous propose de tester des modèles à la volée. Ce n’est pas vraiment l’utilisation de Transkribus.

Pas besoin de compte, pas de consommation de crédit (je vous expliquerai les histoires de crédit plus tard), et pas possible de modifier la segmentation, je vous expliquerai ça plus tard aussi mais ça veut dire que l’IA risque de ne rien comprendre à l’organisation de la page, par exemple s’il y a deux colonnes. Vous êtes prévenus!

  1. Aller à la page des modèles https://readcoop.eu/transkribus/public-models/. C’est tout en anglais par contre
  2. Choisir un modèle. Moi je fais : passer la section « featured models » (ce sont les modèles mis en avant), aller jusqu’à la section « All public models ». Il y a un outil pour filtrer, en général je filtre par langue (language – french). Cliquer sur le nom du modèle
  3. Quand on est dans un modèle, on peut lire les explications le concernant (en anglais). Mais surtout, plus bas dans la page, on a une zone où charger une image pour tester le modèle. Select a file > et sélectionner un fichier de votre ordinateur; ou faites glisser une image dans la zone « Drag an image here »

4. Ça dit « uploading ». L’image se charge. Ça met du temps, pas mal de temps, j’ai le temps d’aller dîner. La vraie plateforme Transkribus est je pense plus rapide, et permet surtout de lancer les opérations et revenir plus tard

5. Revenir de dîner. Transkribus a transcrit. Dans mon exemple, ça donne vraiment n’importe quoi. Il s’agissait d’un extrait d’une page d’un minutier de notaires du 18ème siècle, en français. Le modèle utilisé était « French – General Model ».

Qu’en conclure

Je vous laisse expérimenter des déchiffrages. Selon vos documents et vos choix de modèles, vous obtiendrez peut-être des résultats intéressants, mais le plus probablement non. Les retours m’intéressent, ici, sur TwitterX @mamazonzon ou sur Blue Sky @mamazon.bsky.social

Et on ne conclue pas « ça ne marche pas ». Il y a des étapes à effectuer pour apprendre aux IA comment faire le boulot. Les prochaines fois, je vous parlerai de

  • Segmentation. Apprendre à un modèle comment s’y retrouver sur une page. Les zones, les lignes.
  • Entraîner un modèle.

Indexer 0,016% des matricules Napoléoniens

Encore une situation mobilisant le déchiffrage d’écriture. C’est toujours pour voir comment l’IA pourrait aider les généalogistes amateurs

Le projet matricules Napoléoniens

Généanet héberge plusieurs projets collaboratifs. L’un deux a pour objectif d’indexer les registres matricules de la garde impériale et de l’infanterie de ligne (1802-1815). Ici -> Matricules Napoléoniens 1802-1815.

Le truc est gigantesque. A ce jour, il y aurait 1 197 408 soldats indexés. On peut les rechercher ici https://www.geneanet.org/releves-collaboratifs/view/38900

Ma participation à matricules napoléoniens

J’adore plonger dans les registres, j’adore les projets collaboratifs. Ces relevés m’intéressent aussi pour résoudre quelques énigmes : parcours de mon ancêtre Borosky, polonais de Napoléon ; à qui appartient la plaque 82.

Donc, je participe. Les registres sont en ligne. J’ai un registre qui m’est réservé. 341 pages. Chaque page ressemble à ça. Chaque ligne est un soldat. La case de gauche contient notamment son nom, prénom, ceux de ses parents, date et lieu de naissance. Ce sont ces informations qu’il faut déchiffrer et saisir, de façon à les rendre recherchables.

71e régiment d’infanterie de ligne (ex 82e régiment d’infanterie de ligne), formation au 11 août 1814 (matricules 1 à 1 790).SHD/GR 21 YC 640

Je dois donc reporter ces informations sur un fichier Excel, une ligne par homme.

Les étapes

Zoomer sur la case de gauche

  • Déchiffrer et noter le nom de famille, le prénom, celui de son père, de sa mère. Les noter. Parfois, on déchiffre comme on peut. Il me semble quand dans mon registre, l’écriture est assez homogène, quoiqu’il faudrait vérifier
  • Déchiffrer la date de naissance, la noter. Comme on est en 1814, on s’attend à ce que les hommes soient nés entre 1780 et 1797, quelque chose comme ça, bien qu’il puisse y avoir des exceptions. Les jour et mois de naissance ne sont pas toujours notés.
  • Déchiffrer de département et la commune. Là, on rigole moins :
  • Déjà les mecs viennent de partout, vraiment partout de la France d’alors. Les rédacteurs, j’imagine, ne connaissent pas les noms des villes et villages, des cantons. Les orthographes sont fantaisistes, phonétiques, pittoresques.
  • Les départements inconnus aujourd’hui : Mont-terrible, Léman, Les Forêts… Wikipedia donne la liste des départements français de 1811, ça a continué à bouger après. L’article Liste des anciens départements français a l’air plus exhaustive.
  • Pour comprendre les noms des villes et villages, la stratégie consiste à : lire le nom du département, déchiffrer le nom du canton – ça doit être une ville du département. Cela restreint déjà. Ensuite, trouver le nom de la commune, qui doit donc appartenir à son canton. S’aider peut être de l’article liste des cantons français avant 2015. Il me semble avoir souvent utilisé Geneawiki également

Comment je me suis lassée, et compte sur les IA

Je travaille sur un registre qui compte 1790 hommes. 6 mois après avoir commencé, j’en faisais une heure par ci, par là, j’en étais à 200, soit 1,1% ma mission, qui elle-même représente 0,3% du projet. Ou 0,016% des un million et quelques soldats déjà indexés. Y’a intérêt à ce que je vive encore longtemps.

Je pense néanmoins que les parties les plus répétitives pourraient être automatisées.

Le registre est un formulaire imprimé, rempli à la main. Sa structure est toujours identique, le nom est dans le nom, la date dans la date. Il me semble qu’une IA pourrait largement faire le pré-traitement, préremplir les noms, prénoms, dates, et les mettre directement dans un fichier, ou une base de donnée.

Si on plus elle arrivait à traiter le nom des communes, ce serait formidable : il s’agirait de lire les noms de lieu sans tenir compte de l’orthographe, juste la phonétique, et en déduire la commune en s’aidant du nom du canton et du département. Le travail d’indexation consisterait à vérifier et compléter.

Bref, il me semble que sur ce projet, ou des projets similaires, gagneraient vraiment à être partiellement automatisés. Cela me motiverait plus de travailler à une automatisation, puis à des taches de vérifications, qu’à continuer mes 98,9% d’indexation restante (qui est au point mort depuis plus d’un an).

Qu’en pensez-vous? connaissez-vous des projets d’automatisation (avec ou sans IA, mais je pense avec) pour des indexations similaires?

Huile de coude collaborative, polonais, Napoléon, recensements. Scénario de déchiffrage numéro 2

On continue un panorama de situations mobilisant le déchiffrage d’écriture. C’est pour comment l’IA pourrait aider, maintenant ou un jour.

Le projet polonais de Napoléon

Il s’agit d’un projet collaboratif. Nous étions trois, Laurent, ma sœur et moi.

De mon côté, c’est parti d’un ancêtre polonais à moi, et à ma sœur donc, un qui s’appelait Borosky. Un jour, on a trouvé son acte mariage. C’était vers 1817 à Lesges, une commune de l’Aisne. L’acte de mariage indique que François Paul Borosky est ex-militaire du sixième régiment de lanciers de la jeune garde né à Cracovie en Pologne. Il s’agit donc d’un soldat de l’armée de Napoléon, recruté en Pologne, et resté en France après 1814, chute de l’Empire.

Cette découverte nous a mises en relation avec Laurent, généalogiste amateur aussi. Laurent travaillait sur les soldats Polonais des armées de Napoléon restés en France, en particulier dans l’Oise où ils sont le plus nombreux ; et cependant ils sont très peu, une centaine peut-être. Laurent avait entrepris de les recenser un à un pour reconstituer leur parcours et leur devenir. Gros travail qui a abouti à la publication d’un article dans une revue de Généalogie, je vous mettrai les références à la fin.

Bref, pour ce projet, Laurent a eu besoin de consulter les recensement de population de chaque commune de l’Oise, année 1872. L’objectif était d’identifier les descendants des soldats polonais pour les croiser à d’autres sources. C’était du boulot. On s’y est donc mis à trois, avec de l’huile de coude et en mode collaboratif.

Disséquer le cas

J’essaie de dégager les étapes de ce que nous faisons, pour voir où l’IA aurait pu nous aider.

1- pré-trier les communes

Les recensements de population de 1872 de l’Oise, en dernière page, ont généralement (pas toujours) un récapitulatif donnant le nombre d’étrangers. Cela permet d’exclure d’emblée les communes sans étrangers.

AD Oise, 6Mp125 Brétigny 1872

1 étranger.

Notre activité a donc consisté à ouvrir le recensement 1872 de chaque commune de l’Oise (il y en a plus de 600 aujourd’hui, ça donne un ordre de grandeur), aller vers la dernière page, chercher le tableau récapitulatif, et voir s’il y a un chiffre en face de « étrangers ». En prendre note dans un tableau de traçage. Sans garantie que le récapitulatif existe, qu’il soit toujours à la même place ou du même format (en fait je ne me souviens plus si c’est le cas).

En imaginant une IA qui ait accès facilement aux recensement en ligne, j’imagine que c’est assez facile de lui apprendre à repérer ce formulaire, trouver le chiffre, et trier les communes en 2 listes: présence d’étrangers, absence d’étrangers.

2- Commune par commune, repérer les polonais

Uniquement pour les communes identifiées dans l’étape précédente, on cherche les polonais.

  • contrairement au scenario 1, nous ne connaissions pas les patronymes recherchés. Et puis de toute façon l’orthographe des patronymes polonais est incertaine, évolutive, et parfois totalement fantaisie.
  • néanmoins, repérer les K et les Y reste un bon moyen visuel de repérer les patronymes à regarder de plus près
  • la mention « polonais » figure dans le recensement, il faut repérer où. Ici, colonne « nationalité ». Même sans arriver à lire le contenu, par exemple si le niveau de zoom ne le permet pas, on arrive à repérer les cases qui demandent notre attention.

AD Oise, 6Mp125 Brétigny 1872. On sait qu’il y a un étranger, il faut le repérer dans tout le recensement (ici 8 pages, ça va). Le voyez-vous? (sans regarder la croix rouge!)

La recherche humaine consiste donc à tourner une à une les pages des recensement. Il y en a parfois moins de 10, et parfois plusieurs centaines. L’humain apprend à repérer les noms avec les K, les Y, et à repérer les cases où on s’attend à voir des info de nationalité.

3- noter les informations

Une fois le polonais localisé dans le recensement, on note les informations. Déchiffrer le nom, si on peut, les prénoms, la profession, l’âge, les commentaires. La rue ou le lieu-dit de l’habitation aussi.

Ici, on a trouvé KABRONOSKY Théophile Frédéric, domestique de la famille Vignon au château. 17(37) ans et 4 mois. Polonais né à Manicamp (Aisne) de parent polonais; non naturalisé. On reporte cela dans le tableau d’avancement, de ce type :

Rôle de l’IA ? Sur des déchiffrages courts très ciblés comme ici, avec des patronymes à l’orthographe incertaine, je ne suis pas persuadée qu’il y aurait eu un intérêt. Le travail répétitif, à mon sens, c’était le pré-triage des communes, puis le pointage de potentiels individus polonais.

Plus d’info sur le projet polonais Napoléon

Site de Laurent datant de l’époque du projet (2012), je ne pense pas que son appel à contribution reste d’actualité – http://lkokanosky.free.fr/polonais-napoleon-sommaire.html

Site internet de Laurent:  Les polonais de Napoléon. De temps en temps, des personnes concernées par ces parcours le contactent, ou me contactent, mais je crains bien que nous n’ayons ni l’un ni l’autre que peu le loisir de nous replonger dans le sujet.

Laurent Kokanosky a écrit un article Les Polonais de Napoléon dans l’Oise (1814-1825) paru dans s la revue de la Société d’Histoire et d’Archéologie du Valois (Histoires du Valois, « Les Polonais de Napoléon dans l’Oise », numéro 3, 2014).

Concevoir un site comme celui-ci avec WordPress.com
Commencer