J’en suis toujours à me demander comment automatiser l’indexation des registres militaires napoléoniens grâce à l’IA. Dans le dernier article Quasi-échec…, j’ai constaté que je n’arrive pas à m’en sortir avec la plateforme de transcription Transkribus. Soit que je m’y prends comme un manche, soit que c’est quand-même encore plus compliqué que ça ma bonne dame.
Je suis donc allée rechercher des retours d’expérience de projets similaires. Il est question ici d’un projet nommé RegistrIA, mené en 2021-2022 par le Service Historique de la Défense (SHD). Le projet a été présenté en décembre 2022 lors de Gene@22, les assises de la généalogie, organisé par la Société française de Généalogie et les Archives départementales des Yvelines. Brigitte a fait un compte-rendu de cette journée dans cet article (merci), et la FFG met à dispositions les enregistrements des conférences sur sa chaîne YouTube, c’est ici (merci)
Voici ce que je retiens de cet enregistrement d’une durée de 30 minutes.
- Conférence donnée en duo, M. Touko-Nicheu, chef du bureau de la transformation numérique ; Catherine Méot, archiviste spécialisée en numérique. Commentaire : c’est un marqueur des conférences sur le numérique et l’histoire ou les archives, deux voix, une personne de l’informatique, une du métier de l’histoire ou des archives. Je trouve ça vraiment intéressant. Je ne peux aussi pas m’empêcher de rajouter que l’informaticien est toujours (?) un homme. Si vous croisez des contre-exemples, signalez-le moi !
- Le projet RegistrIA du SHD s’intéresse aux fiches matricules d’Oran, Constantine et Alger, car les anciennes colonies sont du ressort du SHD. Commentaire : je n’ai jamais eu à consulter ce fond, je suis allée voir sur le site du SHD Mémoire des hommes. Dates 1866-1918. Le modèle des fiches est le même que les fiches matricules conservées par les Archives départementales. Formulaire imprimé, remplissage à la main, éventuellement plusieurs écritures différentes
- Le projet RegistrIA par des fiches déjà numérisées. Par contre les documents ne sont pas structurés, on ne peut pas faire de recherche dedans. Il y a 477 registres, 200 000 fiches, plus d’un million d’informations à indexer. Commentaire : je lis par ailleurs que le numérisation de ce fonds date de 2019. Numérisation 2019, indexation par IA 2021, ça va vite! Dans les question – réponses, le conférencier souligne que 3 ans auparavant, le volet numérisation n’était pas engagé au SHD ; là ils ont l’air d’avoir sécurisé le budget pour la numérisation, je comprends que c’est une volonté politique.
- Le SHD a fait appel prestataire, une startup spécialisé en IA. Suite à une question de la salle sur la possibilité de se passer d’aide extérieure, les intervenants répondent que ce n’est pas la nature de leurs fonctions ni leurs compétences. Commentaires : je n’ai pas trouvé quelle startup a travaillé pour eux (et ça m’énerve un peu). Je me souviens avoir vu une retour d’expérience (conférence) d’une startup sur un projet en partenariat avec des archives, je n’ai plus les détails, ça m’intéresserait maintenant de revoir cette intervention, si quelqu’un l’a.
- Projet en plusieurs phase. Commentaire : ils parlent de phases de conception puis réalisation, et aussi d’un processus en 4 phases, je n’ai pas compris comment ils découpent ça, il me faudrait un accès au diaporama de la conférence qui n’est pas visible sur la vidéo. Commentaire 2: je comprends aussi que la plateforme technique est chez le prestataire, je suppose qu’il s’agit de l’infrastructure d’ordinateurs, processeurs, mémoires, stockages, car le « Cloud » n’est pas fait que de nuages, c’est très matériel derrière.
- Création d’un algorithme de reconnaissance d’mages par le prestataire.
- D’abord: identification des zones à traiter sur la fiche, c’est-à-dire celles où il y a des champs à extraire. Ces zones sont toujours au même endroit. Commentaire : c’est bien le processus qui s’appelle la segmentation, et que j’ai aussi appelé détection de mise en page ou détection de lignes dans mes précédents articles. Et on est bien dans le cas où les informations sont toujours au même endroit, fiche après fiche.
- Puis : reconnaissance de caractères. Et également : suppression de bruit. Le bruit c’est par exemple les taches, les ratures. Commentaires : Je suppose que la suppression de bruit est effectuée avant la reconnaissance de caractères.
- Mise à disposition du prestataire un dictionnaire de mots : noms, prénoms, lieux. Pour vérification d’exactitude et de cohérence avec le déchiffrage. Commentaire : là je suis frustrée, j’aurais bien aimé en savoir plus sur la logique qu’ils ont appliquée pour faire coller le déchiffrage aux listes de noms, prénoms, lieux. Peut-être que c’est de l’ordre de la propriété intellectuelle.
- Amélioration du modèle par itération. Ils fournissent à l’IA suffisamment d’objets pour s’entraîner, ils lancent un premier test, on fait des corrections dans le code , on refait une implémentation. Commentaires un peu techniques : là je crois que c’est encore au stade du développement, ils sont en train d’ajuster les paramètres du modèle. Pas encore à la phase d’entraînement du modèle.
- A chaque itération, ils surveillent le taux de conformité. Dans les projets IA, les livrables sont restitués quand on a un taux de conformité appréciable. Dans ce projet, il s’agit en quelque sort du taux d’exactitude. Si inférieur à 60%, c’est pas intéressant. Par itération, ils ont fini par avec un taux de conformité de 80-85%. Commentaire : pour ce type de projets, ne pas oublier de bien se mettre d’accord sur ce que c’est la conformité ou exactitude. Je pense que cela doit s’évaluer au regarde de ce qu’on en attend en tant qu’utilisateurs. Je reviens sur des articles précédents, le déchiffrage d’un acte simple avec Transkribus : l’évaluation des modèles se fait en taux d’exactitude de caractères (acronyme CER), alors que pour moi, ce qui compte, c’est le taux de mots convenablement transcrits. Un mot est juste ou pas, je m’en fiche qu’il y ait juste une lettre erronée, ou plusieurs, ça compte pareil. Articles : Pourquoi parfois ça ne marche pas : essai de trois autres modèles IA pour la transcription de l’acte 1816 et Objectif observation d’une transcription par IA (réussie).
Commentaires 2. Plus tard on pourra aussi poser la question des mots incompréhensibles car mal découpés, ils sont souvent mal découpés dans l’écriture manuscrite, doit-on demander à l’IA de faire mieux? (oui, j’espère) - Le prestataire leur a restitué un fichier structuré (format xml) qui permet la recherche par mot clef. Commentaire : lien direct vers page de recherche dans cette base spécifiquement. On peut aussi chercher d’un coup sur toutes les bases de Mémoire des Hommes, ce site est vraiment super bien fait.
- Le projet a pris 9 mois. S’ils avaient entrepris cette indexation avec les ressources humaines qu’ils ont au SHD, ils auraient mis 30 ans à extraire les champs de ces 200 000 fiches. Là, en 9 mois, c’est fait avec un taux de conformité tout à fait acceptable, 85%. Commentaire : ah ouais quand même, 9 mois contre 30 ans. Après ce sont les estimations juste avec les professionnels du SHD. C’est possible aussi de lancer des indexations collaboratives avec des bénévoles, ça irait probablement plus vite mais nécessite une bonne communication et coordination.
- Quand il restitue le résultat, le prestataire fournit le taux de confiance. Ce taux est donnée pour chaque registre, et/ou pour chaque champs extrait. Commentaire : Taux de confiance par registre ou par champs ? Les deux conférenciers ne disent pas la même chose, j’imagine que ces taux sont calculés par l’algorithme au niveau des champs, puis présentés par fiche et par registre. En tous cas c’est ce que j’essaierais de faire si c’était moi. C’est très important que la machine donne des « taux de confiance » avec des informations dont les humains peuvent se servir pour aller directement secourir la machine là où elle a galéré. Après, évidemment, il faut que la machine soit réglée pour ne pas trop douter d’elle, ou ne pas avoir trop confiance en elle, cela se configure pendant la phase d’apprentissage.
- Pour pouvoir les mettre en ligne, le SHD fait un contrôle qualité. Les 15% d’informations inexactes sont faites à la main, par l’humain. Au moment de la conférence, un seul registre est en ligne, les autres étaient en cours de contrôle qualité. Commentaire : 15% de 200 000 fiches, cela fait quand même 30 000 fiches – ou moins, enfin ça dépend comment on calcule le taux de conformité. Il y a encore du boulot pour les humains.
Commentaire 2 : Faut-il 100% de conformité avant la mise en ligne ? Pour les archivistes apparemment oui. Je pense que pour les généalogistes, 85% suffirait dans un premier temps, en cours de projet. Le niveau de qualité exigé doit être mis au regard des utilisations, notamment de l’impact des inexactitudes. - Au fur et à mesure de la relecture humaine, les données corrigées sont re-traitées par la machine jusqu’à obtenir un taux de conformité de 100%. Tout cela a pris 9 mois. Commentaire : Pas clair pour moi si a) les humains ont corrigé la totalité les 15% de non conformités, ou si b) les humains ont corrigé un ensemble de non conformités, et le prestataire a montré ces corrections à l’IA pour qu’elle apprenne, et ensuite l’IA a relu tout le paquet. Je crois que c’est b)
- Conclusion du projet
- l’IA a permis d’avoir 100% de conformité en 9 mois. Commentaire : c’est superbe ! Néanmoins on n’a pas d’information sur le budget engagé avec le prestataire, ni les ressources humaines mobilisés en interne au SHD
- Préalable : fichiers issus d’un même fonds avec le même formalisme. Commentaire : ça veut dire que si le formulaire change de forme, c’est mort, il faut reformer la machine
- Autre préalable : la numérisation doit être exemplaire, c’est plus facile pour la machine de travailler sur les bonnes résolutions, pas de zones d’ombre, de flou. Commentaire : dans d’autre retours d’expérience d’utilisateurs de Transkribus, j’entends qu’une trop haute résolution n’est pas nécessaire, voire qu’elle est néfaste car augmente les temps de traitement sans améliorer les résultats
- Commentaire : Pour voir ce que donne le résultat fini : site Mémoires des hommes, -> recrutement et parcours individuels -> Recensement des engagés et appelés des anciennes colonies françaises -> « Faire une recherche ». Cela permet une recherche par nom, prénom, et tous les autres champs indexés dont date et lieu de naissance, classe, numéro matricule. Au jour où je consulte, la présentation indique que 353 registres [sur 477? ] sont en ligne et que cela va être complété au fur et à mesure. Lien vers la présentation du fonds + click sur ‘faire une recherche’
La conférence se poursuit avec la généralisation du projet à d’autres fonds d’archive, à commencer par les Registres des gens de mer. Je compte y revenir. A+
Liens
(591) Géné@2022 02 Les projets RegistrIA et MaritimIA du Service Historique de la Défense (SHD) – YouTube. 30 minutes
Journées de décembre 2022 aux AD Yvelines, Article de Brigitte L’intelligence artificielle au service de la généalogie (chroniquesdantan.com)
Mémoire des hommes, le portail culturel du ministère des armées https://www.memoiredeshommes.sga.defense.gouv.fr/
Présentation et recherche sur le fonds https://www.memoiredeshommes.sga.defense.gouv.fr/fr/article.php?larub=431&titre=recensement-des-engages-et-appeles-des-anciennes-colonies-francaises