L’intelligence artificielle au service de la généalogie

Samedi 3 décembre 2023, la Fédération Française de Généalogie et les Archives des Yvelines proposaient une journée de conférences sur le thème de l’océrisation et de la paléographie.

Ce thème avait déjà été à l’honneur en milieu de semaine aux Archives nationales, lors d’une journée d’études intitulée « La reconnaissance des écritures manuscrites et ses usages dans les archives »

La reconnaissance par ordinateur des écritures manuscrites (ou HTR – Handwritten Text Recognition) est une technologie qui s’appuie sur l’intelligence artificielle afin de transcrire automatiquement des documents : leur contenu est transformé en données prêtes à être exploitées pour des usages numériques.
Son application aux archives patrimoniales s’est considérablement développée ces dernières années. Les Archives nationales organisent une journée d’étude sur cette technologie qui mettra en exergue des projets conduits dans le réseau des archives. Elle insistera à la fois sur les usages que l’on peut faire des données issues des traitements HTR et sur les partenariats qu’il est nécessaire de nouer avec les structures de recherche.

Une partie des conférences des deux journées – peut-être même la totalité – devrait être disponible en visualisation sur internet dans quelques jours.

J’ai pu me rendre aux Archives des Yvelines hier, avec quelques unes de mes complices de Geneatech, pour écouter certaines conférences. Journée bien remplie, pendant laquelle j’ai assisté à six conférences de 45 minutes chacune, parmi un choix d’une vingtaine de conférences différentes, qui tournaient pour la plus grande partie autour justement de la place de plus en plus importante de l’intelligence artificielle, via les techniques d’OCR et d’HTR, dans le domaine des archives.

Un peu de vocabulaire pour nous y retrouver :

OCR : Optical Character Recognition, en français Reconnaissance Optique de caractères, c’est l’ensemble des procédés informatiques qui permettent de transposer des images de textes imprimés – des livres, des journaux – numérisés sous forme d’image, en fichiers de textes pouvant être exploités par des moteurs de recherche ou des logiciels de traitement de texte. La technique OCR, aussi appelée océrisation, vous permet de faire des recherches « plein texte » dans Gallica ou Retronews pour y retrouver des articles de journaux concernant vos ancêtres.
Pour aller plus loin, lisez l’excellent article proposé par Sylvaine sur son blog Passerelle sur le sujet de l’océrisation.
HTR : Handwritten text recognition, en français Reconnaissance de l’écriture manuscrite, c’est l’étape qui suit l’océrisation.
Maintenant que les programmes informatiques sont disponibles de façon presque transparente et habituelle pour quasiment toute la production de textes imprimés sur internet, la recherche s’attelle à l’étape suivante : l’écriture manuscrite, ou plutôt toutes les écritures manuscrites courantes de tout un chacun, qu’on rencontre sur les milliers de kilomètres linéaires d’archives conservées.

Imaginez un monde où le généalogiste cherchant son ancêtre quelque part dans la région du Poitou tapera un patronyme dans son moteur de recherches et y trouvera listées toutes les occurences de ce patronyme, dans les registres paroissiaux, les actes notariés, les actes de justice, les matrices cadastrales, les recensements, les registres matricules, et d’un simple clic accédera au document numérisé correspondant.

Imaginez, mais soyez patient, ce monde merveilleux – ou pas vraiment – n’est pas encore pour demain.

Pourtant la machine – ou plutôt les centaines de machines et de processeurs nécessaires – est lancée. Qu’on le veuille ou non, de nombreux projets travaillent sur différentes versions, différents programmes, différentes applications à base de HTR – de reconnaissance d’écriture manuscrite.

Quatre des conférences auxquelles j’ai assisté abordaient ce sujet :

Présentation des projets RegistrIA et MaritimIA du SHD
Ces projets travaillent sur une lecture par intelligence artificielle des registres matricules des non Français nés en Algérie ayant combattu pendant la 1ère guerre mondiale et sur l’inscription maritime de Bretagne Sud, en vue de l’indexation des informations individuelles pertinentes de chaque fiche.
Présentation du projet « Lettres en lumière » en Côte d’Or.
Il s’agit d’un projet autour d’une thèse de doctorat d’un ingénieur en intelligence artificielle pour transcrire des documents issus de fonds du XVIIIe siècle.
OCR, HTR, AI etc, et la généalogie dans tout ça ?
Une conférence d’Emmanuel Condamine qui a permis de faire le point sur les techniques, la façon de les mettre en oeuvre, leur finalité, les difficultés et les perspectives.
Présentation des projets d’intelligence artificielle des Archives Nationales.
Le projet LECTAUREP – LECTure AUTomatique de REPertoires – a pour but de faire transcrire par une machine – et donc d’indexer – les 4000 répertoires de notaires parisiens en ligne sur la Salle des Inventaires Virtuelle des Archives Nationales. Si vous avez des ancêtres à Paris, vous savez à quel point ce projet pourrait vous faire faire un bond de géant dans vos recherches.

Chacune de ces conférences a insisté sur les différentes étapes de cette automatisation :

La machine doit « apprendre à lire », il faut mettre en place un code, un algorithme, qui va petit à petit s’enrichir pour « lire » de plus en plus d’écritures variées. Pensez à vos registres notariés ou paroissiaux préférés, à ces curés quasiment illisibles et ces notaires de province reculées dont vous n’arrivez à lire que quatre mots sur cinq ….
Pour que la machine apprenne à lire, il faut lui donner « à manger », c’est à dire du texte manuscrit et sa transcription lettre à lettre exacte – des pages et des pages – dans une écriture aussi claire et stable que possible dans un premier temps. Pour cette étape, les manuscrits des clercs de la cour des Etats de Bourgogne sont parfaitement adaptés.
La machine propose une transcription, qu’il faut relire, corriger, et resoumettre – pour que l’algorithme se nourrisse de chacune de ces étapes et « apprenne ».

Ne me demandez pas de vous expliquer la technique, je n’en suis pas capable, mais le cheminement est clair. Il faut transcrire des textes, beaucoup de textes, soumis à chacun des systèmes en test actuellement, et par itérations successives, l’algorithme va être corrigé, affiné, étendu, jusqu’à arriver à un taux de transcription considéré comme pertinent.

On pourrait ensuite discuter sur le niveau de pertinence qu’on attend de la machine : 100% ? 99% ?
Quel taux d’erreurs est acceptable pour le programmeur, pour le donneur d’ordres, pour le client, pour le généalogiste que nous sommes ?

Les projets qui ont été présentés hier sont enthousiasmants, et les conférenciers qui mènent ces projets sont enthousiastes et passionnés.

Malgré tout, cette révolution n’en est qu’à ses débuts. L’indexation faite par le SHD et qui n’est qu’en cours de validation ne porte que sur 10% des fonds concernés.
Pour chacun des projets, il faut des moyens humains et financiers importants. Il faut alimenter les machines en textes transcrits, corriger les données transcrites par la machine, encore et encore.

C’est là que le généalogiste va à mon sens intervenir : tout en continuant à transcrire bénévolement des registres paroissiaux, des registres matricules, comme il nous arrive régulièrement de le faire, nous allons pouvoir participer à cette alimentation des machines, quand les différentes archives nous solliciterons.

L’indexation collaborative n’est pas morte, loin de là.

Et la paléographie a de beaux jours devant elle.

Nous allons devoir progresser dans la lecture de textes anciens si nous voulons participer à cette aventure, si nous voulons aider l’ensemble des services d’archives à nourrir les applications informatiques qui permettront aux généalogistes de demain d’accéder encore plus facilement et rapidement à encore plus de ressources pour découvrir la vie de leurs ancêtres, de nos ancêtres.

Hier, aux Archives des Yvelines, j’ai fait un rêve, et j’ai eu envie une nouvelle fois de participer à une aventure, à plusieurs aventures. Je sais qu’il est peu probable que je voie personnellement ce rêve se réaliser, mais il est en marche et je peux y participer, pour le rendre disponible à la génération de mon petit-fils.

Et vous, êtes-vous prêt à cette nouvelle aventure, ou vous fait-elle peur ?

6 réponses à “L’intelligence artificielle au service de la généalogie”

Catherine

26 mai 2023

Bonjour
Un grand merci pour votre résumé.
J’ai également pu tester Transkibus pour des documents allemands anciens, c’est loin d’être concluant, mais cela m’a tout de même dépanné pour des documents dactylographiés.
Disposez-vous du lien vers le replay de ces conférences ?
Je n’ai malheureusement pas pu me rendre à ces conférences.

Répondre
1. Brigitte Billard
  
  26 mai 2023
  
  Vous trouverez ce qui a été enregistré sur la chaine Youtube de la Fédération Française de Généalogie
  
  https://www.youtube.com/@ffgenealogie/videos
  
  Transkribus évolue, je l’ai plusieurs fois testé, et poue certains modèles, c’est plutot concluant. Il vaut mieux éviter les notaires français de petits villages au XVIIIe, mais sur des ecritures assez normées, ca commence à bien fonctionner
  
  Répondre
Richard ROUVIN

7 décembre 2022

Bonjour,
Existe-t-il des solution utilisables par des particuliers avertis ?
Solutions ou l’on pourrait transcrire quelques actes d’un registre manuellement et l’injecter dans une IA afin que cette IA apprenne et puisse retranscrire automatique la totalité du registre…. avec un taux d’erreur acceptable.
Mon but dans un 1er temps, tenter ce type d’expérience sur un registre de notaire de 1650.
En vous remerciant par avance
Bonne journée

Répondre
1. Brigitte Billard
  
  7 décembre 2022
  
  Bonjour
  J’ai déjà testé la plateforme Transkribus – https://readcoop.eu/transkribus/?sc=Transkribus – qui permet de faire ce genre de choses, mais l’interface n’existe pas encore en français. Je l’ai un peu utilisée sur des textes français, il faut bien choisir le modèle à appliquer, et sur des textes néerlandais. Ce n’est pas encore très probant, mais tout dépend de votre but
  Si vous voulez participer à des projets sur des archives françaises, vous pouvez éventuellement contacter les archives de Côte d’Or, en attendant que les Archives Nationales fassent appel à nous
  
  Brigitte
  
  Répondre
Delphine

4 décembre 2022

Je partage ton enthousiasme, Brigitte ! Et effectivement, l’indexation collaborative et la paléographie ont de beaux jours devant elles car n’oublions pas que pour qu’il y ait intelligence artificielle, il faut d’abord intelligence humaine pour nourrir la machine
Quel que soit le projet, c’est toujours un plaisir de travailler pour la communauté !

Répondre
Joanne

4 décembre 2022

Toujours prête pour participer à ces avancées technologiques au service de ma passion mais aussi indirectement au service des chercheurs quelque soit leur sujet.
Participer à mon échelle à une démarche utile au plus grand nombre est toujours une satisfaction.

Répondre