Compte-rendu du troisième séance de la série d'ateliers "Connaître et évaluer les systèmes d'automatisation complexes pour les revues" dans le cadre du projet Revue3.0 du laboratoire de recherche sur les Écritures Numériques. Intitulé : Mythes de l'automatisation, exemple de la HTR Présentatrice : Alix Chagué

Vidéo de la captation : https://nakala.fr/10.34847/nkl.1fb6vmgi

Introduction

Almanach équipe de recherche en TAL : en 2018, effectue un premier travail de recherche sur la HTR avec Transkribus puis Alix poursuit ce travail sur eScriptorium. une version open source, gratuite et exploitable en local pour la HTR.

CREMMA (Consortium pour la reconnaissance d’écriture manuscrite des matériaux anciens) pour la recherche a permis de travailler sur divers projets et de cerner les questions pour beaucoup de sujets différents

Alix a travaillé sur le développement de plusieurs modèles dans une variété de langues; grec ancien, espéranto, mais surtout en français.

Plateforme HTR United : mutualisation de jeux de données pour l’entrainement de modèle pour la transcription automatique d’écriture manuscrite. La plateforme encourage et valorise le partage de données de recherche.

2 chevaux de bataille :

- Méthode d’évaluation des modèles

- Perspective usagers

Définitions

HTR

Définition : Handwritten text recognition = méthode d’apprentissage machine (_machine learning_) pour l’étiquettage de contenu d’image.

Le HTR est une technologie d’apprentissage automatique.

On donne une image, qui contient du texte, et on tente de rendre un texte informatique équivalent. Il s’agit d’une transcription du texte, et non d’une description du document.

La source des images peut être diverse : documents numérisés, captures d’écran, photos ou vidéos prises « dans la nature » (qui peuvent servir, notamment, à faire de la géospatialisation). Alix donne l’exemple d’images de pierres tombales qui peuvent alimenter des recherches généalogiques.

L’HTR traite en particulier les données manuscrites.

Elle commence avec la reconnaissance automatique des chèques, ou des adresses sur le courrier.

Le développement de la technologie s’accélère à compter des années 2010.

ASR

ASR = Automatic Speech Recognition

Résultats liés souvent à la HTR car logique similaire de partir d’un enregistrement non textuel (sonore et image) pour obtenir du texte notamment de la retranscription.

OCR

Optical Charater Recognition (parfois Reconnaissance Optique de Caractère, ROC en français)

La technologie d’OCR est particulièrement accessible en ligne, et relativement ancienne, avec des premiers développements dans les années 1950-60. Elle est alors utilisée pour accélérer la saisie des données que l’on trouve sur des documents imprimés.

Enjeux de l’HTR

Difficulté des écritures manuscrites )à la différence des imprimés standards : la question se pose aussi pour les écritures manuscrites.

Grande variétés des mises en page , par exemple manuscrit médiévaux avec diagramme

Plusieurs logiciels commerciaux permettent aujourd’hui de faire de la transcription automatique avec des modèles pré-entraînés.

Google CloudVision, et depuis récemment, LLMs multimodaux (olmOCR, LEO)

Transkribus / eScriptorium : entrainables

GPT / Gemini : peuvent faire de la transcription

Comment évaluer les modèles?

Billet de blog par Dan Cohen : The Writing Is on the Wall for Handwriting Recognition. https://newsletter.dancohen.org/archive/the-writing-is-on-the-wall-for-handwriting-recognition/

Test Gemini 3 pro + 3 images pour évaluation

Meilleur que Transkribus selon Dan Cohen.

Billet de blog Alix Chagué : A Perfect Job is the New Very Good Job

https://alix-tz.github.io/phd/posts/025-fr/

Les évaluations ’à la volée’ mettent en évidence les faiblesses de l’évaluation : pas de systématisation. Souvent une évaluation rapide, qualitative, à partir de quelques textes. À partir de là on en tire des généralités sur le modèle.

Dan Cohen conclut que un logiciel spécialisé comme Transkribus que Gemini 3.

Compare la transcription de 3 images :

1. Lettre de George Boole ... inversion gauche-droite de l’ordre des pages et seulement 1e page (à droite) et dernière page (à gauche).

Compare les deux transcriptions :

Transkribus respecte ligne à ligne le document original. Cohen souligne quelques erreurs de transcription.

Gemini (prompt non fourni) : donne une transcription plus structurée (indique page de droite et de gauche). Cohen estime qu’il n’y a pas d’erreur alors qu’il y en a, mais plus discrètes.

Gemini ajoute également des commentaires éditoriaux à la transcription : la sortie de Gemini paraît "augmentée" par rapport à celle de Transkribus.

2. Deuxième image : une lettre de guerre de Charles Carroll à Alexander Hamilton binarisée (renforcement des contrastes noir/blanc pour faire ressortir le texte).

Dan Cohen ignore alors le résultat de Transkribus et ne présente que le résultat du LLM.

Gemini : organisation logique de la page. Fait correspondre une note au numéro de page. Indication d’abbrevations. Mots barrés à la place de bavures.

3. Lettre de Jane Austen de 1808, double page avec plus de difficulté.

- Jane Austen tourne sa lettre de 90 degrès et continue à écrire (très commun au XIX ième)

Les différentes orientations causent une interférence des niveaux de lecture, pour la machine mais pas pour la lecture humaine qui peut ignorer ces interférences.

Une autre difficulté de lecture pour la machine est causée par le fait que l’encre traverse la page.

Gemini commence puis arrête en soulignant que le texte est trop obscur.

Le modèle est pas obséquieux (sycophante) Think authentic

Gage de fiabilité pour Dan Cohen

Pas de protocole d’évaluation par Cohen.

Possible métrique et méthode d’évaluation :

- comparaison par rapport à une transcription humaine (ground truth) : ce que Alix a fait et a trouvé que la transcription de Transkribus a un score de 9% de CER (Character Error Rate)

La comparaison du CER est moins faite sur les modèles génératifs: on utilise alors d’autres méthodes car les LLM produisent aussi des commentaires éditoriaux qui ne permettent pas de faire une évaluation stricte des caractères.

Les modèles spécialisés (i.e. Transkribus) tolèrent un certain flou quand certains caractères sont difficilement lisibles, ou lorsque le tracé n’est pas celui attendu, alors que les LLM privilégient une "transcription" lisible.

Evaluation qualitative possible :

4 critères pour évaluer le sérieux (Lincoln & Guba 1986) :

Lincoln, Y.S. and Guba, E.G. (1986), But is it rigorous? Trustworthiness and authenticity in naturalistic evaluation. New Directions for Program Evaluation, 1986: 73-84. https://doi.org/10.1002/ev.1427

- Crédibilité (comment les résultats ont-ils été obtenus?)

- Transférabilité

- Fiabilité (les résultats sont-ils constants dans le temps?)

- Confirmabilité (les résultats sont-ils réplicables?)

Éléments faibles dans les évaluations empiriques de la HTR par des LLMs :

- fiabilité

- Absence du prompt dans l’évaluation

- Effet de boîte noire et processus de génération obscurs

- Mises à jour en arrière-plan

- Différents modes (thinking, etc.) d’utilisation

- transférabilité

Limites de ce genre d’évaluation

Dan Cohen donne en entrée un corpus anglais du XIX^ième^ siècle, déjà largement étudié, qui peut être implicitement déjà connu par Gemini.

Les problèmes de la transcription automatique, que Cohen suppose réglés par Gemini, sont plutôt les transcriptions de scripts non-latins, d’images complexes (dont la lettre de Jane Austen est un exemple, alors que c’est précisément ce genre d’exemple que l’on aimerait que les modèles soient capables de transcrire).

L’évaluation de Cohen sur Gemini prend en consideration des textes en anglais, par des auteurs connus. ça ne correspond pas à tous les objectifs de Transkribus.

Définition de la tâche : est-ce que seule la transcription est attendue ? Transkribus rend une transcription stricte, Gemini donne des notes éditoriales, des commentaires. Ce serait un aspect à mieux définir.

Problème de format aussi : un document structuré (ex: XML-ALTO ou XML-PAL) avec des métadonnées qui permettent de contextualiser le texte. Le LLM amalgame ensemble (une seule couche sémantique) la transcription propre et ce qui est davantage de l’ordre des métadonnées.

Confusion entre le logiciel et le modèle : l’interface d’évaluation avec Transkribus permet en réalité un paramétrage de l’ordre des pages transcrites, etc., contrairement à ce que dit Cohen.

Problème par rapport à ce qu’on attend de la part de la HTR : Est-ce qu’on attend des textes :

- Lisible

- Plausible : serait un LLM comme Gemini

- Parfait c’est quoi?

Quel type de transcription veut-on?

Par exemple, Gemini donne des annotations en markdown. C’est ça qu’on veut ? Est-ce qu’on souhaite des notes éditoriales ? Gemini dans ces exemples ajoute des insertions (des indications qui relèvent d’une édition critique).

Tout un pan de la recherche ne se préoccupe pas de ce que signifie transcrire : on réduit la transcription à "reproduire le texte" sans définition claire des attentes.

Naturalisation implicite et uniforme de la transcription révélée par les propos et évaluation de la HTR.

Necéssité d’un protocole/normalisation/clarification sur les attentes.

Voir aussi: le modèle "à deux têtes" de Sergio Torres Aguilar (cf. https://hal.science/hal-04983305/document)

Discussion

Gérald Kembellec : Vers 2020, travaille sur la HTR sur les corpus de la correspondance de Constance de Salmes. Intérêt de l’IA pour prendre un corpus avec beaucoup d’écritures différentes : l’entrainement avait peu d’intérêt à cause du nombre d’écriture à moins d’avoir des sous-corpus. Est-ce que c’est qqch qui serait résolu ajd ?

Alix Chagué : Les modèles étaient en 2020 entrainés sur des sous-corpus. Des modèles génériques déjà à l’époque pouvaient être réentrainés sur des sous-corpus très restreints de quelques pages. L’avantage des modèles étant la généralisation.

Gérald Kembellec : Donc fini l’époque de l’apprentissage supervisé dans la HTR ?

Alix Chagué: L’apprentissage supervisé est encore nécessaire, mais moins lourd. Les LLM ne sont pas entraînables, donc on doit se fier à leurs capacités de généralisation. Si le modèle est très mauvais sur l’une des cinq mains du corpus, il faudrait travailler cette main autrement. Cependant, en règle générale, les modèles ont gagné en généralisation.

Alexia Schneider : Le biais de Dan Cohen envers les LLM est fréquent. Un manque de spécialisation est-il en cause? Y a-t-il un débat autour de ces sujets dans le milieu?

Alix Chagué : Se demande si elle a peut-être elle-même un biais envers les modèles "traditionnels". Elle n’a toutefois pas connaissance de billets en réponse à Dan Cohen, mais le billet d’Alix lui-même a produit beaucoup de retours par des canaux plus informels de spécialistes qui abondent dans son sens, notamment sur la nature expéditive de l’évaluation de Dan Cohen. Le billet de Cohen est toutefois à comprendre dans le contexte d’une newsletter, un billet d’opinion, et non un produit à teneur scientifique.

D’autres billets ont testé Gemini dans un cadre plus rigoureux. On ne peut nier le fait que les modèles comme Gemini sont excellents pour la transcription : dans la communauté, la compétence du modèle est reconnu. Les modèles sont bons: la question demeure dans le manque de transparence par rapport aux données d’entraînement des LLM génératifs génériques.

Il arrive fréquemment que des personnes cherchent des "solutions" à des "problèmes" de recherche, qui tient à la fois du discours commercial et d’une volonté d’innovation.

Alexia Schneider : Les humanités numériques se sont souvent positionnées en faveur de la mise en distance, de l’automatisation des textes. Maintenant, le champ prend plutôt position en faveur d’un retour à la matérialité. Devrait-on remettre en question ce biais? Pourrait-on imaginer des grands modèles spécialisés, plus transparents, entraînés sur des corpus diversifiés? L’étape de transcription est-elle destinée à être dévalorisée, trivialisée, par l’utilisation des LLM? Ces questions impliquent une remise en question des valeurs, puisqu’on peut facilement imaginer que les mêmes critiques ont été adressées au HTR à ses débuts.

Alix Chagué : En 2018, Alix travaillait sur deux projets, dont une transcription de corpus pour lecture distante avec Transkribus, où on n’avait pas la main-mise sur les entraînements. Les chercheur-euses avaient effectivement cette réaction: la tâche de transcription était intégrée à la recherche, nourrissait d’autres tâches plus éditoriales qui étaient mené simultanément. Les LLM reconduisent des problèmes méthodologiques qui restent actuels, peu importe la technologie. La technologie de transcription est aussi beaucoup mobilisée dans des usages technologiques et commerciaux: l’attention au texte est différente de la perspective philologique. À ce carrefour se créent des tensions avec les manières d’envisager la tâche provenant des humanités.

Une autre question est celle des standards pour enregistrer les données: dans le cas des LLM, on obtient une sortie JSON, qui ne permet pas l’interopérabilité. On court aussi le risque de naviguer entre deux technologies qui ne communiquent pas bien ensemble, ce qui est moins le cas dans des envrionnements comme Transkribus ou e-Scriptorium, qui permettent une manipulation d’images qui n’est pas gérée dans les LLM.

Une pléthore de problèmes sont soulevés, mais le discours général bascule entre le désenchantement et l’enthousiasme.

Alexia Schneider : La complexité de l’étape de la transcription était peut-être invisibilisée jusqu’à l’avènement de systèmes comme e-Scriptorium ou Transkribus. L’utilisation des LLM font croire qu’ils restituent à l’identique le texte ou que l’on se trouve face à un texte "amélioré", ce qui occulte une série de choix qui seraient habituellement ceux du-de la philologue/de l’usager-e. L’engouement est plus technophile que philologique.

Alix Chagué : Tout à fait d’accord. L’usage finit par être défini par ce que l’outil propose/peut faire plutôt que par les attentes de l’usager-e. L’étape de la segmentation, par exemple, sous-tend une série de questions. L’utilisation d’un LLM pour la transcription encourage plutôt une acceptation possible du résultat. La transcription est toujours une représentation, toujours une "trahison", toujours à un degré de séparation du document source.

Suggestion de lecture :

Mapping the Latent Past: Assessing Large Language Models as Digital Tools through Source Criticism par Daniel Hutchinson : https://journalofdigitalhistory.org/en/article/JZx9gw7iwGxb?idx=52