La recherche n'est pas du problem solving: sur les abérrations de l'usage de chatbots, par exemple pour faire du HTR

Marcello Vitali-Rosati

Tous les billets --- Scholia -- Ce qui pourrait...

La recherche n'est pas du problem solving: sur les abérrations de l'usage de chatbots, par exemple pour faire du HTR

2025-11-28 10:43:22.873994-05:00

Il y a quelques jours, Dan Cohen, un collègue historien connu et estimé dans le domaine des humanités numériques, a écrit une newsletter sur la reconnaissance automatique d'écriture manuscrite (HTR: Handwritten Text Recognition) en affirmant que Gemini (le chatbot de Google) aurait désormais "résolu le problème". Son titre: The Writing Is on the Wall for Handwriting Recognition One of the hardest problems in digital humanities has finally been solved.

Ce texte m'a beaucoup énervé pour plusieurs raisons:

ce qu'il dit est faux
il propose des valeurs et une vision de ce qu'est la recherche (la recherche comme problem solving) qui est absolument incompatible avec ce que la recherche devrait être selon moi
il est justement écrit par un universitaire pour qui, par ailleurs, j'ai de l'estime

En ce qui concerne le premier point -- qui en réalité, n'est pas le plus important --, je me limiterai à dire que les modèles d'HTR qui utilisent kraken (comme ceux d'escriptorium et de Transcribus) ont des taux de reconnaissance bien meilleurs de ce que Dan cite et que les "solutions" de Gemini ne sont pas du tout les bonnes solutions. La quantité d'informations inventées est très élevée et le système étant probabiliste, il devient très difficile de distinguer ce qui est correct de ce qui ne l'est pas -- à moins de relire tout attentivement et tout contrôler lettre par lettre, mais alors le "gain" de temps est perdu. Gemini est un chatbot probabiliste et non un algorithme de reconnaissance: il va essayer de deviner les mots les plus probables et il va nous fournir un texte tellement vraisemblable que seule une personne avec une expertise très approfondie sera capable d'identifier les inventions, et au prix d'une lecture très attentive. C'est ce qu'on appelle les "hallucinations", mais, comme je l'ai souvent dit, je n'aime pas cette expression: ce n'est pas Gemini qui hallucine, car il fait exactement ce qu'on lui demande: il propose des mots probables. Celui qui hallucine est l'utilisateur qui croit utiliser un algorithme de HTR alors qu'il est en train de bavarder avec un chatbot. L'hallucination est l'usage du mauvais outil.

Il y a d'autres imprécisions et affirmations erronées dans le texte -- je remercie Alix Chagué, experte d'HTR avec qui j'en ai discuté: une confusion entre taux d'erreur par mot ou par caractère, une confusion entre tâches de transcription et tâches éditoriales, une analyse superficielle des (fausses) explication de Gemini...

Mais le pus gros problème du texte de Dan est un autre: il mécomprend complètement ce qu'est la recherche en la considérant comme une sorte de problem solving. Mais la recherche n'est pas une solution de problèmes! Au contraire! La recherche est la capacité de poser des questions et donc, si l'on veut, non pas de résoudre, mais plutôt de créer des problèmes!

Selon le texte de Dan, il y a en effet un problème: je ne suis pas capable de lire un texte manuscrit. Ce problème est ennuyant, il nous embête. On aimerait bien qu'il y ait un petit génie de la lampe qui puisse le résoudre pour nous. Et là: voilà! Le génie sort de la lampe -- Google... les génies aiment beaucoup les entreprises multimillionnaires américaines -- et le problème a disparu! Quel monde magnifique! et Dan conclut, avec une rhétorique digne de My life de Ford: au lieu de perdre notre temps à essayer de lire une écriture illisible, nous pourrons jouer du piano et faire des promenades avec des amis (Ford, dans son autobiographie, parlait plutôt de faire des piqueniques en plein air, pour montrer à quel point les machines aident l'environnement, mais l'idée est la même).

Or j'aimerais demander à Dan: mais pourquoi, si tu veux jouer du piano et te promener, tu ne joues pas du piano et tu ne vas pas te promener au lieu de t'embêter avec tes manuscrits?

Je m'explique: la recherche en paléographie consiste à réfléchir dans et par la transcription -- en manipulant les textes -- sur une série de questions épistémologiques, théoriques et méthodologiques qui nous intéressent et nous semblent valoir la peine d'être posées. C'est la raison pour laquelle on se passionne à la paléographie. Le fait est qu'il n'y a pas une "bonne" et une "mauvaise" transcription. Il y a des choix de transcription: comment je transcris les abréviations? Comment je rends la disposition des mots dans les pages? Qu'est-ce que je vais considérer comme une ligne? Comment vais-je transcrire une lettre ou un mot illisible? Pourquoi? Quel est l'objectif de ma transcription (juste déchiffrer? comprendre la génétique du texte? publier? publier pour qui?).

Chaque décision qui est prise lors de la transcription est un choix théorique et épistémologique et ces choix et ces réflexions sont le sens premier de la recherche. C'est justement la raison pour laquelle la recherche est considérée depuis toujours comme une forme d'oisiveté (la skholé grecque). Ce que Dan considère comme une partie fâcheuse, embêtante et ennuyeuse est le cœur même de la question!

Le "résultat", la "solution du problème" sont, somme toute, secondaires. Même un non-résultat, un résultat négatif, peut être préférable, car c’est le processus et la réflexion qu’il comporte qui comptent (j'en parle dans mes billets sur la bibliographie).

Or utiliser Gemini pour faire des transcriptions signifie déléguer complètement ce processus en disant qu'il ne nous intéresse pas. Mais, s'il ne nous intéresse pas, pourquoi le faire? Transcrire ou jouer du piano sont sur le même plan: deux activités oisives... autant vaudrait, donc, que Dan laisse Gemini jouer du piano, ou se promener à sa place... et bien évidemment, je n'ai rien contre, s'il n'aime pas jouer du piano, mais cela semble un peu débile, non? Quelle est la raison de déléguer une tâche dont la seule valeur réside dans la réflexion qu’elle implique?

Attention: le problème n'est pas l'utilisation de "la machine"; car la même chose arrive quand on délègue un travail à des "subalternes". Le véritable défi consiste à déterminer quelles sont nos valeurs et à quelles activités et compétences nous accordons une valeur symbolique. Déprécier la transcription -- la penser comme "un problème" -- implique de ne pas vouloir investir sur cette tâche et donc de vouloir la traiter comme un problème à résoudre de la manière la plus économique possible: en la laissant à une personne moins bien payée, ou à un algorithme.

Et utiliser une "machine" comme escriptorium ce n'est pas du tout la même chose, car on "perd du temps" à comprendre, à faire des choix, à modéliser, à peaufiner l'algorithme, à se poser des questions théoriques sur les choix de transcription... ce qui pourrait être interprété comme une moins bonne performance est en réalité l'intérêt même de l'approche méthodologique. Escriptorium est meilleur de Gemini justement parce qu'il faut plus de temps pour faire une transcription, car il permet et rend nécessaire de se poser des questions épistémologiques sur la transcription. (À cela se rajoutent des considérations environnementales et politiques -- qui est le propriétaire de l'application, que fait-on des données, le code est-il ouvert? puis-je savoir ce que l'application fait exactement etc... -- mais j'en ai parlé dans plusieurs autres billets.)

Arrêtons donc de nous faire entrainer par la rhétorique des GAFAM: la question de la "performance" et de la solution de problèmes ne nous concerne pas en tant que chercheurs et chercheuses. Ce n'est pas notre domaine. Posons-nous plutôt la question de quelles sont les choses auxquelles nous tenons: est-ce que déchiffrer des manuscrits est quelque chose qui nous intéresse? Qui nous plait? Qui ajoute quelque chose à nos vies? Est-ce que nous pouvons avoir du plaisir à nous poser des questions sur la résolution d'abréviations ou sur le sens du concept de ligne?

Si oui, alors laissons tomber Gemini. Si la réponse est non: alors, ne le demandons pas à un chatbot, ni à un subalterne... tout simplement, arrêtons de le faire! Le monde ne se portera pas moins bien pour ne pas avoir à disposition un texte obscur d'une écrivaine du XIX.

Ajout du 29 novembre: Alix Chagué a écrit un billet sur ce sujet, en analysant dans les détails les imprécisions du texte de Dan.