De l'IA aux modèles de définition de l'intelligence
Depuis quelques mois les débats et les discussions sur ce qu’on aime appeler “intelligence artificielle” sont à l’ordre du jour. Beaucoup de chercheur.e.s ont écrit notamment à propos de chatGPT, et je trouve certaines contributions – comme par exemple celles d’Olivier Erzscheid – particulièrement éclairantes. Je vais donc me joindre à la discussion avec un point de vue un peu différent. Mon idée est simple: dans tout ce débat en réalité le point n’est pas de comprendre l’intelligence artificielle et les enjeux qui y sont liés, mais plutôt d’essayer de donner une – ou plusieurs – définition de ce qu’est l’intelligence.
Dit autrement: au lieu de discuter d’intelligence artificielle, nous devrions nous interroger sur les modèles de définition de l’intelligence.
Je propose donc ici une sorte de révolution copernicienne dans les études sur l’IA et j’espère, dans les mois qui viennent, dédier une série de billets à cette question. Il y va à la fois de la compréhension de ce qui est en train d’arriver – le développement (et surtout la mise à disposition pour le grand public) des grands modèles de langage (comme GPT3, Bert, AlexaTM, LLaMA), l’explosion du discours public et médiatique sur l’IA, l’ensemble de peurs et d’angoisses qui y sont reliées – et de la compréhension, plus importante et plus fondamentale, de qui nous sommes, de ce que sont les êtres humains.
Pour commencer, déjà, l’usage de l’expression “Intelligence artificielle” me semble très intéressant à questionner. C’est une notion très vague, très floue, utilisée depuis longtemps à tort et à travers et qui met ensemble toute une série d’approches, méthodes, outils, environnements qui n’ont rien – ou très peu – à voir les uns avec les autres.
J’ai déjà souvent pris la même position en ce qui concerne le terme “numérique”, mot qui unifie dans un ensemble très pastiché une série très hétérogène de phénomènes dont on peut légitimement se demander s’ils ont vraiment entre eux des traits en communs.
De même pour l’IA: on met ensemble des modèles de langage, des systèmes experts pour résoudre certains problèmes spécifiques, des applications se basant sur des données structurées, des logiciels de toute sorte… Certes, parfois on limite la notion aux systèmes d’apprentissage profond, et dans les dernières années, plus précisément, à des approches génératives, basées sur des réseaux de neurones, mais même dans ce cas un peu plus précis, quelle est la relation entre un réseau de neurones entraîné pour reconnaitre des chiffres manuscrits – vieux problème informatique qui a été un des premier succès des systèmes génératifs – et chatGPT? Peut-on penser comprendre la spécificité d’un transformeur génératif pré-entraîné (c’est ce qu’est GPT) en le mettant dans le même panier avec une approche comme l’allocation de Dirichlet latente en traitement automatique des langues?
Pourquoi alors parle-t-on d’“intelligence artificielle”? D’où vient l’intérêt immense, presque obsessionnel, pour cette thématique – et pour cette expression?
Pour faire un peu d’ordre dans ces questionnements, je voudrais partir d’une affirmation de Larry Tesler, ou plutôt du faux usage qu’en fait Douglas Hofstadter dans son célèbre Gödel, Escher, Bach en 1979.
Déjà quelques remarques contextuelles: on peut retrouver dans un livre de 1979 les mêmes discours et les mêmes analyses qu’on trouve aujourd’hui à propos de l’IA. Rien n’a changé en plus de 40 ans. Il n’y a rien de vraiment nouveau dans ce qui se passe dans les dernières années, rien de “révolutionnaire”. Des changements, certes, mais qu’on ne peut comprendre – comme d’habitude – que dans une continuité. Les discours qui se fondent sur la rhétorique de la révolution sont destinés à une myopie de fond et il faut apprendre à les regarder avec beaucoup de méfiance. En réalité les discours n’ont pas changé, les préoccupations non plus et, si on va regarder du côté technique, les algorithmes non plus. Bon, je l’admets, cette dernière affirmation est un peu radicale: les algorithmes changent et ils changent vite… Les transformeurs – l’approche de GPT, donc – n’existent que depuis 2015 et l’idée de se baser sur l’“attention” semble récente (cf. l’article fondateur, All you need is attention). Par ailleurs, la force de calcul d’ajourd’hui est incomparable avec celle d’il y a quelques années seulement. Mais les approches probabilistes basées sur des réseaux des neurones, existent depuis très longtemps: au moins les années 1960, mais sur des bases mathématiques connues depuis des siècles (que l’on pense à la régression linéaire, utilisée déjà au début du XIX par Gauss).
Mais revenons à Hofstadter et à la fameuse phrase de Tesler qu’il baptisa “le théorème de Tesler”. Tesler était un informaticien très actif dans des entreprises comme Xerox Parc (années 1970), puis Apple pour la plupart de sa carrière (1980-2000) et finalement Amazon et Yahoo. Hofstadter, dans son livre, cite une phrase que Tesler aurait eu l’habitude de dire et dit que pour cette raison il appellera cet adagio le “théorème de Tesler”. La phrase est la suivante:
L’intelligence artificielle est tout ce qui n’a pas encore été fait.
Cette idée a été souvent citée et réutilisée et est à la base de ce qu’on appelle effet IA. C’est une sorte de complexe du domaine, qui pousse toujours à penser que l’intelligence que l’on veut atteindre est plus loin par rapport à où on a réussi à arriver. On développe un système qui fait des choses supercomplexes, mais on se dit que l’IA est encore à conquérir. On réalise un algorithme qui sait jouer aux échecs, mais on se dit que l’intelligence artificielle n’a pas été atteinte, car le système n’a – par exemple – pas d’intuition. On crée un algorithme capable d’écrire des sonnets, mais on se dit que l’intelligence artificielle impliquerait qu’il ait aussi des sentiments.
Le théorème de Tesler est donc une volonté toujours renouvelée d’aller plus loin, une espèce de Streben Tat faustien dans le domaine de l’informatique (où le Ewig-Weibliche devient le Ewig-Menchliche), un complexe qui fait en sorte que la machine court toujours derrière l’humain sans jamais être capable de l’atteindre.
Or en réalité Tesler n’a jamais dit cette phrase. C’est lui même qui l’affirme, dans son site personnel:
My formulation of what others have since called the “AI Effect”. As commonly quoted: “Artificial Intelligence is whatever hasn’t been done yet”. What I actually said was: “Intelligence is whatever machines haven’t done yet”. Many people define humanity partly by our allegedly unique intelligence. Whatever a machine—or an animal—can do must (those people say) be something other than intelligence. The theorem is cited in this SlashDot discussion and in these books:
Gödel, Escher, Bach: An Eternal Golden Braid by Douglas R. Hofstadter, Basic Books (1979, updated 1999), p. 601
Foundations of Computer Technology by Alexander John Anderson, CRC Press (1994), p. 395
Real-Time Systems Engineering and Applications edited by Michael Schiebe and Saskia Pferrer, Springer (1992), p. 398
Tesler a dit quelque chose qui semble être complètement opposé à l’effet IA: selon sa formulation ce n’est pas la machine qui court derrière les êtres humains pour essayer de les rattraper, mais plutôt les êtres humains qui courent pour se déplacer par rapport à la machine.
L’enjeu n’est pas de développer des intelligences artificielles de plus en plus proches de l’intelligence humaine, mais plutôt de définir ce qu’est l’intelligence humaine en nous comparant aux machines et de la définir à chaque fois par la négative: si une machine sait faire cela, ça veut dire que cela n’est pas ce qui est propre de l’intelligence humaine. Si la machine sait jouer aux échecs, l’intelligence humaine doit être une autre chose, peut-être le fait de savoir parler dans une langue naturelle; si la machine sait parler dans une langue naturelle alors l’intelligence humaine sera plutôt dans l’intentionnalité; si la machine peut avoir de l’intentionnalité, alors l’intelligence humaine résidera dans les sentiments… et ainsi de suite à l’infini.
Ce type de discours n’est pas nouveau et surtout ne concerne pas que notre rapport aux machines. Depuis toujours les êtres humains ont voulu se définir par rapport à quelque chose qu’on a identifié comme “autre”. Et le point de cette démarche n’est pas tant de se distinguer, mais plutôt d’affirmer sa supériorité. Comme l’ont souligné plusieurs travaux dans le domaine des posthuman studies (par exemple Braidotti dans The Posthuman ou Hayles dans How we became posthuman), les êtres humains ont défini leur “essence” pour fonder leur supériorité par rapport aux animaux (l’homme est un animal rationnel, ou doté de langage, ou social…), les genres (justement: les “hommes”, où on sous-entend que les femmes seraient moins humaines que les hommes), les peuples (avec la notion de race), puis les automates (que l’on pense à Descartes) et finalement, aujourd’hui, les ordinateurs. Le but du jeu est toujours le même: prendre quelque chose devant nous – un animal, un autre être humain, une machine… – et dire que nous sommes “mieux”, ou “supérieurs”, car nous ne nous “réduisons” pas à cette chose. Très souvent, dans ce jeu de supériorité, ce qui nous distinguerait de ce que nous avons en face n’est pas très bien défini, cela reste flou. Nous disons que nous avons un “plus”. C’est exactement ce que fait Searle dans son fameux article sur la chambre chinoise: le sens est quelque chose de plus par rapport à la syntaxe. Oui, mais quoi? On ne sait pas. On définit bien la syntaxe (Searle passe plusieurs pages à définir les règles dont dispose la personne dans la chambre chinoise) et le sens est tout ce que la syntaxe n’est pas. Même chose avec l’effet IA: il y a quelque chose qui excède. Mais quoi? Souvent la réponse est très floue. Turing, conscient de l’impossibilité de définir ce “plus” qui caractériserait l’humain, affirme (dans son article de 1950, On computer machinery and intelligence) que la réponse à la question “est-ce que’une machine peut penser” ne peut être donnée qu’avec une approche pragmatique, justement parce qu’il est impossible de donner une définition formelle de ce qu’on entend par “pensée”: si une machine se comporte comme se comporte un humain (dont on présuppose qu’il pense) alors elle pense.
Et si on décidait d’arrêter cette course folle qui a pour but de démontrer notre supériorité? Et si on arrêtait de vouloir affirmer une spécificité humaine et qu’on essayait au contraire de comprendre les véritables raisons qui nous poussent à courir, en réfléchissant sur les différentes possibilité de compréhension et de définition de l’humain et de l’intelligence?
Comme le dit Karen Barad dans son Meeting the Universe Halfway:
My posthumanist account calls into question the givenness of the differential categories of human and nonhuman, examining the practices through which these differential boundaries are stabilized and destabilized. (Barad 2007, 66)
Suivons donc la suggestion de Barad, arrêtons nous, arrêtons d’essayer de montrer en quoi un prétendu “humain” serait supérieur à une prétendue “machine” et arrêtons d’essayer d’une part de rendre cette prétendue machine “intelligente” et de l’autre de montrer que cet “humain” reste toujours “plus intelligent”. Prenons cette course à contrepied pour nous poser la question: dans ce contexte, comment émerge la définition de ce qu’est humain? Comment émerge la définition de “machine”? Comment se stabilise la frontière entre les deux? Comment peut-on questionner cette frontière et la penser autrement, la déstabiliser? Comment émerge la définition d’“intelligence”? Quelles en sont les implications politiques, éthiques, culturelles, sociales?
Le cas de chatGPT est assez significatif à ce propos. Ce qui a le plus frappé l’imaginaire collectif à propos de cette plateforme est le fait qu’elle passe haut la main le test de Turing. En d’autres termes, il est impossible – ou très difficile – quand on regarde le texte qu’elle produit, de savoir si ce texte a été produit par un être humain ou pas. Ce qui est très intéressant est que les chatbots, orientés par un fort effet IA, essayent d’atteindre ce résultat depuis longtemps. Ce que chatGPT fait correspond parfaitement à la définition du test de Turing, qui imagine poser des questions sous forme de texte à deux agents, dont l’un est une machine et l’autre un humain et de voir si on est capable de reconnaître qui est l’humain. La manipulation des langages naturels semblait la frontière ultime pour les machines, car on sait que la complexité des langues naturelles empêche des modélisations sous la forme d’une série de règles. L’approche des systèmes experts, qui a dominé les années 1980, semblait démontrer que le monde du langage naturel est trop compliqué pour qu’une machine, qui ne sait que manipuler des règles et des unités atomiques, puisse arriver à le manipuler comme un humain. L’humain est donc supérieur, on pouvait penser, car il est capable de ne pas respecter les règles, il est capable de faire des choses plus complexes, qui ne peuvent pas être modélisées et donc qui ne peuvent pas être calculées – et finalement computées (sur cette question, cf le bel article de Jean-Guy Meunier). Cette doxa est un exemple parfait de la volonté de définir l’humain en opposition à quelque chose d’autre pour démontrer sa supériorité: l’intelligence humaine n’est pas réductible à un ensemble de règles – autant complexes soient-elles - qu’il suffit d’appliquer. Et là, l’ami Searle qui dit: moi je comprends! Moi je sais manipuler le sens! Le sens ne peut pas être réduit à de la syntaxe! Il y a quelque chose qui excède toute règle!
Et ici arrivent les modèles de langue. L’idée est assez simple: au lieu de construire un algorithme qui implémente une série très longue de règles – des grammaires, des dictionnaires, des règles syntaxiques, etc. – on peut essayer de faire induire les règles à partir de l’observation d’un – très large – corpus. Dit autrement: au lieu d’“enseigner” la langue à partir d’une série de règles, on va essayer d’“exposer la machine” (cette métaphore doit être commentée) à la langue telle qu’elle est utilisée et les règles en ressortiront.
La métaphore de l’apprentissage est fondamentale, car ces approches naissent grâce à l’inspiration tirée de la linguistique et des neurosciences qui observent depuis des décennies les modes d’apprentissage de la langue (et pas seulement) de la part des êtres humains. Justement, on n’apprend pas à un enfant sa langue maternelle en lui expliquant quand il doit utiliser le subjonctif et quand l’indicatif. Tout simplement on lui parle. L’enfant ensuite réplique et répète ce qu’il a entendu et il “induit” les règles. Évidemment ce n’est qu’une hypothèse, et par ailleurs certains linguistes – comme Chomsky, par exemple – ne sont pas du tout d’accord avec cette interprétation. Mais bon, c’est une idée, une piste. Et l’idée de l’induction des règles est à la base des modèles de langue. L’idée est de donner à l’algorithme une nombre très élevé de textes et de lui faire calculer la probabilité que certains mots viennent avec d’autres mots (avant ou après). Sur la base de ce calcul, on transformera les mots en vecteurs, à savoir en une série de chiffres, qui représenteront leur “sens”. Petite remarque: cette approche donne de fait une définition formelle du concept de “sens” (ce que ne fait pas Searle): le sens est la relation qu’un mot d’un dictionnaire a avec l’ensemble des autres mots du dictionnaire par rapport à un corpus d’usage (définition très structuraliste, héritière des travaux de De Saussure et de l’idée de langue comme système autonome). Et là Searle doit se taire. Le sens devient quelque chose de définissable formellement et donc de calculable. Un machine peut le manipuler. La preuve: chatGPT est capable de parler comme un humain et il passe le test de Turing.
Il est très important de souligner ici que le point n’est pas d’avoir la définition du concept de “sens”, la seule, la bonne, l’unique, mais plutôt d’avoir une bonne définition de ce concept, où “bonne définition” signifie tout simplement: claire, non ambigue et précise. Au lieu de tricher à la Searle en disant: “le sens est tout ce que je n’ai pas défini”, on essaie de le définir, tout en sachant qu’il pourrait y avoir d’autres définitions possibles.
On peut alors se dire que l’intelligence artificielle a gagné, que la machine a rattrapé l’humain dans sa course. Ou alors on peut se dire qu’elle n’a pas encore tout fait, qu’il faut aller plus loin – comme le veut le théorème de Tesler. Ou encore on peut dire que l’humain est ailleurs, que passer le test de Turing n’est pas ce qui définit l’humain et que, par exemple, l’humain “connaît le sens de ce qu’il dit” alors que chatGPT ne le sait pas. Dans ce dernier cas, on est justement dans le jeu de l’humain qui essaie de se définir par opposition et qui affirme toujours qu’il est ailleurs, avec un ailleurs très flou, car comment peut-on définir ce que signifie “comprendre ce qu’on dit”? Comment définir de manière formelle ce que sait ou pas chatGPT?
Ou alors il y a une autre possibilité. Nous pouvons nous concentrer sur la définition d’intelligence qui émerge dans le cas particulier de chatGPT. Nous pouvons nous arrêter sur l’idée de langue naturelle, étudier la définition de “sens” qui est implémentée dans l’approche particulière de cet algorithme. Par exemple, une caractéristique fondamentale de GPT3 par rapport à d’autres modèles de langue est qu’il se base sur le concept d’attention. Cette idée lui permet d’avoir une performance bien meilleure que d’autres modèles. L’idée, encore une fois est simple: si je dois deviner le rapport entre les mots qui composent une phrase, tout les mots ne comptent pas de la même manière. Cette idée permet de paralléliser le calcul sur le corpus – au lieu de faire en séquence mot à mot, on peut faire en parallèle sur plusieurs phrases en attribuant des “poids” différents aux mots spécifiques.
Cette idée est une manière pour définir l’intelligence humaine: le sens émerge non seulement grâce à une série de relation entre mots – où tous les mots seraient sur le même plan. L’émergence du sens comporte aussi des mécanismes d’attention. Et l’attention est définie de façon formelle – donc de façon non ambigüe. Encore une fois: le point n’est pas de dire si c’est “la” bonne définition, mais si c’est “une” bonne définition.
On peut reprendre la définition d’attention donnée dans l’article qui a lancé la technologie des transformeurs:
An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding keyi (p. 3).
Les auteurs de cet article ont essayé de donner une définition d’attention et ensuite de l’implémenter dans un modèle formel – la création de vecteurs qui permettent de représenter les différents poids de chaque objet.
Ce qui est intéressant de chatGPT n’est pas de savoir s’il est meilleur ou moins bon qu’un être humain. Ce n’est pas de savoir si la machine est intelligente. Ce n’est pas de savoir si l’être humain restera supérieur ou s’il se fera dépasser par la machine. C’est plutôt de comprendre comment on peut définir l’intelligence humaine et les implications de chaque définition.
Les modèles de langue montrent qu’il est possible de modéliser certaines habilités. Ces habilités semblaient très complexes à modéliser. Il est intéressant que chatGPT sait très bien faire des choses que les machines ne semblaient pas être capables de bien faire et symétriquement il fait très mal des choses que les “machines” savent faire très bien. Justement chatGPT est incapable d’appliquer des règles formelles. Il est incapable de faire une requête dans des données structurées pour sortir de l’information. Tout ce que savent très bien faire des systèmes experts très rudimentaires – comme une requête à une api, par exemple, pour récupérer la liste des livres publiés par Proust – chatGPT ne sait pas le faire. Le modèle probabiliste fait en sorte que chatGPT sait très bien faire des discours de comptoir, où il peut dire n’importe quoi mais de façon convaincante, car il met ensemble des mots qui, par rapport à un large corpus, ont des bonnes probabilités d’être ensemble. L’apprentissage supervisé qui a été rajouté par dessus, en plus, lisse le discours pour donner lieu à quelque chose de politiquement correct et attendu. ChatGPT est un parfait politicien, il peut produire des discours de président ou de ministre mieux que n’importe quel être humain. Il peut produire des demandes de financement et les obtenir. Mais il n’est pas capable de donner la liste des livres de Proust. Il donnera une liste, et les titres sembleront très probables, très proustiens pour quelqu’un qui ne connaît pas bien Proust (l’évaluateur de demande de financement, justement, ou l’électeur moyen). C’est parce que l’intelligence que chatGPT modélise, la définition d’intelligence sur laquelle les algorithmes sont basés est ce type d’intelligence. Justement parce que c’est ce type d’intelligence qui semble avoir une valeur commerciale: c’est l’intelligence qui permet d’avoir des fonds de recherche et de gagner les élections.
Ce qui est intéressant de chatGPT est sa manière de définir l’humain. Si on étudie de prêt les algorithmes on se rend compte de ce qui est valorisé dans la définition de l’humain.
Et on peut se poser la question: et si on voulait modéliser autre chose? Si on voulait penser autre chose? Si on voulait par exemple se concentrer sur la conscience? En effet, chatGPT ne modélise pas la conscience. Mais on peut le faire. On peut se dire que ce qui nous intéresse est plutôt de comprendre les mécanismes de conscience. – c’est ce que Turing mettait entre parenthèse dans son texte en disant qu’il était impossible de donner une définition formelle de conscience et ce sur quoi joue avec ruse le texte de Searle.
Or, contrairement à Turing, je suis convaincu qu’il est possible de donner une définition de conscience qui soit “bonne”, à savoir non ambigue et formalisable. C’est ce que fait par exemple Giulio Tononi dans un projet de recherche où, après avoir donné une définition formelle de “conscience” (son Integrated Information Theory) il essaie de voir à quel point certains algorithmes sont conscients. Sa conclusion préliminaire est que des systèmes complexes basés sur des réseaux de neurones ne sont pas si conscients que cela et que des technologies plus simples, qui ne passent pas du tout le test de Turing (parce que ce n’est pas leur but), le sont davantage: cela porterait à penser que des compétences comme la manipulation de la langue naturelle ne sont pas nécessairement liées à la conscience. Ce qu’il faut souligner ici est que de telles recherches ont le mérite justement de produire des définitions précises de certains concepts. iEncore une fois: on ne cherche pas la définition de “conscience” ou d’intelligence, mais on cherche à donner une définition possible, mais bien formalisée.
Cette approche change d’orientation donc: au lieu d’essayer de créer des systèmes prétendument intelligents – sans trop savoir ce qu’intelligence signifie – on se concentre sur les multiples manières possibles pour donner des définitions précises et non ambigües du concept d’intelligence – ou d’un autre concept. On passe ainsi de l’intelligence artificielle à des modèles de définition de l’intelligence.
Je pense que c’est là le futur des sciences et en particulier des sciences humaines. Cela implique de repenser l’activité scientifique et d’arrêter de l’orienter vers l’applicatif – qui hélas est la seule chose qui semble nous intéresser dans notre monde capitaliste – en se concentrant sur la recherche fondamentale.
N’était-ce pas la critique que Socrate faisait contre les sophistes dans le Phèdre? Au lieu d’essayer de jouer avec les mots pour convaincre quelqu’un à faire quelque chose, essayons d’abord de comprendre et de définir les mots, les concepts et les idées. À différence de Platon, je pense qu’il n’y a pas une essence des concepts, il n’y a pas une seule définition, mais des définitions multiples. Mais il y a une différence fondamentale entre une bonne définition et une mauvaise: la bonne est claire, formelle et non ambigüe. La mauvaise est floue et idéologique. L’exemple par excellence est la mauvaise définition que Searle donne de “sens” en jouant justement sur un déplacement infini et régressif du sens par rapport à ce qu’on peut définir formellement. Le sens, pour Searle, est tout ce qu’il ne prend pas la peine de définir et en jouant sur cette ambiguïté, il peut utiliser le concept pour revendiquer une supériorité humaine. L’exemple de bonne définition est la notion de conscience pour Tononi: ce n’est sans doute pas la seule définition, mais c’est une définition non ambigüe, claire et bien formalisée.
La piste des modèles de définition de l’intelligence peut être appliquée à n’importe quelle idée et n’importe quel concept: l’intelligence, le sens, la conscience, l’amour, l’intuition…
Dans le cadre d’un projet de recherche que je mène avec Dominic Forest, Elsa Bouchard, Mathilde Verstraete et Yann Audin, par exemple, nous essayons de donner une définition formelle du concept de “variation” littéraire dans le cadre de l’épigrammatique grecque. Dans l’Anthologie grecque, un recueil d’épigrammes grecques, il y a plusieurs épigrammes qui se présentent comme des “variations” d’autres épigrammes. Ce sont des reprises, des poèmes qui disent la même chose par rapport à un autre poème, en utilisant d’autres formulations et en apportant des “variations” stylistiques, rhétoriques ou paradigmatiques. Mais qu’est-ce qu’une variation? La définition de ce concept est assez floue et peut inclure des objets très différents. Notre idée est d’essayer de donner une définition formelle de ce concept et de l’implémenter ensuite dans un algorithme. Si l’algorithme est capable de trouver celles que nous avons identifiées comme des variations, alors cela signifie que notre définition est bonne: nous aurons été capables de fournir un modèle de définition de la variation. C’est justement un exemple de “modèle de définition de l’intelligence”. Le cas de la “variation” peut sembler plus simple et moins ambitieux que le cas de l’intelligence ou de la conscience, mais en réalité il s’agit de la même démarche.
L’approche des “modèles de définition de l’intelligence” demande une réorientation du travail scientifique. Comme je l’ai dit, il faut d’abord et avant tout se concentrer sur la recherche fondamentale et mettre entre parenthèse l’application. Pour les variations, par exemple, il ne s’agit pas de faire un outil capable de trouver des variations pour rendre plus “simple” ou plus rapide le travail d’analyse littéraire – parce qu’on délèguerait des tâches à l’“intelligence artificielle”; il s’agit au contraire d’utiliser les algorithmes pour tester des définitions littéraires formelles. On ne gagne pas de temps, on en perd (confronte ici la notion de σχολή): c’est là la caractéristique de la recherche fondamentale. Cette approche implique aussi un changement important par rapport aux compétences. La recherche en sciences humaines impliquera des connaissances mathématiques, informatiques et logiques très poussées et approfondies. On ne peut pas parler d’IA sans comprendre ce qu’est un transformeur et la différence entre un transformeur et un réseaux de neurones convolutif. Il s’agit – dans la continuité des Critical code studies à la Mark Marino – d’être capables d’interpéter les algorithmes et de comprendre leur sens, et pour ce faire il faut en saisir les détails. Cela demande sans doute des efforts, mais on ne peut pas en faire l’économie si nous voulons continuer à dire quelque chose qui ait une valeur et qui ne soit pas un discours de comptoir – à la chatGPT.
Dans ce sens je suis plutôt d’accord avec Chomsky qui affirme de façon catégorique que les approches génératives ne sont pas scientifiques et que si elles nous permettent des applications avec des résultats souvent époustouflants, elles ne nous font avancer presque pas du tout du point de vue de la connaissance.
Je clos ce long billet avec une liste de thématiques que j’aimerais approfondir dans des billets futurs. Ça restera peut-être sans suite, mais c’est une façon d’essayer de m’engager davantage dans cette réflexion (j’ajouterai des liens si j’écris sur ces questions):
- Sur la reconnaissance des chiffres manuscrits et la relation entre humain et machine. S’agit-il d’apprendre à la machine une compétence humaine ou alors d’apprendre à l’être humain à se comporter comme une machine?
- La rhétorique du qualitatif non réductible au quantitatif et la question des modèles (oui, je suis réductionniste).
- Les jeux de rôle et Turing
- Le “plus” qui reste flou et les définition sophistiques de Searle
- Les discours de comptoir de chatGPT: comment passer le test de Turing tout en restant très bête (selon les points de vue)
- IEML et l’approche de Pierre Lévy – qui va complètement dans la direction que je propose ici
- Plus d’informations sur le projet sur les variations
- À propos de Chomsky et de sa position – obstinée – contre les modèles génératifs
- La modélisation de l’amour - vieux projet avec Michael Sinatra, jamais finalisé, mais sur lequel nous avons quelques réflexions à partager
- …