Rencontre avec Juan Luis Gastaldi

Actuellement, Juan Luis Gastaldi interroge les aspects épistémologiques de la

tokenisation, une étape clé des pipelines de traitement automatique du langage

(TAL) ou Natural Language Processing (NLP). Conformément aux thèmes de

Revue3.0, Gastaldi s’intéresse à ce que les algorithmes de TAL peuvent nous ap-

prendre sur la nature du langage lui-même. Selon son hypothèse, ces algorithmes

révèlent des structures formelles du langage à travers leur fonctionnement. Com-

prendre ces structures permet d’appréhender un aspect fondamental de la notion

de langage tel que modélisé par ces algorithmes.

Introduction et contexte de l’analyse

L’exploration de cette question de recherche doit se fonder sur un certain nombre

de prémisses théoriques et techniques :

1. Une distinction claire doit être faite entre tout ce qui concerne la modéli-

sation du langage incarnée par les LLMs et les interfaces des chatbots, qui

ne font en aucun cas partie de cette modélisation.

2. Une distinction claire doit être établie entre les modèles linguistiques, qui

constituent des représentations matricielles de la langue, et les fonctions

responsables de leur entraînement.

3. Les LLMs sont de nature formelle. Il ne s’agit pas d’objets empiriques. Leur

portée épistémologique ne peut être comprise qu’à travers une approche

formelle, et non par une démarche expérimentale.

4. Les LLMs sont des modèles statistiques. Un modèle statistique est une

fonction qui génère une distribution probabiliste sur un ensemble de données.

Par leur nature, les modèles statistiques sont intrinsèquement probabilistes,

donc stochastiques.

5. Le corpus de référence constitue la seule composante matérielle des sys-

tèmes LLMs. Dans ce contexte, un corpus est en effet un espace matériel

déterminé, aux contours fixes, qui peut être parcouru au moyen de fonctions

spécifiques.

6. Aujourd’hui, l’entraînement et l’évaluation des LLMs reposent principale-

ment sur une approche statistique dite « d’entropie maximale ». Dans

ce cadre, l’entraînement des LLMs est réalisé sur un faible pourcentage

du corpus, tandis que leur évaluation est effectuée sur un autre faible

pourcentage du même corpus. Dans ce contexte, le corpus, bien que de

nature matérielle, est désormais considéré comme un objet statistique.

Induction vs. déduction

Pour Chomsky, une grammaire représente un sous-ensemble de toutes les ex-

pressions possibles. Les grammaires sont donc toujours déduites à partir de cet

ensemble, et non induites. Les LLMs semblent contredire cette hypothèse, car

ils sont de nature statistique, donc inductifs et stochastiques.

Cependant, selon l’hypothèse de Gastaldi, la modélisation incarnée par les LLMs

révèle la présence d’une cohérence structurelle macroscopique liée au langage en

général, indépendante des grammaires individuelles. Cet élément macroscopique

pourrait être rapproché de la notion chomskyenne de grammaire hors contexte,

mais, selon Gastaldi, il serait plus pertinent de l’identifier à un système de

types, au sens où ce terme est utilisé en programmation. Plus généralement, la

démarche de Gastaldi examine comment les LLMs nous permettent d’observer

la structure implicite du langage en général.

Pour mener cette analyse, Gastaldi examine la notion de token, qui, dans le

contexte des LLMs, est l’unité fondamentale du langage.

Unités linguistique

Un token est une séquence de caractères apparaissant souvent ensemble dans un

corpus. Les tokens sont donc induits à partir d’un ensemble de caractères.

La tokenisation soulève une question fondamentale : qu’est-ce qu’une unité

linguistique, ou la plus petite unité de la langue ?

La tradition philosophique occidentale propose deux réponses à cette question :

1. L’unité linguistique existe si et seulement si elle a une référence dans le

monde empirique. Si le structuralisme rejette cette hypothèse, les LLMs, en

tant qu’objets formels, sont une évidence que cette perspective référentielle

n’est pas suffisante pour définir une unité linguistique.

2. Selon l’approche structuraliste, les unités linguistiques sont des éléments

qui s’actualisent au sein d’un système de relations, c’est-à-dire au sein d’une

structure précise. Elles dépendent de la structure dont elles émergent.

Dans ce contexte, l’intervention de Markus Reisenleitner invite à réfléchir sur la

place accordée à la matérialité écrite et acoustique du phonème. Selon Gastaldi,

les éléments matériels d’une langue déterminent l’évolution de sa structure

formelle au fil du temps.

La recherche la plus récente de Gastaldi

À la lumière de ces perspectives, les travaux récents de Gastaldi cherchent à

mettre en évidence la structure implicite des LLMs, en les analysant sous le

prisme de l’algèbre linéaire. Son étude s’appuie sur une analyse formelle du

word embedding, une technique centrale au fonctionnement des LLMs actuels.

Son étude s’appuie sur une analyse formelle des plongements de mot ou word embeddings, une technique centrale au fonctionnement des LLMs actuels. Les plongements de mots (word embeddings) sont des vecteurs denses générés par un processus de vectorisation. La vectorisation repose fondamentalement sur le comptage des mots en contexte à partir d’un grand volume de données et produit une représentation de chaque mot dans un espace continu. La vectorisation performe ainsi une factorisation implicite d’une matrice contenant des informations sur l’utilisation des mots dans le langage.

Après cette factorisation implicite, il convient de réduire l’espace de représentation

des données. La méthode optimale pour cette réduction consiste à organiser les

données en fonction de leurs similarités internes. Par la suite, il est nécessaire de

réduire davantage cet espace en diminuant les dimensions qui le composent. Pour

ce faire, un changement de base est effectué, donnant lieu à des eigenvectors, qui

représentent une organisation optimale de l’espace autour de directionnalités

vectorielles.

Grâce à une analyse compositionnelle, il est possible d’observer des points qui

restent fixes dans l’espace des eigenvectors et qui correspondent à la définition

formelle de types computationnels. L’identification de ces types structurels

converge avec la conception structuraliste du langage, selon laquelle celui-ci est

défini comme paradigmatique, sémiotique et hiérarchique.

Pour connaître les détails sur ces analyses, nous renvoyons aux publications

les plus récentes de Juan Luis Gastaldi, disponibles sur son site officiel (https:

//www.giannigastaldi.com/), et plus particulièrement à son article intitulé _The

Structure of Meaning in Language: Parallel Narratives in Linear Algebra and

Category Theory_ (2024).