Progression du projet IEML pour le balisage d'articles en SHS

Le 01 avril 2025, Alexia Schneider

Description du projet

Le projet a pour objectif d'explorer les potentialités du langage artificiel IEML, créé par Pierre Lévy, pour les revues en SHS.

L'enjeu central est celui de la maîtrise de l'information produite et diffusée : à l'heure où les modèles statistiques dominent les systèmes de recherche d'information comment définir sans ambiguité un cadre sémantique sans restreindre ses données à un cadre ontologique précis ? IEML en tant que matrice d'explicitation sémantique dont les règles syntaxiques permettent de produire des ontologies avec une grande flexibilité, est un langage prometteur pour répondre à cette problématique.

Cette approche théorique engage la question de la découvrabilité, de la transmission de la littérature savante et de manière plus fondamentale, interroge la modélisation du sens.

Contributions attendues

L'objectif du projet est d'intégrer un système de modélisation sémantique en IEML à l'outil Stylo afin de proposer une de visualisation alternative et complémentaire à l'indexation par mots-clés en langue naturelle ou dans des langages contrôlés du Web Sémantique.

Le livrable attendu est un prototype d'anotation sémantique automatique.

Étapes du projet réalisées

Mise en place

Définition de la problématique à partir d'un cas pratique

Réseau de 5 articles à partir de 3 types de mots-clés
Réseau de 5 articles à partir de 3 types de mots-clés
Réseau de 300 mots-clés en relation (742 arêtes) dans le corpus Sens public
Réseau de 300 mots-clés en relation (742 arêtes) dans le corpus Sens public
Cluster de mots-clés émergeant du corpus Sens public
Cluster de mots-clés émergeant du corpus Sens public

Expérimentations avec IEML

Ces stratégies de mise en relation ne donnent pas davantage de sens aux relations observées.

Conclusion des premières étapes

La construction d'un parseur nécessite une compréhension solide de la logique du langage, ce qui demande du temps, d'autant plus que IEML est un langage complexe qui oblige à penser en dehors des paradigmes conceptuels habituels en programmation.

Ces premiers mois de recherche ont été important pour définir la problématique propre à ce langage et à la question de la représentation du sens dans un corpus de mots-clés partiellement décontextualisé.

Perspectives

Une piste de réflexion est de repenser la mise en relation non plus comme un réseau statique mais plutôt comme un tableau voire comme un échiquier sur lequel les termes se déplacent en mouvement sémantique.

De même, tirer partie d'IEML passe par une mise en relation qui n'est pas top-down (du "paradigme racine" aux termes qui le compose) mais qui s'intéresse plutôt au voisinage.