IEML-RS: un prototype de Système de recommandation pour Isidore

Le 18 décembre 2025, Alexia Schneider

Présentation du prototype IEML-RS

Visualisation des articles extraits depuis une requête simple ou augmentée par LLM avec IEML-RS
Visualisation des articles extraits depuis une requête simple ou augmentée par LLM avec IEML-RS

IEML-RS est un prototype basé sur IEML pour la construction de requête en contexte de recherche exploratoire. Ce système de recommandation (ou Recommender System en anglais) appendé au moteur de recherche spécialisé dans la littérature scientifique en SHS, Isidore, est disponible sous forme d'une extension Firefox à l'adresse suivante: https://addons.mozilla.org/fr/firefox/addon/ieml-rs/ ou sur Github.

Son principe est simple: permettre à un.e utilisateur.ice de comparer les résultats produits par deux requêtes simultanées, la première étant le fruit d'une construction de la requête pensée par l'utilisateur.ice, la seconde étant une version 'augmentée' par un LLM qui aura produit une dizaine de variants de cette première requête.

Autrement dit, l'objectif est de mettre en évidence la part souvent invisibilisée du filtrage opéré par le requêtage d'un moteur de recherche et notamment de mettre en lumière l'impact de l'intermédiation des 'AI research assistant' de plus en plus souvent intégrés aux moteurs de recherches académiques (Tay, 2025).

En effet, d'aucun note les possibles biais de confirmation provoqués par l'utilisation d'outils de plus en plus personalisés (Cerf, 2025), ou encore le bien étudié Matthew's effect (Merton, 1968) quand le ranking des résultats met en valeur le nombre de citations.

Mais il y a aussi, selon moi, avec cette invisibilisation structurelle croissante des LLM (Eriksson et al., 2025) le risque moins évident à première vue d'une uniformisation de nos pratiques de recherche d'information. Si elles venaient à être restreinte par des outils dont la modélisation est celle du déchiffrage des intentions de l'utilisateur.ice depuis une instruction donnée exclusivement en langue naturelle, alors le travail cognitif nécessaire à l'élaboration de nouvelles connexions passerait en arrière-plan. C'est-à-dire que requêter une information à travers une instruction médiée par un LLM semble toujours une affaire de trouvabilité (trouver ce que l'on sait qu'il nous manque). Pourtant élaborer de nouvelles connexions, parvenir à faire le tri entre le bruit et le pertinent, c'est là que se joue une partie fondamentale de l'innovation en science. La sérendipité (trouver ce que l'on ne savait pas qu'il nous manquait) est fondamentalement un processus réflexif puisque la trouvaille ne peut apparaître qu'après rencontre d'un contenu et évaluation de ce contenu (Makri & Blandford, 2012). Ces moments de cueillettes informationnelles ou berrypicking (Bates, 1989) émergent pourtant de pratiques qui sortent aussi des cadres définis par les concepteur.ice.s de moteur de recherche, comme en témoigne les détournements notés sur Gallica (Dumas Primbault, 2023, 2025).

En plus de proposer des panels de comparaison des résultats d'une requête avec ou sans LLM. IEML-RS se veut une preuve de concept: il est possible de mettre en avant un paradigme alternatif dans la recherche d'information, un paradigme qui repose sur une création itérative et réflexive de requêtes en collaboration non seulement avec d'autres humains mais aussi avec un LLM. Dans ce cas, le LLM est un RAG avec prompté en fewshot (60 exemples) et grounded avec 20 entrées du dictionnaire IEML sélectionnés par cosine similarité des plongements lexicaux produits par intfloat/multilingual-e5-large-instruct (Wang et al., 2024)).

Diagramme des phases d'interactions de l'utilisateur.ice avec IEML-RS
Diagramme des phases d'interactions de l'utilisateur.ice avec IEML-RS

Cette co-création sémantique se produit de manière interactive dans l'extension: l'utilisateur.ice entre dans une phase exploratoire depuis un article de son choix (le seed article) et détermine lequel ou lesquels des mots-clés associés à l'article l'intéresse (ces mots-clés sont produits soit par les auteur.ice.s de l'article, soit par Isidore). Les mots-clés déjà traduits en IEML apparaissent sous la forme d'un hyperlien bleu, et ceux qui ne bénéficient pas encore d'une traduction en IEML sont cliquable en orange.

Grille en IEML du concept et mot-clé 'éditorialisation' tel que visible dans l'application
Grille en IEML du concept et mot-clé 'éditorialisation' tel que visible dans l'application

La sélection d'un mot-clé en bleu fait apparaître la grille de décomposition sémantique IEML, qui repose sur neuf roles fondamentaux: racine/processus, qui, quoi, à qui, par quoi, quand, où, pourquoi, comment. En plus de respecter la grammaire d'IEML (détaillée ici), les traductions répondent aux critères sémantiques suivants, établis par Pierre Lévy pour l'évaluation des productions des LLMs:

Dans le cas où un mot-clé n'a pas encore été traduit (en orange donc), si l'utilisateur.ice le sélectionne, cela produira une grille identique mais dont le contenu a été prérempli par le RAG mentionné plus haut. Cette grille est modifiable par l'utilisateur.ice et demande une validation humaine. L'intégration de cette traduction validée à la base de données des mots-clés traduits entre dans la logique au coeur du projet de Pierre Levy sur l'intelligence collective (Lévy, 1997, 2023).

Dans le cadre d'une étude utilisateur menée sur 6 membres de l'équipe du laboratoire sur les écritures numériques, j'ai observé que cette étape d'appréciation, de correction et de validation de la traduction en IEML proposée suscitait toujours une réaction: un dialogue avec le contenu proposé s'amorçait, soit verbalement, notamment pour manifester son désaccord, soit directement dans les boîtes de modification textuelle. Par exemple une personne a validé:

mot-clé traduit racine / processus qui quoi à qui par quoi quand pourquoi comment
labyrinthe espace le chercheur le chemin à celui qui cherche à sortir par un dédale (pas uniquement) quand on se perd au cœur de la pyramide ou du gouffre parce qu’on est attiré par le fantasme par une progression souterraine pleine de pièges et de détours
Tableau 1: Traduction validée par un.e utilisateur.ice lors de l'étude utilisateur: la proposition faite par le LLM est commentée entre parenthèse.

Dans un sens le dialogue initié, même s'il ne laisse pas de trace dans l'application, fait écho à la recherche d'information comme processus agentiel de tri sémantique et en particulier à la place de la sérendipité dans les phases d'exploration. Je m'explique, faire le tri dans une série d'informations, est, en quelque sorte, entrer dans un dialogue mettant en correspondance les informations qui sont mises à notre disposition et les informations que nous avons accumulées dans notre mémoire. Cette correspondance ne vise pas à qualifier uniquement comme pertinents les éléments informationnels qui répondent à une requête énoncée plus tôt, elle émerge aussi du désir d'effectuer un tri voire une correction de la liste d'informations proposées. Mon avis est que ce souhait de correction reste souvent implicite mais pourrait être exploité pour la recherche d'information en contexte d'exploration.

Association du concept 'théorie' ici en valeur racine du mot-clé 'éditorialisation', à une liste de mots-clés incluant 'autorialité', 'corpus littéraire', 'intertextualité', 'théorie de l'esprit' etc.
Association du concept 'théorie' ici en valeur racine du mot-clé 'éditorialisation', à une liste de mots-clés incluant 'autorialité', 'corpus littéraire', 'intertextualité', 'théorie de l'esprit' etc.

Après validation de cette étape de traduction, le mot-clé est ajouté à la base de données des concepts traduits. La grille devient alors le support d'une exploration par concept: la sélection d'une cellule de la grille fait sortir tous les mots-clés utilisant la même valeur dans sa grille IEML.

Cette exploration se fait par itération : l'utilisateur.ice est libre de naviguer dans les mots associés sélectionnant un ou plusieurs concepts, en passant de la liste de mots-clés de l'article à celle des mots associés à un concept donné etc.

Sélection de concepts pour lancer une recherche d'articles depuis l'historique de navigation dans l'application
Sélection de concepts pour lancer une recherche d'articles depuis l'historique de navigation dans l'application

À tout moment, il est possible de lancer une requête à Isidore en sélectionnant certains des mots et concepts qui ont été enregistrés automatiquement dans le cache du navigateur et qui sont visibles dans un menu déroulant 'historique'. Ce qui fera apparaître les deux panels de comparaison avec dans notre expemple d'un côté 'editorialisation ET théorie queer' et de l'autre le variant généré par un LLM '(théories queer éditorialisation) OU (queer theories journalisme) OU (éditorialisation théories queer) OU (théorie queer et édition) OU (queer studies journalistique) OU (queer theories medias) OU (éditorialisation identités queer) OU (théories queer et discours)'.

En conclusion, IEML-RS se veut la preuve de concept qu'il est possible d'intégrer à un moteur de recherche des modalités d'interaction qui ne soit pas purement en langue naturelle et qui mette en valeur l'agentivité des chercheur.se.s. Ce prototype de système de recommandation est basé sur une personnalisation choisie et co-construite par l'utilisateur.ice sur la base de choix pensés et maîtrisés à chaque étape, démontrant qu'un système de recommandation peut être un outil critique qui permette d'exposer plutôt que de cacher, les différences de modélisation des systèmes de RI.

Bibliographie

  1. Tay, A. (2025). The reproducibility and interpretability of academic AI search engines like Primo Research Assistant, Web of Science Research Assistant, Scopus AI and more. In Aaron Tay's Musings about librarianship.
  2. Cerf, V. G. (2025). On the Implications of Personalization. Commun. ACM, 68(12), 5. https://doi.org/10.1145/3772040
  3. Merton, R. K. (1968). The Matthew effect in science. The reward and communication systems of science are considered. Science (New York, N.Y.), 159(3810), 56‑63.
  4. Eriksson, E., Hansen, L. K., & Dalsgaard, P. (2025). We Won't Be Talking About GenAI in 2035, and That's a Problem. Interactions, 32(6), 26‑30. https://doi.org/10.1145/3764916
  5. Makri, S., & Blandford, A. (2012). Coming across information serendipitously – Part 1: A process model. Journal of Documentation, 68(5), 684‑705. https://doi.org/10.1108/00220411211256030
  6. Bates, M. J. (1989). The design of browsing and berrypicking techniques for the online search interface. Online Review, 13(5), 407‑424. https://doi.org/10.1108/eb024320
  7. Dumas Primbault, S. (2023). Naviguer dans les savoirs à l’ère numérique. Pour une ethnographie des pratiques informationnelles sur Gallica. Études De Communication. Langages, Information, Médiations, 61, 61‑89. https://doi.org/10.4000/edc.16108
  8. Dumas Primbault, S. (2025). La découvrabilité comme ”prise” - Pratiques de détournement du moteur de recherche de Gallica. In L. Verlaet & C. Delaporte (Éds.), Découvrabilité des contenus culturels et scientifitques.
  9. Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2024). Multilingual E5 text embeddings: a technical report. arXiv Preprint arXiv:2402.05672.
  10. Lévy, P. (1997). L'intelligence collective. La Découverte.
  11. Lévy, P. (2023). Calculer la sémantique avec le langage IEML. Humanités Numériques, 8. https://doi.org/10.4000/revuehn.3836