Compte-rendu de l'atelier IA du 13 février 2025 (Nicolas Sauret & Simon Szoniecky)

Introduction et questions de recherche

Nicolas Sauret : Question : est-ce que il n’est pas nécessaire de prendre une position forte sur la question de l’usage des IA, comme l’a fait Dominique Boullier (voir AOC, 10 février 2025). Il y a une accéleration technologiqe et politique autour des IA.

Exemple de Stylo qui s’est positionné contre le format hégémonique.

Suggère de rédiger un cadre éthique et d’écologie politique pour l’utilisation des IA dans le projet Revue3.0 mais aussi dans le champ disciplinaire largement.

Les expérimentations et le bricolage sont au coeur de nos pratiques mais la tentation est grande de se servir des LLMs sans remise en question, et sans aborder la possibilité d’alternatives à ces LLMs.

Samuel Szoniecky : Il s’agit de pouvoir mesurer l’impact des IA sur notre travail et sur l’environnement. Travaille sur l’évaluation des pouvoirs dans l’interaction humain-machine-environnement : comment produire un développement durable et réciproquement profitable ? Comment évaluer ? Actuellement, sa démarche de travail repose sur du bricolage, des tests, qui permettent d’approuver les contraintes et les bénéfices. Vision écosystémique : interrelation de chaque acteur·ice et modélisation des coexistences. Les existences artificielles actuelles, les "agents", pourraient être des "personnages conceptuels", comme la représentation d’un point de vue à questionner. Ces agents demandent à être questionnés, construits et évalués.

Nicolas Sauret : Quels éléments de mesure, notamment écologique, de ces outils ?

Samuel Szoniecky : Définition des pouvoirs :

discernement : comment aborder un corpus.
raisonnement/raisonnance : en quoi un agent peut aider à explorer de façon systématique tous ce qui est de l’ordre de la raisonnance (en quoi un agent peut fournir des informations qui ne sont pas de l’ordre logique).

Stéphane Pouyllau (dans le chat ): Événement : «Édition scientifique et intelligence artificielle» Vendredi 28 mars 2025, de 09h15 à 12h30, en présentiel. Programme de l’événement.

Gérald Kembellec (dans le chat): https://rsf.org/fr/projet-spinoza ce prototype permet à l’utilisateur journaliste d’accéder rapidement à des informations précises tirées de documents juridiques et scientifiques.

Discussion

Marcello Vitali-Rosati : on trouve une similarité entre la critique envers l’"IA" actuelle et les critiques presque réactionnaires envers le web au début du web. Des réflexions comme "on ne lit plus, on perd X Y". L’intérêt est de s’interroger sur les interactions systémiques. Quels sont les enjeux de pouvoir : une configuration actuelle différente de celle des début du web notamment dans la dimension économique. Des coûts qui ne peuvent plus être comparés.

Florence Maraninchi (voir Pourquoi je n’utilise pas ChatGPT).

Deuxième question : de quoi on parle quand on parle des IA ? Des modèles conversationnels ? Il y a plein de modèles qui sont pensés pour des fonctionnalités précises (analyse de vecteur, calcul, traduction etc.), mais aujourd’hui, la compréhension/le développement de l’IA se concentre de plus en plus sur le prompt, même dans le cas du RAG.

Stéphane Pouyllau : Article de Maraninchi est l’arbre qui cache la forêt, en se concentrant sur une critique de certains usages. Il serait dommage de se priver des modèles qui reposent sur des prompts. On peut nuancer en utilisant par exemple des petits modèles de langue (SLMs). Ces alternatives permettent de se questionner sur la position de l’éditeur·ice et du chercheur·e par rapport à ces technologies, et permettent d’aborder des questions à niveau éthique/écologique.

Quelle est la position des éditeurs scientifiques sur l’usage des corpus scientifique pour entrainer et faire du RAG ? La publication du Common Corpus en mars 2024 change la donne pour l’entraînement de modèles multilingues/français et beaucoup de chercheur·e·s s’en sont saisis.

Nicolas Sauret (dans le chat): Pour aller dans le sens de Stéphane, prise de position des éditeurs de presse indépendante par rapport à l’utilisation de leurs contenus pour l’entrainement des LLM. Tribune : Trois conditions pour garantir la fiabilité de l’information et préserver la démocratie à l’heure de l’IA générative.

Samuel Szoniecky : Les "agents" ne sont pas uniquement les chatbots, mais aussi tous les outils qui permettent d’exploiter des base de données/corpus.

Exemple : usage d’une IA pour récupérer les cours de Deleuze en audio, les retranscrire automatiquement, les représenter sous forme de diagramme, et enfin pour questionner la base de connaissance et récupérer précisément les informations à l’aide d’un RAG. Autrement dit à chacune des étapes de la chaîne éditoriale il y a des agents.

Il est important d’évaluer quels pouvoirs sont en jeu et de préciser les questions liées à ces agents, tout comme de se poser les questions relatives aux enjeux de diffusion.

Marcello Vitali-Rosati: ce que tu présentes n’a rien à voir avec ce que nous appelons normalement IA. Est-ce que c’est nécessaire/utile de maintenir la notion très générique d’« IA » telle que nous l’utilisons aujourd’hui ? Nous mettons ensemble beaucoup de technologies et d’usages dans le seul mot d’IA.

Samuel Szoniecky: là on touche à notre responsabilité en tant que spécialistes. C’est à nous de nous positionner et d’affirmer que l’IA ne se limite pas aux chatbots. Ça montrera la pertinence de notre voix en tant que chercheur·e·s.

Nicolas Sauret : est-ce qu’il y a des discussions autours des usages de l’IA au sein des revues ? Des tests ont été fait avec ChatGPT à ma connaissance.

Aurélien Berra (Humanités Numériques) : Former quelqu’un à utiliser un chatbot n’est pas forcément un bon usage du temps des chercheur.e.s/agent.e.s du CNRS. L’intérêt de Revue3.0 c’est de pouvoir se réunir en petits groupes pour pouvoir faire des expérimentations précises.

Florence Daniel (revue Natures Sciences Sociétés): Aujourd’hui les expérimentations qui sont faites utilisent ChatGPT, car malgré les questions pertinentes soulevées sur l’écologie etc., ChatGPT accomplit les tâches qu’on lui demande de faire. L’objectif de Revue3.0 peut être l’accompagnement des éditeur·ice·s à de nouvelles pratiques ou de nouveaux outils.

Aurélien Berra : Revue3.0 pourrait monter un protocole pour l’usage de l’IA dans le cadre de l’édition scientifique.

Bertrand Gervais (revue Captures): Un accompagnement pour les éditeur·ice·s est nécessaire. Comment intégrer des compétences liées à l’usage de l’IA ? Les revues n’ont pas les moyens pour offrir ce type de formation.

Attention à ne pas prescrire, il faut accompagner/former. Comment faire en sorte que les éditeur·ice·s de revues dans des disciplines variées ne soient pas perdu.e.s par rapport à ces outils ?

Stéphane Pouyllau (dans le chat) : "Les outils de traitement par “IA” dans les flux éditoriaux doit être intégré dans les savoir-faires des métiers. C’est un enjeux d’UX, d’UI et de bibliothèques de Prompt construits avec les acteurs de la revue. C’est un beau projet pour Stylo"

Gérald Kembellec (dans le chat) : "Ce que dit Stéphane c’est ce sur quoi on travaille dans la revue de l’INTD ".

Gérald Kembellec : On va avoir des revues très techniques avec de grosses masses de données qui permettent de faire du RAG. Dans l’axe de recherche Data-documentation : en quoi le travail collaboratif d’indéxation et de documentation va intéragir et s’intégrer avec des IA qui pourront effectuer les même tâches ?

Une approche encore précautionneuse car faire interagir des agents et plusieurs humains pose la question du contrôle : des couches et des sous-couches de codes qui ne sont pas forcément vérifiées/vérifiables et si des erreurs se glissent cela peut avoir des grosses conséquences.

Nicolas Sauret (repartant de l’article de Dominique Boullier): La pure statistique ne fonctionne pas. Travail humain invisibilisé et capitaliste/colonialiste derrière. Projet qui propose des alternatives qui prennent en compte la compétence de classification propre à l’humain.

Gérald Kembellec : travaille sur deux projets d’ingénérie documentaire. Les tests avec des IA générative pour la classification montrent qu’il faut une collaboration entre un spécialiste de la documentation, les acteur·ice·s et les éditeur·ice·s : c’est un projet heuristique qui montre l’impossibilité de supprimer l’humain du processus de documentation, qui doit, par exemple, expliquer les règles nécessaires et répéter plusieurs fois avec les chatbots pour obtenir le résultat souhaité.

Stéphane Pouyllau : les industriels intègrent les outils de RAG ou font du fine tuning pour la documentation technique (exemple de l’industrie des ascenseurs) : ils n’ont pas testé leurs méthodes avec des modèles grand public. Leurs premiers tests ont été effectué avec des modèles non entrainés sur leurs données, puis après insatisfaction avec les premiers résultats ils ont attendu. Ils ont préféré utiliser un modèle plus récent de Mistral pour le fine tuner avec leurs données.

Marcello Vitali-Rosati : plusieurs pistes:

concevoir protocoles possibles d’expérimentations (quelles expériences avec quels outils), par exemple par rapport à l’évaluation
question éthiques : impact écologique, question du pouvoir, des structures (voir Eye of the Master par Matteo Pasquinelli) Renversement de la question : les IA ne nous font pas perdre notre travail. Les LLMs d’aujourd’hui correspondent plus à nos attentes de la division du travail, c’est pour ça qu’ils nous semblent meilleurs. Ces questions pourront faire partie du futur de cet atelier.

Nicolas Sauret : du point de vue de l’expérimentation, il est nécessaire de se demander ce qui vaut le coup d’expérimenter: certaines tâches peuvent être automatisées très bien avec des systèmes experts.

Il faudrait mettre en place des formations au sein de Revue3.0, comme on le fait pour Stylo, aux usages de l’IA pour la recherche et les activités des revues.

Samuel Szoniecky : jouer collectif, pour trouver une réponse collective sur nos intérrogations autour de l’IA.

Références et liens utiles

Collectif d’organisations professionnelles représentatives des éditeurs ainsi que le Geste, auquel participe le SEPM (Alliance, FNPS, Geste, SEPM, Spiil), « OPINION. « Trois conditions pour garantir la fiabilité l’information et préserver la démocratie à l’heure de l’IA générative » », 5 février 2025. https://www.latribune.fr/opinions/tribunes/opinion-trois-conditions-pour-garantir-la-fiabilite-l-information-et-preserver-la-democratie-a-l-heure-de-l-ia-generative-1017557.html?id=1325156934235714.

Boullier, Dominique. « Sommet IA : la nécessaire sécession sémantique européenne - AOC media ». AOC media - Analyse Opinion Critique, 9 février 2025. https://aoc.media/analyse/2025/02/09/sommet-ia-la-necessaire-secession-semantique-europeenne/.

Langlais, Pierre-Carl. « Releasing Common Corpus: the largest public domain dataset for training LLMs ». Consulté le 13 février 2025. https://huggingface.co/blog/Pclanglais/common-corpus.

Maraninchi, Florence. « Pourquoi je n’utilise pas ChatGPT ». Billet. Academia (blog), 2 février 2025. https://doi.org/10.58079/1382x.

Pasquinelli, Matteo. « The Eye of the Master ». Verso. Consulté le 13 février 2025. https://www.versobooks.com/en-ca/products/735-the-eye-of-the-master.

Reporter Sans Frontière et Alliance de la presse d’information générale, Projet Spinoza : "L’intelligence artificielle pour les journalistes, par les journalistes et les médias", Reporter Sans Frontière, 16 avril 2024. https://rsf.org/fr/projet-spinoza

+ Evenement : «Édition scientifique et intelligence artificielle» Vendredi 28 mars 2025, de 09h15 à 12h30, en présentiel. Programme de l’événement disponible sur https://www.fnps.fr/2025/03/28/colloque-edition-ia-2025/