Compte-rendu de l'atelier IA du 13 mars (Gérald Kembellec)

Captation de l’atelier

Présentation avec Christelle Magdelaine : responsable du centre de ressources CREPAC, cheffe de projet pour l’automatisation de la production de résumé d’articles (voir atelier précédent).

Présentation : le palimpseste numérique

"le palimpseste numérique":

En référence à l’article « Goyet, S. (2017). Outils d’écriture du web et industrie du texte:Du code informatique comme pratique lettrée. Réseaux, 206(6), 61‑94. https://doi.org/10.3917/res.206.0061 » :

il existe des manières de penser et de structurer le numérique.

"Les écrits d’écrans" : il y a des formes sémantiques en sous-couches qui sont invisibles dans la couche graphique mais accessibles par les outils de web scrapping et de moissonnage (ex d’outils pour le moissonnage : zotero)

Jean-Edouard Bigot et le concept de "lecture équipée".

Exemple de l’usage de Gérald : openlinksw

Alexandra Saemmer et la rhétorique de l’hypertexte : dans la balise de lien, avec le HTML5 notamment, la possibilité de donner un sens et d’avoir une intentionalité de réception sur des structures documentaires qui vont sous-tendre le texte. Exemple en contexte journalistique, dans la balise de lien `<a> </a>` avec des attributs comme "nofollow", qui ne sont pas destinés à être lus par les humains et qui signifient que l’on est pas d’accord avec le contenu lié pour éviter que son site soit associé à celui du lien.

Zerilli, S. (2015). Alexandra Saemmer, Rhétorique du texte numérique : Figures de la lecture, anticipations de pratiques. Lectures. https://doi.org/10.4000/lectures.18678

En terme de structuration de l’information en sous-couche, on peut aussi évoquer la péricope comme dans Réflexions sur le fragment dans les pratiques scientifiques en ligne : Entre matérialité documentaire et péricope. (Kembellec & Bottini, 2017).

Dans le contexte d’exégèse la péricope c’est la segmentation du contenu non pas selon les chapitres ou versets etc mais selon des morceaux sémantiques comme une parabole. ex de la parabole du fils prodigue (Luc) qui peut être segmentée selon des unités de sens (péricope). Dans le contexte de l’écriture numérique cela peut être un fragment de document visuel. Exemple des mémorèmes qui vont cadrer une portion d’une image, d’une vidéo. L’équipement pour encadrer cette stratégie sont ceux du Web Sémantique avec du Dublin Core par exemple.

Discussion

Marcello Vitali-Rosati: Remarque critique sur la notion de palimpseste numérique - le palimpseste est une métaphore poétique qui risque de masquer les couches interpretatives du code : il n’y a rien de "gratté", de re-écrit ou d’évanessent dans la strcutrure du numérique - il y a une dépendence nécessaire et déterministe entre la structure matérielle hardware, la representation binaire en caractéres (ASCII, etc.). Le passage d’une couche à l’autre est l’object d’une discussion politique -> question de l’établissement du standard, qui établit qu’est-ce que le texte. La métaphore du palimpseste risque de faire perdre de vue les questions politiques.

Référence à Kittler, pour aller contre la métaphore du palimpseste.

Friedrich Kittler : Mode protégé—Les presses du réel (livre). (s. d.). Consulté 13 mars 2025, à l’adresse https://www.lespressesdureel.com/ouvrage.php?id=3852&menu=0

Frédéric Clavert (dans le chat): Si je puis me permettre, autour de la discussion de la métaphore du palimpseste: ne venant pas du tout d’une discipline utilisant cette notion, je suis surtout frappé qu’il n’y ait pas de liens avec tout ce qui a été fait sur les archives du web (Niels Brügger par exemple, qui passe beaucoup de temps à regarder les différents niveaux d’analyse des pages web archivées -- cf. https://direct.mit.edu/books/monograph/4215/The-Archived-WebDoing-History-in-the-Digital-Age ). Sans même parler de la logique politique qu’évoque Marcello.

Brügger, N. (2018). The Archived Web : Doing History in the Digital Age. The MIT Press. https://doi.org/10.7551/mitpress/10726.001.0001

Gérald Kembellec: On peut décorer les sous-couches et mentir sur le contenu de son texte. On peut faire du bashing sur des hyperliens en utilisant des schémas. L’écrit d’écran est totalement différent de ce que le code source/sous-couche annonce. Il est possible de mentir totalement sur le contenu sémantique. C’est le jeu du SEO. Théoriquement ce qui est présenté sur le code source et sur l’écrit d’écran en HTML5 sont supposés être identiques et le visuel doit être constitutif de ce qui est codé.

Le passage entre les couches peut être aléatoire, construit, on peut donc superposer du sens à chaque fois que l’on passe d’une couche à l’autre. Ce passage qui masque la structure est partie des pratiques de l’indéxation, qui montrent dans la couche graphique plus d’information et de résultats par rapport à ses sous-couches.

Marcello Vitali-Rosati: Le passage entre un protocole et un autre est toujours politiquement determiné par l’établissement de standards. La dureté de chaque couche fait qu’elles ne sont jamais evanescentes. Dans tout les cas, il s’agit d’une système déterministe, avec des dispositifs politiques qui s’occupent de la négatiation et de la médiation entre les couches. Pour observer les limites des passages entre les couches on peut se dire que le système est fermé (point de vue de Marcello) et interroger les enjeux politiques ou que le système est ouvert (point de vue de Gérald).

Gérald Kembellec: (partant de l’exemple de la prise de note) : on part du principe que les notes de Christelle si on les transforme avec un outil et un dispositif automatisé on est dans le XIXe, et de ce point de vue, Marcello a raison, par contre si on met les notes à l’intérieur d’un livre ce qu’on va voir c’est la couverture, les vraies notes avec le sens n’apparaissent pas. Il faut entendre le palimpseste comme la fait Tim Berners-Lee quand il est passé du SGML en 1991 au HTML pour faire juste de la présentation et décorréler le fond de la forme puis dans un deuxième temps, avec le XHTML a fait une grosse structuration où le fond et la forme ont pu être travaillés ensemble. La logique du XHTML va dans le sens du propos de Marcello. Par contre avec le HTML5 tel que pensé par le WHATWG (Web Hypertext Application Technology Working Group -- la communauté qui s’occupe du développement de HTML et des technologies liées) on peut faire un aplat de sens à l’écran et quelque chose de différent dans la source. Dans ce cas on a une écriture de sens qui est différente du rendu visuel et qui n’est pas industriel mais éditorialisé. Cette logique n’a pas de sens dans le cas de diffusion de publications scientifiques. Par exemple, on peut mettre de l’IA, le mot à la mode, partout visuellement mais pas forcément à la source. Par contre, confier à une IA le fait d’aller chercher les métadonnées, c’est-à-dire à une échelle industrielle, alors il n’y a pas possibilité de tricher sur le contenu.

Concernant les guerres entre le XHTML et HTML5: deux approches totalement différentes avec d’un côté schema.org et json-ld de l’autre RDFA. Aujourd’hui on cherche un équilibre à trouver entre l’information et la communication (discipline unie en France). Exemple de Sire, qui a fait une analyse de code de Google : on peut avoir une vision purement communicationnelle plutôt qu’informationnelle.

Scission dans le consortium W3C : WHATWG a mis dans des carrés le HTML5 avec des schémas et ça fonctionne très bien parce que Google et ses algorithmes portent cette logique, avec une vision commerciale. De l’autre côté il y a la BnF et le RDFa avec une vision du web plus libre. Ces technologies ont un positionnement idéologique. Le choix des autorités, des structures et des vocabulaires positionnent les institutions.

Sire, G. (2018). Web sémantique : Les politiques du sens et la rhétorique des données. Les Enjeux de l’information et de la communication, 192(2), 147‑160. https://doi.org/10.3917/enic.025.0147

Marcello Vitali-Rosati: La prise en main de WHATWG par Google a rendu le web beaucoup moins structuré par rapport à ses versions précedentes. Avec le HTML5 une donnée moins structurée pour correspondre à la logique commerciale. La Big Tech a gagné la guerre des navigateurs et avec la gouvernance du web. Cette transition a peu été débatue.

Gérald Kembellec: Propose une intégration avec une IA de balises choisies et pensées. David Shotton : intégrer les principes de bien écrire des contenus et de travailler en collaboration entre auteur.ice/éditeur.ice/documentaliste. Et "les primitives intellectuelles" Bruno Latour et John Unsworth avec une idée similaire mais d’un point de vue moins anthropologique et plus sociologique sur les questions de circulation de l’information scientifique à travers nos écrits partagés sur le web. Avec du knowledge discovery qui soit pensé dès la rédaction de l’article plutôt que de faire confiance à une interface sur laquelle on a pas la main.

Expérimentation de 2017 : notices d’autorité générées automatiquement par Google grâce à la structuration formelle des données avec schema.org des pages bio-bibliographiques du projet critique d’art écriture francophone. Les pages étaient redites en souscouches. toutes les informations sémantiques étaient dans les pages HTML sur les chercheur.e.s. à partir d’un même csv, les informations étaient disponibles sans transformation (sans sous-couche). Les pages avaient de fait un cartouche pour présenter l’information structurée dans le moteur de recherche.

Marcello Vitali-Rosati: Les moteurs de recherche ne tiennent pas compte des informations structurées que nous produisons. Le contenu est pris en plain text et les métadonnées sont regénérées par des algorithmes car peu de revues mettent réellement les métadonnées. Exemple de[ Sens public](https:// https://www.erudit.org/fr/revues/sp/ ) qui utilise du RDFa très riche, des notices Rameau, des identifiants ORCID, mais cet enrichissement est ignoré par l’outil de traitement industriel. L’enjeu est plutôt au niveau de la communauté : nous portons des valeurs qui ne se traduisent pas dans l’utilisation des outils qui correspondent à ces valeurs.

Tension entre nos usages et nos valeurs (DH) et les usages que le web et les navigateurs font des informations que nous produisons : Est-ce que ça a encore du sens de demander d’utiliser des outils qui résistent à la facilité et qui s’intéressent à la structuration des données, quand les navigateurs traitent le texte selon d’autres logiques ?

Gérald Kembellec: L’intérêt des logiques d’enrichissement sémantiques pour le web a atteint un pic en 2017 avec les "rich snippets", les cartouches d’information de Wikipédia qui étaient extraites par Google qui les plaçait ensuite en tête de la page. Peerj www.peerj.com a déployé beaucoup de moyen pour produire une indexation sémantique : Est-ce que ce travail a un intérêt au-delà de la satisfaction du travail artisanal ? Exemple de RASH et des articles en Simplified HTML qui illustre ce travail fond/forme.

Peroni, S., Osborne, F., Iorio, A. D., Nuzzolese, A. G., Poggi, F., Vitali, F., & Motta, E. (2017). Research Articles in Simplified HTML : A Web-first format for HTML-based scholarly articles. PeerJ Computer Science, 3, e132. https://doi.org/10.7717/peerj-cs.132

Frédéric Clavert : quelle est la définition de la notion d’« équitable » entre agent humain et IA ?

Gérald Kembellec : Christelle et le projet présenté par Joaquine Barbet illustre bien ces questions d’équitabilité.

Christelle Magdelaine : l’équilibre est encore difficile entre ce qui est équitable et les enjeux économiques. Les conclusions du projet sur l’automatisation de la production de résumé avec l’analyste-indexeur sont qu’un llm n’est pas encore capable de se substituer à l’humain. Le blocage actuel est sur des questions légales. IA comme aide au travail humain et non une substitution. Voir https://revue30.org/documents/atelier_ia_27_fevrier/ pour plus de détails sur le projet mené au CNAM.

Références

Brügger, N. (2018). The Archived Web: Doing History in the Digital Age. The MIT Press. https://doi.org/10.7551/mitpress/10726.001.0001

Latour, B. (2001). Le métier de chercheur. Regard d’un anthropologue. Éditions Quæ. https://doi.org/10.3917/quae.latou.2001.01

Kembellec, G., & Bottini, T. (2017, novembre). Réflexions sur le fragment dans les pratiques scientifiques en ligne : Entre matérialité documentaire et péricope. 20° Colloque International sur le Document Numérique : CiDE.20. https://hal.science/hal-01700064

Kembellec, G. (2021). L’érudition numérique palimpseste. Hermès, La Revue, 87(1), 145‑158.

Friedrich Kittler: Mode protégé—Les presses du réel (book). (s. d.). Consulted March 13, 2025, at https://www.lespressesdureel.com/ouvrage.php?id=3852&menu=0

Peroni, S., Osborne, F., Iorio, A. D., Nuzzolese, A. G., Poggi, F., Vitali, F., & Motta, E. (2017). Research Articles in Simplified HTML : A Web-first format for HTML-based scholarly articles. PeerJ Computer Science, 3, e132. https://doi.org/10.7717/peerj-cs.132

Sire, G. (2018). Web sémantique : Les politiques du sens et la rhétorique des données. Les Enjeux de l’information et de la communication, 192(2), 147‑160. https://doi.org/10.3917/enic.025.0147

Zerilli, S. (2015). Alexandra Saemmer, Rhétorique du texte numérique : Figures de la lecture, anticipations de pratiques. Lectures. https://doi.org/10.4000/lectures.18678