Création automatique de métadonnées sémantique dans les articles Stylo

Ce projet a l’ambition d’aider les auteur·e·s et les éditeur·ice·s à produire et gérer un contexte sémantique qui définisse un article par l’enrichissement sémantique automatique. Ces données enrichies reposent sur des langages contrôlées et langage issus du web sémantique dans l’intérêt d’une découvrabilité définie en amont par les créateurices de contenus référencés et non en aval par les stratégies de moissonnage des moteurs de recherche.

Problématique

Dans le cas de la recherche documentaire, les moteurs de recherche font de plus en plus l'objet d'approches inductives qui essayent d'extraire des informations sémantiques qui n'ont pas été déterminées par les créateurices des publications savantes mais plutôt induites selon une logique de synthétisation voire de vulgarisation de l'information sans que la cohérence avec le vocabulaire spécialisé du domaine n'ait été vérifiée. Cela nous expose de manière croissante à un risque de perte de controle sur l'information que nous produisons et de son sens. À l'époque de l'emploi généralisé de LLMs génératifs pour des tâches diverses sur lesquelles leur utilisation n'est encore bien évaluée, il devient encore plus urgent de réintroduire dans les textes que nous produisons des couches sémantiques que nous maîtrisons. C'est la raison pour laquelle ce projet se concentre sur l'expérimentation de diverses techniques pour l'enrichissement sémantique des articles dans Stylo par l'emploi de méthodes d'extractions basées non seulement sur des modèles inductifs que sur des stratégies déductives dans l'optique d'une production transparente de métadonnées sémantiquement riches.

Enjeux techniques

Actions de recherche

Livrables

Un prototype d'annotation sémantique des articles intégré dans Stylo.

Personnes

Partenaires