Création automatique de métadonnées sémantique dans les articles Stylo
Ce projet a l’ambition d’aider les auteur·e·s et les éditeur·ice·s à produire et gérer un contexte sémantique qui définisse un article par l’enrichissement sémantique automatique. Ces données enrichies reposent sur des langages contrôlées et langage issus du web sémantique dans l’intérêt d’une découvrabilité définie en amont par les créateurices de contenus référencés et non en aval par les stratégies de moissonnage des moteurs de recherche.
Problématique
Dans le cas de la recherche documentaire, les moteurs de recherche font de plus en plus l'objet d'approches inductives qui essayent d'extraire des informations sémantiques qui n'ont pas été déterminées par les créateurices des publications savantes mais plutôt induites selon une logique de synthétisation voire de vulgarisation de l'information sans que la cohérence avec le vocabulaire spécialisé du domaine n'ait été vérifiée. Cela nous expose de manière croissante à un risque de perte de controle sur l'information que nous produisons et de son sens. À l'époque de l'emploi généralisé de LLMs génératifs pour des tâches diverses sur lesquelles leur utilisation n'est encore bien évaluée, il devient encore plus urgent de réintroduire dans les textes que nous produisons des couches sémantiques que nous maîtrisons. C'est la raison pour laquelle ce projet se concentre sur l'expérimentation de diverses techniques pour l'enrichissement sémantique des articles dans Stylo par l'emploi de méthodes d'extractions basées non seulement sur des modèles inductifs que sur des stratégies déductives dans l'optique d'une production transparente de métadonnées sémantiquement riches.
Enjeux techniques
- Analyse des algorithmes existants et de leurs implications théoriques et épistémologiques
- Modélisation de protocoles d'enrichissement sémantique d'articles
- Analyse des besoins des revues partenaires
- Conception d'un prototype à intégrer dans le module d'écriture de Stylo
Actions de recherche
- Choix des métadonnées pertinentes pour l'enrichissement sémantiques
- Benchmark des systèmes pour l'identification de ces données à l'état de l'art (ex: NER, keyword extraction)
- Prototype pour l'intégration à différents moments (écriture, avant l'export) du module
- Evaluation sur une instance de développement
- Déploiement du module sur Stylo public.
Livrables
Un prototype d'annotation sémantique des articles intégré dans Stylo.