Création automatique d'un contexte sémantique dans les articles Stylo
Ce projet a l’ambition d’aider les auteur·e·s et les éditeur·ice·s à produire et gérer un contexte sémantique qui définisse un article. Ce contexte pourra ensuite être utilisé pour enrichir l’article à travers des requêtes sur le moteur de recherche Isidore ou sur d’autres plateformes.
Problématique
La description sémantique d'un article est souvent complexe. Quelles sont les thématiques fondamentales? Comment le texte se place par rapport à la discipline ou au champ de recherche? De l'identification du champ sémantique dépendent les relations possibles que l'article aura avec d'autres documents ainsi que sa circulation. La réflexion sur ce contexte est souvent limitée à l'ajout de quelques mots-clés. La pauvreté de ces informations fait en sorte que les approches algorithmiques inductives d'extraction de mots-clés à partir du texte brut sont systématiquement privilégiées par les moteurs de recherche, ce qui diminue jusqu'à l'anéantir le contrôle du sens du texte de la part des auteur·e·s et des éditeurices. Ce projet va tenter de créer des dispositifs sémiautomatiques d'enrichissement sémantique pour répondre à ce problème.
Enjeux techniques
- Analyse des algorithmes existants et de leurs implications théoriques et épistémologiques
- Modélisation de protocoles d'enrichissement sémantique d'articles
- Analyse des besoins des revues partenaires
- Conception d'un prototype à intégrer dans le module d'écriture de Stylo
Actions de recherche
Il s'agira d'abord de choisir des algorithmes d'extraction automatique des connaissances et de topic modeling qui seront utilisés pour analyser les textes des articles. Ces algorithmes proposeront aux utilisateurices des nuages de mots qui pourront être sélectionnés et éditorialisés.
L'idée est de remettre les choix des auteur·e·s et des éditeur·ice·s au centre du processus en adaptant la réponse des algorithme aux choix contextuels des utilisateur·ice·s.
Livrables
Un prototype d'annotation sémantique des articles intégré dans Stylo.