Évaluation des résumés rédigés par des LLM avec ChainForge
2026-03-19
Cet atelier présente ChainForge à travers une démonstration pratique du test et de l’évaluation de prompts appliqués à la génération de résumés scientifiques. L’atelier débutera par une brève introduction à ChainForge en tant qu’outil permettant de comparer et d’analyser les sorties de différents modèles de langage. Il montrera ensuite comment un pipeline simple de RAG (Retrieval-Augmented Generation) peut être utilisé pour générer des résumés à partir d’articles scientifiques au format PDF. Enfin, il démontrera comment ces résultats peuvent être évalués selon différentes contraintes de prompt, telles que le nombre de mots, la qualité grammaticale et la pertinence par rapport au résumé original.
L’objectif de cet atelier est d’illustrer, à travers un exemple concret, comment des évaluations quantitatives et qualitatives peuvent être combinées dans un flux de travail clair, structuré et reproductible.