Constitution de corpus – Défis méthodologiques et solutions apportées par l’infrastructure Istex

« Les corpus jouent un rôle central dans l’écosystème des grands modèles de langue (LLM), constituant la matière première indispensable à leur entraînement. La qualité, la diversité et la structuration de ces corpus conditionnent ainsi directement les performances, la robustesse et la fiabilité des modèles. En aval de ces entraînements, les LLM permettent à leur tour d’exploiter les corpus pour extraire ou analyser automatiquement les informations contenues dans les textes. Dans ce contexte, l’infrastructure Istex offre des solutions facilitant la constitution de corpus documentaires en vue d’une exploitation par des LLM. Elle donne un accès à plus de 30 millions de publications scientifiques multidisciplinaires, accompagnées d’outils pour créer, gérer et exploiter des corpus adaptés aux besoins de la recherche. Cette présentation s’appuie sur un cas d’usage concret autour d’Istex pour explorer les principaux défis méthodologiques liés à la constitution de corpus. (…) »

source > hal.science, Mathilde Huguin. Constitution de corpus - Défis méthodologiques et solutions apportées par l’infrastructure Istex. École thématique. Modèles de langue pour le traitement sémantique et l’intégration de connaissances et données en agriculture, alimentation et environnement, Montpellier, France. 2025. ⟨hal-05332761⟩

Accueil