06.10.2023

Un premier corpus multi sources sur data.istex

« (…) Le corpus Machine Translation V2 est une expérimentation visant à incorporer des documents issus d’autres ressources à des données Istex. Les données ajoutées sont issues d’une interrogation croisée des ressources Crossref, HAL, PubMed et des thèses du Sudoc des chercheurs français. Cette incorporation a nécessité plusieurs ajustements parmi lesquels la suppression des doublons et la récupération du texte intégral. (…) »

source > inist.fr

Mots-clés :
Fouille de textes,
Initiative en information scientifique et technique (ISTEX),
Institut de l'information scientifique et technique du CNRS (INIST-CNRS),
Traitement de corpus

Un premier corpus multi sources sur data.istex

Partager