Un premier corpus multi sources sur data.istex

« (…) Le corpus Machine Translation V2 est une expérimentation visant à incorporer des documents issus d’autres ressources à des données Istex. Les données ajoutées sont issues d’une interrogation croisée des ressources Crossref, HAL, PubMed et des thèses du Sudoc des chercheurs français. Cette incorporation a nécessité plusieurs ajustements parmi lesquels la suppression des doublons et la récupération du texte intégral. (…) »

source > inist.fr

Accueil