06.10.2023
Un premier corpus multi sources sur data.istex
« (…) Le corpus Machine Translation V2 est une expérimentation visant à incorporer des documents issus d’autres ressources à des données Istex. Les données ajoutées sont issues d’une interrogation croisée des ressources Crossref, HAL, PubMed et des thèses du Sudoc des chercheurs français. Cette incorporation a nécessité plusieurs ajustements parmi lesquels la suppression des doublons et la récupération du texte intégral. (…) »
source > inist.fr