ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D

« À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de documents scientifiques au format PDF à l’ensemble de la communauté de l’Enseignement Supérieur et de la Recherche. Au delà d’un accès performant et pérenne aux documents PDF, la disponibilité de documents pleins textes structurés en XML simplifie également considérablement l’application d’outils de TDM (Text and Data Mining) pour les chercheurs en analyse de données scientifiques.

Lorsqu’un éditeur scientifique fournit des documents pleins textes XML, il est possible de transformer le format XML propre à l’éditeur sans perte d’information dans un format TEI unique grâce à un outil comme Pub2TEI. (…)

Cependant, la grande majorité des ressources ISTEX (plus de 90%) n’est disponible qu’au format PDF, les éditeurs ne disposant eux-mêmes pas des documents pleins textes complémentaires. Comment, pour ces 90%, mettre à disposition un format uniforme adapté au TDM ? (…) »