03.06.2025
Enseignement supérieur et recherche, Innovation, Lire/Regarder/Ecouter, Ressources scientifiques et techniques

Knafou, Julien David Marc. «TransBERT: Leveraging Automatic Translation for Domain-Specific Knowledge Transfer » [thèse]
« Cette thèse vise à surmonter la barrière linguistique en sciences de la vie grâce à TransBERT, un modèle de langue biomédicale entraîné exclusivement sur plus de 22 millions de résumés (abstracts) PubMed/MEDLINE traduits automatiquement en français. Les résultats montrent que TransBERT atteint des performances comparables, voire supérieures, aux modèles de référence français, sans utiliser de texte originalement écrit en français. L’étude démontre également que la tokenisation spécialisée améliore significativement les résultats, notamment pour la reconnaissance d’entités nommées. En proposant TransCorpus, le plus grand corpus biomédical français à ce jour, et une méthodologie d’évaluation rigoureuse, ce travail offre une solution évolutive pour développer des modèles performants dans des paires de langues et domaines avec peu de ressources. Ces avancées ouvrent la voie à un accès élargi aux outils NLP avancés pour potentiellement n’importe quelle langue et/ou domaine. (…) »