Bastien Latard. « Scientific search engines : From the categorization to the information retrieval » [thèse]

« L’abondance des données issues d’Internet est telle que les utilisateurs du web peinent à trouver des données pertinentes à leur problématique initiale et se retrouvent noyés dans la masse de données numériques. Ce constat est également applicable aux chercheurs et scientifiques lors de leur phase de recherche bibliographique. Cette thèse ,réalisée en collaboration avec MDPI (éditeur d’articles scientifiques – www.mdpi.com), propose une manière originale capable de relier des articles scientifiques sémantiquement proches. Pour cela, la désambiguïsation des mots-clés des articles à l’aide d’une base de connaissance est réalisée, grâce à une première étape de catégorisation. Une augmentation de données est alors effectuée par l’extraction des voisins sémantiques de ces mots-clés contextualisés. Enfin, une métrique prenant en compte l’ensemble des intersections possibles entre mots-clés désambiguïsés et leurs voisins sémantiques est proposée. D’autres mesures de similarité basées sur des réseaux de neurones ou autres modèles probabilistes ont été implémentées et comparées au sein de cette thèse. Les résultats obtenus sont comparables à ceux obtenus par notre approche et de plus amples investigations sont envisageables (ex : combinaison de ces méthodes). L’évaluation de notre approche met en avant des résultats prometteurs (jusqu’à 92% de précision) et ouvre un certain nombre de pistes pour de futures recherches. (…) »

source > tel.archives-ouvertes.fr, Bastien Latard. Scientific search engines : From the categorization to the information retrieval. Computers and Society [cs.CY]. Université de Haute Alsace - Mulhouse, 2019. English. ⟨NNT : 2019MULH2986⟩. ⟨tel-03463570⟩

Accueil