Kenza Kellou-Menouer. « Découverte de schéma pour les données du Web sémantique » [thèse]

« Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut être incomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin de compléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce qui peut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotation afin de trouver pour chaque type un ensemble de labels permettant de rendre compte de son sens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références.( …) »