Ongaro-Carcy, Régis. « Développement de méthodes d’intégration de données biologiques à l’aide d’Elasticsearch » [thèse]

« En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d’organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d’autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l’ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n’existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l’évolution rapide des technologies de l’information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. (…) »

source > corpus.ulaval.ca, Ongaro-Carcy, Régis, Développement de méthodes d'intégration de données biologiques à l'aide d'Elasticsearch, juillet 2022, http://hdl.handle.net/20.500.11794/73725

Accueil