Quelques statistiques sur theses.fr

« Résumé :

En m’intéressant à l’évolution de certains sujets dans theses.fr (afin de voir à quels moments la recherche française, à travers ses thésards, s’y intéressaient), j’ai été frappé par l’augmentation forte de n’importe quel sujet cherché, sur les dernières années (2005-2012). Après avoir balayé plusieurs hypothèses, j’en viens à la conclusion que le facteur essentiel est la qualité et la richesse de l’indexation des thèses : le nombre de caractères dans les zones d’indexation a été multiplié par 4 entre 1987 et 2012, et par 2 pour les résumés.
Ces constatations m’amènent à 2 remarques essentielles :

– elles remettent à l’honneur l’indexation manuelle : en effet, en particulier avec les pratiques amenées à s’étendre de data mining, si un chercheur veut « faire parler » theses.fr pour y étudier les modes de la recherche française, il risque de se fourvoyer complètement si l’ensemble du corpus n’est pas décrit d’une manière un peu homogène.

– elles invitent à alerter les doctorants quand ils viendront déposer leur thèse : il y a 20 ans, un résumé servait à rendre compte en un texte court du contenu de la thèse, ou tout au moins du sujet de recherche. Aujourd’hui, un résumé doit permettre à la thèse de « ressortir » lors d’une requête. Les mots utilisés doivent donc être bien pesés, voire même, si possible, redondants (afin d’envisager toutes les stratégies de recherche d’un internaute dont les centres d’intérêts rejoindraient ceux de la thèse déposée) (…) »