Du problème de la qualité des données et de la manière de le résoudre…

(…) Ainsi, on voit apparaître régulièrement des statistiques montrant que les « data scientists » passent presque 80% de leur temps à sélectionner, nettoyer et préparer les données (cf. ces articles du New York Times de 2014 et de Forbes en 2016). Vous y réfléchissez à deux fois avant de faire cet investissement quand vous savez le prix de ce genre de compétence. Or, ce travail n’est pas plus « sexy » aujourd’hui qu’il y a dix ans pour reprendre les termes employés par Christian. En revanche, étant donné la valeur (réelle ou supposée…) créée par ces algorithmes, des solutions commencement à émerger et la préparation des données (on parle aussi de data wrangling en anglais) est peu à peu devenue un enjeu jusqu’à devenir une des tendances annoncée du « Big Data » pour 2017. (…) »