Data dredging

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Le data dredging (littéralement le dragage de données mais mieux traduit comme étant du triturage de données^[1]) est une technique statistique qui « consiste à ne publier que les compositions d'échantillon et les périodes d'observation favorables à l'hypothèse testée »^[2].

Une des formes du data dredging est de partir de données ayant un grand nombre de variables et un grand nombre de résultats, et de choisir les associations qui sont « statistiquement significatives », au sens de la valeur p (on parle aussi de p-hacking)^[3].

Ce phénomène apparaît par exemple en médecine, plus précisément en épidémiologie, où, à partir d'un grand nombre de données (poids, âge de l'éventuelle première cigarette, etc.) et d'un grand nombre de résultat possibles (cancer du sein, cancer du poumon, accident de voiture, etc.) des associations hasardeuses sont faites (a posteriori), et « validées » statistiquement^[3].

Hypothèses suggérées par des données non représentatives

Dans un groupe de 366 personnes, au moins deux sont nées le même jour. Cette coïncidence se retrouve également dans un groupe plus petit de 22 personnes. Supposons que dans ce groupe, Marie et Jean fêtent tous les deux leur anniversaire le 7 août. Le triturage de données consiste à chercher d'autres similitudes entre Jean et Marie, telles que :

Sont-ils le/la plus jeune et le/la plus âgé(e) du groupe ?
Se sont-ils déjà rencontrés ? Une fois, deux fois, trois fois ?
Leurs pères respectifs ont-ils le même prénom ?
Etc.

En cherchant attentivement parmi les milliers de similitudes possibles entre Marie et Jean, chacune ayant une très faible probabilité d'être vraie, on finit toujours par en trouver une. Par exemple, il se peut que Marie et Jean aient tous les deux changé trois fois d'orientation à l'université. L'hypothèse, biaisée par le triturage de données, devient alors : « les gens nés le 7 août ont une probabilité beaucoup plus forte de changer d'orientation à l'université ».

Les résultats confirment cette hypothèse, puisque personne d'autre dans le groupe de 22 personnes étant né un autre jour n'a changé d'orientation trois fois.

Cependant, lorsque l'enquête est refaite sur un échantillon beaucoup plus large (la population d'un pays par exemple) et que l'on essaye de reproduire les résultats obtenus, aucune corrélation ne peut être mise en évidence entre le fait d'être né le 7 août et celui de changer d'orientation plus d'une fois. Le « fait » n'existe que pour un échantillon spécifique très petit et non pour le grand public.

Références

↑ Enrico Pavignani et Sandro Colombo, « Donner un sens (approximatif) à des données (bancales) », Analyse du secteur de la santé dans les urgences complexes : Un manuel modulaire, Organisation mondiale de la santé, 2009 (consulté le 10 septembre 2015)
↑ Aktas Nihat, « La « finance comportementale » : un état des lieux », Reflets et perspectives de la vie économique, vol. 43, n^o 2,‎ 2004, p. 19-33 (DOI 10.3917/rpve.432.0019, lire en ligne, consulté le 10 septembre 2015).
↑ ^{a et b} George Davey Smith et Shah Ebrahim, « Data dredging, bias, or confounding : They can all get you into the BMJ and the Friday papers », The BMJ, vol. 325, n^o 7378,‎ 21 décembre 2002, p. 1437 (PMCID 1124898, DOI 10.1136/bmj.325.7378.1437).

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Data dredging » (voir la liste des auteurs).

Voir aussi

Lien externe

« Introduction au bricolage de significativité des tests statistiques », sur Tout se passe comme si, Blog du C@fé des sciences, 26 août 2015

v · m Exploration de données
Type	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio
Généralités	Algorithmes Logiciels
Glossaire