Les données peuvent mentir : voici le guide du radar à bullshits

Le Big data et l’apprentissage de la machine font qu’il est plus facile de trafiquer des données, si vrai que deux scientifiques ont fait un programme libre pour la combattre.

Les données peuvent mentir - Voici un guide pour Calling Out BS

Nous vivons dans un temps inondé de conneries. Il y a du fake du genre politique, un type qui ressuscite à l’avant-garde de la conversation nationale au cours de la dernière année par le biais de fausses nouvelles. Mais il existe aussi des formes plus insidieuses -particulièrement dans le monde du Big Data, des données et du machine learning.

Selon les professeurs de l’Université de Washington, Carl T. Bergstrom et Jevin Ouest, il est temps que quelqu’un fasse quelque chose à ce sujet. Leur réponse ? Le Syllabus Bullshit. C’est un cours structuré libre de lectures et d’études de cas visant à donner aux élèves (et tous ceux qui pourraient être intéressés) les outils pour un regard critique sur les allégations scientifiques conduites par les données et l’apprentissage de la machine. Au cours des six derniers mois, les deux scientifiques ont créé le programme et l’ont publié en ligne dans l’espoir que l’administration de l’université propose de le transformer en un véritable cours (il est actuellement dans le processus d’approbation, et pourrait être offert proposé).

Les deux ont été frustrés par la façon dont les résultats statistiques sont traités dans les médias et dans les salles de classe pendant des années. West, professeur à l’École d’information et directeur des données de laboratoire de l’UW, estime que grâce à l’émergence de grandes données et la disponibilité croissante d’outils qui aident plus de personnes à travailler avec elle, la quantité de bêtises semble avoir augmenté ; avec tant de données, il y a tout simplement plus de potentiel pour les scientifiques des données et les concepteurs de les façonner pour les adapter à leurs propres conclusions ou même intentionnellement tromper leur public.

Alors que Bergstrom, un biologiste évolutionniste, estime que « le bullshit a toujours été là » et est réticent à dire que les niveaux ont augmenté de façon spectaculaire, il convient qu’il est incroyablement facile de nos jours de sortir des conneries hors contexte et de les rendre virale. Les gens ne prennent pas, la plupart du temps, le contrôle des graphiques et des visualisations de données avant de les partager en ligne, comme dans cet exemple qui se penche sur le taux de participation, mais dénature les données. Au-delà de ça, il pense que le Big Data pourrait être particulièrement sensible à ce genre de duperies. Avant que les Big Data deviennent un outil de recherche primaire, tester une hypothèse absurde avec un petit ensemble de données ne vous mènera pas nécessairement nulle part. Mais avec un énorme jeu de données, dit-il, il y aura toujours une sorte de modèle.

C’est aussi le cas avec des chercheurs utilisant des algorithmes d’apprentissage machine. Un algorithme peut donner de très bons résultats, Bergstrom dit, mais pour les utilisateurs, il peut être difficile de savoir exactement ce que les données de l’algorithme tirent de cela et si ils peuvent faire confiance. Pour les gens qui écrivent les algorithmes, l’application d’une bonne dose de scepticisme est la façon la plus responsable de les utiliser, en particulier parce que les algorithmes sont formés pour prendre des décisions et identifier les personnes. Un algorithme peut-il vraiment regarder les traits du visage d’une personne et déterminer leur prépondérance pour la criminalité ? Oui, ou peut-être pas. Mais ce fut l’argument d’un document effectivement publié seulement il y a quelques mois .

« Si vous regardez plus en détail, vous trouverez des choses parasites surtout par la façon dont cette personne était habillée, si elles fronce les sourcils ou non » , dit-il. « Il y a manipulation de la façon dont les résultats sont rapportés. » Sans oublier que la partialité humaine et les inégalités structurelles existantes peuvent faire des algorithmes viciés par les humains qui les font. Mais il reste la responsabilité des concepteurs, ainsi que des scientifiques et des journalistes, à avoir une réflexion critique sur les données qu’ils utilisent, d’autant plus que le concepteur d’apprentissage machine est l’ un des emplois de conception les plus importants de l’avenir.

La racine du problème est un manque de scepticisme, quelque chose qui pourrait avoir de grandes conséquences dans le fait que les concepteurs et les développeurs utilisent de plus en plus de données et d’algorithmes pour nourrir leur travail. Mais cela a également un impact pour quiconque examine un élément de preuve scientifique ; Ouest et Bergstrom croient que ce cours serait utile pour tous les étudiants de premier cycle de l’UW, et ont l’espoir de le faire connaître à un public beaucoup plus large à travers des MOOCs et en partenariat avec les enseignants d’autres universités (et des lycées).

Alors, comment voulez-vous combattre les bullshits ? Ouest et Bergstrom proposent un ensemble simple de questions à chaque fois que vous êtes à la recherche d’un ensemble de résultats.
Pensez à la source de l’information. Qui vous dit cela ? Comment faut-il faire avancer ses intérêts ? Découvrez où ils ont obtenu l’information et regarder la source originale vous-même. Est-ce une source crédible ? Quelles ont été les méthodes utilisées pour arriver au résultat final ?
Par exemple, le point du duo dans un article de 2004 publié par Nature qui prétendait que les femmes couraient plus vite que les hommes sur 100m. Le problème était, la conclusion a été atteinte en utilisant un modèle de régression linéaire, ce qui signifierait que , les temps pour courir la course étaient négatifs. C’est un cas classique de sur-extrapolation, parce que les coureurs féminins ont fait des gains de vitesse au cours des 100 dernières années ne signifie pas qu’elles continueront à le faire.

Ouest et Bergstrom se sont pas immunisés et ont utilisé leur propre matériel dans le cas des études pour le cours afin de montrer que ce n’est pas propre à des personnes spécifiques. « Parfois, nous ne pouvons même pas nous faire confiance », dit-Ouest. « Les êtres humains sont des créatures faillibles. »

Voilà un antidote à conneries. Consultez le programme par vous-même ici.

Publicités

3 commentaires sur “Les données peuvent mentir : voici le guide du radar à bullshits”

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.