Ces 12 graphiques montrent pourquoi la Data Viz est si importante

Si vous avez déjà douté que la visualisation soit importante pour l’analyse des données, vous devez voir ces images.

Pourquoi la visualisation des données est-elle si importante dans les statistiques ? Les graphiques et les autres types de visualisations peuvent sembler superflues, si vous utilisez une analyse statistique pour rechercher des motifs dans un ensemble de données, n’est-ce pas ? Réponse courte: faux.

Un nouveau document de recherche présenté cette semaine lors de la conférence d’interaction homme-ordinateur ACM CHI montre à quel point il est important de visualiser vos données. Dans ce cas, deux chercheurs d’Autodesk montrent comment 12 ensembles de données qui partagent les mêmes qualités de base, comme la moyenne, l’écart-type et la corrélation de Pearson, peuvent être radicalement différents en tant que graphiques. Les ensembles de données peuvent avoir beaucoup de points sur le papier, mais comme visualisation, ils forment des étoiles, des cercles et d’autres formes. Le but ? Montrer que la visualisation des données n’est pas seulement esthétique, c’est une partie cruciale de l’analyse qui peut révéler des choses surprenantes sur vos données.

« Il y a toujours l’impression que la création de graphiques ou de visualisations est vraiment de la simple création de jolies images et les vraies choses que vous devez faire peuvent être réalisées grâce à l’analyse », explique Justin Matejka, chercheur d’Autodesk , qui a écrit le document avec son chercheur George Fitzmaurice. « Même si vous êtes très bon dans les statistiques, vous pourriez manquer quelque chose. »

https://www.fastcompany.com/embed/WuB95KSs

Le document s’appuie sur une idée classique en statistiques appelée  Quartet d’Anscombe. Le « quatuor » est un groupe de quatre ensembles de données, créé par le statisticien FJ Anscombe en 1973, qui a les mêmes « statistiques récapitulatives » ou la moyenne, l’écart-type et la corrélation de Pearson. Pourtant, ils produisent chacun des graphiques très différents. C’est une démonstration célèbre de la vitalité possible de visualiser les données plutôt que de s’appuyer uniquement sur les statistiques, et Matejka et Fitzmaurice ont voulu la mettre à jour pour des données riches en 2017.

« [Ansecbe’s Quartet] a 45 ans à ce stade, alors peut-être qu’il est temps pour un outil légèrement plus excitant d’enseigner la même leçon », dit Matejka.

Ils ont également été inspirés par une image provenant des données, à savoir l’experte Albert Le Caire, qui a twitté une visualisation d’un ensemble de données qui formait la forme d’un T. rex (il l’appelait « les datasaurus ») l’année dernière. Les chiffres de cet ensemble de données avaient l’air totalement normaux: ce n’est que lorsqu’ils ont été visualisés que le dinosaure a émergé. Peu importe à quel point vous pensez connaître vos données, la visualisation peut révéler quelque chose d’étonnant.

Matejka et Fitzmaurice ont pris encore plus l’accent. Leur travail montre comment 12 ensembles de données différentes ayant les mêmes statistiques récapitulatives que Datasaurus peuvent comporter 12 représentations graphiques très différentes. Chacun des 12 ensembles de données a commencé avec l’ensemble de données que le Caire utilisait pour faire Datasaurus, et pourtant, les graphiques résultants forment une série de formes que Matejka a choisies en particulier parce qu’elles sont différentes.

Pour atteindre ce qu’ils appellent la « douzaine Datasaurus », Matejka et Fitzmaurice ont fait 200 000 changements incrémentaux dans le jeu de données de Datasaurus, des points légèrement décalés pour que les statistiques récapitulatives restent dans un centième des originaux. Les GIF qui montrent les points de déplacement à côté des statistiques récapitulatives marquent leur point de départ.

Matejka explique pourquoi cela est important dans la pratique grâce à ce que l’on appelle le Paradox de Simpson, où les groupes de données dans un ensemble peuvent montrer une tendance, mais l’ensemble des données peut montrer quelque chose de complètement contradictoire. Par exemple, Matejka souligne un ensemble de données qui semblent montrer que le crime augmente. Pourtant, lorsque ces données sont décomposées par emplacement, il existe une forte tendance à la baisse dans la criminalité dans chaque zone – un autre exemple de la façon dont les données ayant les mêmes statistiques récapitulatives peuvent être très différentes lorsqu’elles sont représentées graphiquement.

 

Matejka espère que la recherche peut être utilisée à des fins éducatives, mais il croit également que l’approche itérative des chercheurs sur l’évolution des ensembles de données pourrait avoir plus d’applications commerciales. Prenez un ensemble de données d’une étude qui comprend des informations d’identification, par exemple. Leur approche pourrait préserver les statistiques récapitulatives des données tout en l’anonymisant.

Une conséquence involontaire de la recherche de Matejka est l’implication que les données sont également facilement manipulées, même si elles conservent des statistiques récapitulatives constantes. Si vous pouvez effectuer une visualisation ayant les mêmes caractéristiques statistiques que l’autre, il est possible de faire des messages différents sans détection, seulement si vous vous éloignez de la représentation graphique.

Donc, les concepteurs de données, soyez assuré: votre travail est très, très important.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s