Le travail de conception le plus crucial de l’avenir

Qu’est-ce qu’un ethnographe de données, et pourquoi est-il sur le point de devenir si important? Si l’intelligence artificielle a l’espoir d’élargir notre compréhension du monde, plutôt que de simplement refléter les virages anciens, il faut une transparence radicale. Qu’est-ce que ça veut dire? En partie, il s’agit de donner aux consommateurs l’accès au jeu de données d’un algorithme, afin qu’ils puissent prendre des décisions éclairées sur la technologie qui se multiplie dans leurs vies.

Les données à l’intérieur des algorithmes sont incroyablement symbiotiques avec l’algorithme lui-même. Dans la conception du produit, les données fournies aux algorithmes déterminent les caractéristiques d’un produit. Avez-vous un algorithme conçu pour les chatbots, et vous souhaitez l’utiliser dans un environnement de commerce électronique? Les données que vous alimentez dans l’algorithme de chatbot détermineront quel type de chat c’est. Si vous fournissez des données de commande de pizza, le chat sera formé pour commander des pizzas. Les autres aliments peuvent-ils être commandés? Bien sûr, mais le chatbot aura probablement le contenu des commandes incorrect parce que le robot n’a été formé que pour comprendre l’ensemble de données de «pizza». Ce qui se trouve dans les jeux de données est aussi important que la façon dont l’algorithme a été conçu. Mais comment pouvons-nous déterminer ou comprendre ce qu’il y a dans chaque ensemble de données? Quels sont les besoins technologiques des ethnographes de données et de l’ethnographie des données.

[Source Image: liuzishan / iStock]

L’ethnographie est l’étude des personnes et des cultures, et la recherche ethnographique est impérative pour la conception de la recherche. Comment un groupe se rapporte-t-il ou comprend-il un produit, quels sont les besoins de ce groupe, quelles sont les tendances technologiques dans ce groupe? Je préconise que nous ayons besoin d’une ethnographie de données, un terme que j’ai défini comme l’étude des données qui alimentent la technologie, en la regardant dans une perspective culturelle et dans une perspective de science des données. L’ethnographie des données est un domaine plus étroit, mais pas moins crucial: les données reflètent la société et ce n’est pas neutre. C’est aussi complexe que les gens qui la composent.Le travail d’un ethnographe de données serait donc poser des questions comme: quelle est la culture d’un ensemble de données? Quel âge a-t-il? Qui l’a fait? Qui l’a rassemblé? Quand a-t-il été mis à jour? Est-il déjà mis à jour? L’ethnographe pourrait ensuite tester les données et l’étiqueter, de la même manière que les étiquettes des aliments donnent les contenus nutritionnels. Les consommateurs pouvaient alors voir des ensembles de données étiquetés comme «données de médias sociaux, Twitter, 2021, US, 75% hommes âgés de 35 à 40 ans, 50% blanc».

Le bénéfice? Une meilleure façon de déterminer ce qu’est un algorithme, ce qu’il nous dit, et pourquoi. Il est temps que les produits numériques montrent vraiment leurs ingrédients afin que nous puissions comprendre les résultats qu’ils émettent dans le monde.

Considérez ce qui se passe lorsque vous Googlez « coiffeurs professionnels ». Vous voyez principalement des coiffures blanches. Google « cheveux non professionnels », et vous voyez principalement des cheveux noirs. Un tel biais pourrait être évité – ou à tout le moins, rendu transparent – si l’ensemble de données utilisé dans la formation avait été étiqueté:

Année d’assemblage: 2001-2003

Taille originale: 45 000 jpegs

Mise à jour: 2011

Taille actuelle: 50 000jpegs

Personnes: 60% « femmes blanches » + « cheveux blonds »; 30%: « femmes blanches » + « cheveux bruns »; 10% « femmes noires » + « cheveux noirs »

Origine: Uni of X, Laboratoire d’apprentissage mécanique

Créateurs: [créateurs énumérés ici]

Au lieu de cela, lorsque les ensembles de données sont opaques, les consommateurs n’ont aucun moyen d’évaluer avec précision les résultats de recherche et d’autres produits numériques. Cela, à son tour, facilite la confusion des jeux de données spécifiques pour les universels.

Peut-être rien ne souligne-t-il le besoin d’ethnographie de données mieux que la police prédictive. Le logiciel de police prédictive est dangereux, non seulement en raison de la façon dont il s’inscrit dans les systèmes de police défectueux des États-Unis, et non seulement parce qu’il autonome du système judiciaire, mais parce que les données sur lesquelles il est formé sont profondément problématiques. Les quartiers noirs et les personnes noires sont surveillés à un rythme plus élevé que les autres races, de sorte que les données « policières » sont déjà faussées et formées pour donner des phrases plus longues et plus strictes aux noirs, ce qui renforce le parti pris qui existe déjà dans la société. Les ethnographes de données pourraient mettre en évidence ces biais et aider à faire valoir d’autres stratégies de police plus équitables.

Les systèmes de données et d’intelligence artificielle sont une question civile, une question civique et une question humaine. Comprendre que les données sont complices de la façon dont l’AI fonctionne est une étape vers la création de systèmes de technologie équitables. Imaginez un groupe d’ethnographie opensource, transparent et ethnographique qui combine les compétences des scientifiques et des ethnographes: imaginez le genre de changement que cela pourrait créer.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.