La principale base de données en ligne pour supprimer 600 000 images après que le projet d’art ait révélé son parti pris raciste

L’artiste Trevor Paglen et la chercheuse Kate Crawford ont étudié les façons troublantes dont ImageNet classe les gens.

ImageNet, l’une des plus grandes bases de données d’images en ligne accessibles au public, a annoncé qu’elle supprimera 600 000 images de personnes stockées dans son système.

Cette nouvelle fait suite au lancement d’un projet en ligne par l’artiste Trevor Paglen et la chercheuse en intelligence artificielle Kate Crawford qui ont révélé les manières troublantes et souvent racistes dont l’intelligence artificielle utilisée par ImageNet classe les gens.

La roulette ImageNet de Paglen et Crawford est devenue virale ce mois-ci lorsque les utilisateurs ont téléchargé des photos d’eux-mêmes qui ont ensuite été classées par la technologie ImageNet.

Alors que les Blancs se voient régulièrement assigner des descriptions de poste extrêmement inexactes – un rédacteur de The Verge, par exemple, a été classé parmi les « fumeurs de pipe » et les « agents de bord » – pour les personnes de couleur, la technologie est beaucoup plus sinistre, les utilisateurs des médias sociaux déclarant avoir été décrits en termes racistes et autres termes très insultants.

Comme la base de données est largement utilisée pour former les machines à « voir » et que les forces de l’ordre, les employeurs privés et les écoles aux États-Unis utilisent de plus en plus les technologies de reconnaissance faciale à des fins de sécurité, les implications sont de grande portée.

« Au fur et à mesure que la technologie de l’intelligence artificielle passe de la curiosité des laboratoires de recherche à la vie quotidienne, s’assurer que les systèmes d’intelligence artificielle produisent des résultats appropriés et équitables est devenu une question scientifique importante « , affirme ImageNet dans un communiqué publié sur son site Web.

Bien que la déclaration ne fasse pas référence au projet artistique en ligne de Paglen et Crawford, elle a été publiée cinq jours seulement après l’ouverture de l’exposition Training Humans du duo à l’Osservatorio de la Fondazione Prada à Milan (jusqu’au 24 février 2020), qui a attiré une attention nouvelle sur les systèmes de classification d’ImageNet.

« Cette exposition montre comment ces images s’inscrivent dans une longue tradition de capture d’images de personnes sans leur consentement, afin de les classer, de les segmenter et souvent de les stéréotyper d’une manière qui évoque les projets coloniaux du passé « , explique Paglen.

Technologie raciste

ImageNet a été créé en 2009 par des chercheurs des universités de Princeton et Stanford. Elle a rassemblé sa collection de photos de personnes en les tirant d’Internet à partir de sites Web tels que Flickr. Ceux-ci ont ensuite été catégorisés par les travailleurs d’Amazon Mechanical Turk. Les préjugés et les biais de ces travailleurs faiblement rémunérés et issus de la foule se reflètent inévitablement dans le système d’IA qu’ils ont contribué à créer.

ImageNet dit qu’elle a  » mené un projet de recherche pour identifier et corriger systématiquement les problèmes d’équité qui ont résulté du processus de collecte de données  » au cours de la dernière année. Elle a identifié 438 catégories de personnes dans sa base de données, qui sont  » dangereuses « , définies comme  » offensantes, quel que soit le contexte « . Par ailleurs, 1 155 autres étiquettes sont  » sensibles  » ou potentiellement offensantes, selon le contexte dans lequel elles sont utilisées. Toutes les images associées à ces catégorisations sont maintenant supprimées de la base de données.

En réponse à l’annonce d’ImageNet, Paglen et Crawford ont déclaré que Roulette ImageNet avait « atteint ses objectifs » et ne serait plus disponible en ligne après le vendredi 27 septembre.

« Roulette ImageNet a été lancée plus tôt cette année dans le cadre d’un projet plus large visant à attirer l’attention sur ce qui peut – et ce qui se passe régulièrement – mal lorsque des modèles d’intelligence artificielle sont formés sur des données d’entraînement problématiques « , écrit le duo sur le site du projet.

« Nous avons créé ImageNet Roulette comme une provocation : elle agit comme une fenêtre sur certaines des catégorisations racistes, misogynes, cruelles et tout simplement absurdes que contient ImageNet. Il laisse l’ensemble de la formation  » parler de lui-même  » et, ce faisant, souligne pourquoi classer les gens de cette façon est au mieux non scientifique, et au pire profondément nuisible. »

« L’équipe de recherche responsable d’ImageNet[a maintenant] annoncé qu’après avoir laissé ImageNet tel quel pendant dix ans, ils vont maintenant supprimer la moitié des 1,5 million d’images dans les catégories « personnes ». Bien que nous ne soyons pas d’accord sur la mesure dans laquelle ce type de  » déformation technique  » des données de formation résoudra les problèmes profonds à l’œuvre, nous nous félicitons qu’ils reconnaissent ce problème.

Il faut réévaluer en profondeur l’éthique de la manière dont l’intelligence artificielle est formée, les personnes qu’elle nuit et la politique inhérente à ces  » façons de voir « . Nous applaudissons donc l’équipe d’ImageNet pour avoir fait le premier pas. »

« Roulette ImageNet a fait valoir son point – elle a inspiré une conversation publique attendue depuis longtemps sur la politique des données de formation, et nous espérons qu’elle servira d’appel à l’action pour que la communauté de l’IA puisse faire face aux dangers potentiels de la classification des personnes,  » disent-ils.

– L’article d’investigation de Trevor Paglen et Kate Crawford sur ImageNet, « Excavating AI », est disponible ici.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.