Vous voyez une jolie photo d’un chien. Mais le réseau neuronal de Google voit du guacamole. La ruse derrière cette nouvelle façon de tromper l’IA est plus importante que vous ne le pensez.

Les algorithmes d’apprentissage machine, qui utilisent de grandes quantités de données pour alimenter tout, du courrier électronique à la traduction linguistique, sont annoncés comme la prochaine grande chose dans la technologie. Le seul problème, c’est qu’ils sont vulnérables.

Au cours des dernières années, les chercheurs ont montré comment un type d’algorithme d’apprentissage automatique appelé classificateur d’images – pensez à lui comme un programme auquel vous pouvez montrer une image de votre animal de compagnie, et il vous dira si c’est un chien ou un chat – sont vulnérable et cela d’une manière surprenante. Ces programmes sont sensibles aux attaques de ce qu’on appelle des « exemples contradictoires« . Un exemple contradictoire se produit lorsque vous montrez à l’algorithme ce qui est clairement une image d’un chien, mais au lieu de voir un chien, un détail que les yeux humains ne peuvent pas détecter fait voir au classificateur une image de guacamole à la place.

Les chercheurs ont d’abord pensé que ces attaques étaient hautement théoriques, plus une démonstration qu’un sujet de préoccupation. C’était jusqu’au début de cette année, quand un groupe d’étudiants du MIT de l’organisation étudiante LabSix a montré qu’ils pouvaient créer des objets tridimensionnels que les algorithmes pourraient aussi mal classifier – montrant que les exemples contradictoires sont une menace dans le monde réel. Le travail des étudiants était limité d’une manière clé: ils devaient encore avoir accès aux mécanismes internes de l’algorithme pour créer leurs exemples contradictoires.

Aujourd’hui, ces mêmes étudiants ont annoncé qu’ils avaient déjà dépassé cette limite, ce qui constitue un aperçu troublant des vulnérabilités de l’IA qui sont déjà à l’œuvre dans notre monde.

Dans un nouvel article, les auteurs décrivent leur nouvelle capacité à créer des exemples contradictoires lorsqu’ils en savent très peu sur l’algorithme qu’ils attaquent (ils ont également été en mesure de compléter l’attaque beaucoup plus rapidement que n’importe quelle méthode précédente à ce jour). Pour démontrer l’efficacité de leur technique, ils ont attaqué et trompé avec succès l’API Google Cloud Vision, un algorithme standard de classification d’images commerciales utilisé sur Internet. Tout ce qu’ils savaient à propos de Cloud Vision, c’était ce qu’il produisait lorsqu’il examinait une image – par exemple, les quelques premiers choix d’identification d’une image et la confiance qu’il avait dans chaque option.

« Le fait de ne pas disposer d’informations de base sur le réseau neuronal a rendu la création d’un exemple contradictoire pour le tromper un énorme défi », comme l’explique Andrew Ilyas, un des étudiants de LabSix. « Normalement, lorsque vous construisez ces exemples contradictoires, vous commencez par l’image d’un chien que vous voulez transformer en guacamole « , dit Ilyas. « Il est important, traditionnellement, que j’ai accès à la probabilité que cette image soit du guacamole. Mais avec Google Cloud Vision, ça ne vous dira rien sur la probabilité que ce chien soit du guacamole. Ça va seulement me dire à quel point je suis sûr que c’est un chien. »


Pour contourner ce problème, l’équipe a utilisé une méthode d’un autre domaine de l’informatique pour estimer dans quelle mesure chaque pixel de l’image du chien a besoin d’être modifié pour que l’algorithme pense que l’image était de guacamole. Ensuite, ils ont utilisé un duo d’algorithmes travaillant ensemble pour décaler lentement les pixels. Le processus fonctionne en soumettant cette image des milliers, voire des millions de fois dans l’API Cloud Vision, alors que les algorithmes l’ajustent lentement du chien au guacamole. Normalement, cela peut prendre jusqu’ à 5 millions de requêtes, mais la méthode d’Ilyas et de son équipe est beaucoup plus rapide. Il leur a suffi d’environ 1 million de requêtes pour créer un exemple contradictoire spécifique pour le classificateur d’images Google Cloud Vision – le guacamole que les yeux humains ne verraient jamais.
Il s’agit d’un mode d’attaque beaucoup plus efficace et pourrait faciliter la tâche des personnes malveillantes qui cherchent à tromper un nombre quelconque de classificateurs d’images commerciales utilisés en ligne. L’équipe de LabSix souligne qu’ils n’ont pas choisi Google pour une raison en particulier – plusieurs autres sociétés offrent ce type d’algorithmes, y comprisAmazon et Microsoft. Par exemple, la société de commentaires Disqus utilise un classificateur d’images appelé Clarifai pour éliminer les images inappropriées des sections commentaires des sites Web.

Il y a des implications plus larges. Par exemple, les entreprises de défense et les enquêteurs criminels utilisent également des systèmes d’apprentissage basés sur le Cloud pour trier de grandes piles d’images. Un codeur habile pourrait créer une image qui semblerait inoffensive à l’œil humain, mais qui serait aussi dangereuse pour la machine – et vice versa.

« Il s’agit là d’un autre résultat qui montre que les systèmes du monde réel sont menacés et que nous progressons sur la voie de la rupture des systèmes pratiques « , explique Anish Athalye, une autre étudiante de l’équipe LabSix. « C’est un système que les gens n’avaient jamais attaqué avant. Même si les choses sont des systèmes commerciaux, fermés et propriétaires, ils sont faciles à casser. »
Alors que les exemples contradictoires évoluent dans le monde réel, les chercheurs n’ont toujours pas trouvé de moyen solide de se prémunir contre eux. Cela pourrait avoir des conséquences dévastatrices à l’avenir, car ces algorithmes continuent de coloniser notre monde en ligne et hors ligne. Mais Ilyas et Athalye espèrent que si les chercheurs parviennent à trouver des vulnérabilités avant que ces technologies ne soient trop répandues, ils auront la chance de combler les lacunes des algorithmes – avant que des gens avec de mauvaises intentions ne les exploitent.

 

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.