Les AI sont faciles à duper : très vulnérables, il faut changer ça

Le talent artistique est l’une des professions les plus anciennes et les plus novatrices au monde, et il pourrait bientôt avoir une nouvelle cible. Les recherches suggèrent que l’intelligence artificielle est particulièrement vulnérable aux mauvais tours et que plus son influence dans le monde moderne s’accroît, plus les attaques contre elle sont susceptibles de devenir fréquentes.

La racine du problème réside dans le fait que les algorithmes d’intelligence artificielle apprennent le monde de façons très différentes de celles des gens, et que de légers ajustements aux données introduites dans ces algorithmes peuvent les perturber complètement tout en demeurant imperceptibles pour les humains.

Une grande partie de la recherche dans ce domaine a été menée sur les systèmes de reconnaissance d’images, en particulier ceux qui s’appuient sur les réseaux neuronaux d’apprentissage profond. Ces systèmes sont formés en leur montrant des milliers d’exemples d’images d’un objet particulier jusqu’ à ce qu’ils puissent extraire des caractéristiques communes qui leur permettent de localiser précisément l’objet dans de nouvelles images.

Mais les caractéristiques qu’ils en tirent ne sont pas nécessairement les mêmes caractéristiques de haut niveau qu’un humain rechercherait, comme le mot STOP sur une pancarte ou une queue de chien. Ces systèmes analysent les images au niveau des pixels individuels pour détecter les motifs partagés entre les exemples. Ces motifs peuvent être des combinaisons obscures de valeurs de pixels, dans de petites poches ou réparties sur l’image, qu’il serait impossible de discerner pour un humain, mais qui sont très précises dans la prédiction d’un objet particulier.

« Un attaquant peut piéger l’algorithme de reconnaissance d’objet pour voir quelque chose qui n’est pas là, sans que ces altérations soient évidentes pour un humain. »

Cela signifie qu’en identifiant ces motifs et en les superposant sur une image différente, un attaquant peut tromper l’algorithme de reconnaissance d’objet et lui faire voir quelque chose qui n’est pas là, sans que ces altérations soient évidentes pour un humain. Ce genre de manipulation est connu sous le nom d’« attaque accusatoire ».

Les premières tentatives de tricherie des systèmes de reconnaissance d’images de cette façon ont nécessité l’accès aux mécanismes internes de l’algorithme pour déchiffrer ces modèles. Mais en 2016, les chercheurs ont démontré une attaque de la « boîte noire » qui leur a permis de piéger un tel système sans en connaître les rouages.

En alimentant les images manipulées par le système et en voyant comment il les classifiait, ils ont pu déterminer sur quoi il se concentrait et ainsi générer des images dont ils savaient qu’elles seraient trompeuses. Il est important de noter que les images modifiées n’étaient pas évidemment différentes des yeux humains.

Ces approches ont été testées en alimentant directement l’algorithme avec des données d’images modifiées, mais plus récemment, des approches similaires ont été appliquées dans le monde réel. L’an dernier, il a été démontré que les impressions d’images modifiées qui ont ensuite été photographiées sur un smartphone ont réussi à tromper un système de classification d’images.

Un autre groupe a montré que le port de lunettes psychédéliques spécialement conçues et colorées pouvait tromper un système de reconnaissance faciale et faire croire que les gens étaient des célébrités. En août, des scientifiques ont montré que l’ajout d’autocollants aux panneaux d’arrêt dans des configurations particulières pourrait entraîner un réseau neuronal conçu pour les repérer et les classer de façon erronée.

Ces deux derniers exemples mettent en évidence certaines des applications potentiellement néfastes de cette technologie. Faire en sorte qu’une voiture auto-propulsée rate un panneau d’arrêt pourrait causer un accident, soit pour fraude à l’assurance, soit pour causer du tort à quelqu’un. Si la reconnaissance faciale devient de plus en plus populaire pour les applications de sécurité biométrique, être capable de se faire passer pour quelqu’un d’autre pourrait être très utile à un escroc.

Il n’est pas surprenant de constater que des efforts sont déjà déployés pour contrer la menace d’attaques accusatoires. En particulier, il a été démontré que les réseaux neuronaux profonds peuvent être formés pour détecter les images contradictoires. Une étude du Bosch Center for AI a démontré un tel détecteur, une attaque accusatoire qui trompe le détecteur, et un régime d’entraînement pour le détecteur qui annule l’attaque, ce qui laisse présager le genre de course aux armements que nous verrons probablement à l’avenir.

Bien que les systèmes de reconnaissance d’images fournissent une démonstration facile à visualiser, ils ne sont pas les seuls systèmes d’apprentissage machine à risque. Les techniques utilisées pour perturber les données de pixels peuvent également être appliquées à d’autres types de données.

« Le contournement des défenses de la cybersécurité est l’une des applications les plus inquiétantes et probables à court terme de cette approche. »

Des chercheurs chinois ont montré que l’ajout de mots spécifiques à une phrase ou l’orthographe erronée d’un mot peut complètement déconcerter les systèmes d’apprentissage automatique conçus pour analyser ce qu’est un passage de texte. Un autre groupe a montré que des sons brouillés diffusés sur haut-parleurs pourraient faire en sorte qu’un smartphone utilisant le système de commande vocale Google Now se rende sur une adresse Web particulière, qui pourrait être utilisée pour télécharger des logiciels malveillants.

Ce dernier exemple montre une des applications à court terme les plus inquiétantes et les plus probables de cette approche: le contournement des défenses de la cybersécurité. L’industrie utilise de plus en plus l’apprentissage machine et l’analyse de données pour identifier les logiciels malveillants et détecter les intrusions, mais ces systèmes sont également très sensibles à la tromperie.

Lors de la convention de piratage DEF CON de cet été, une société de sécurité a démontré qu’elle pouvait contourner l’IA anti-programmes malveillants en utilisant une approche similaire à l’attaque de la boîte noire précédente sur le classificateur d’images, mais superpuissante avec une IA propre.

Leur système a alimenté le logiciel antivirus avec du code malveillant, puis a noté le score qu’il avait obtenu. Il a ensuite utilisé des algorithmes génétiques pour ajuster itérativement le code jusqu’ à ce qu’il soit capable de contourner les défenses tout en maintenant sa fonction.

Toutes les approches notées jusqu’ à présent sont axées sur l’utilisation de systèmes d’apprentissage automatique préformés, mais une autre approche très préoccupante pour l’industrie de la cybersécurité est celle du « data poisoning« , c’est-à-dire l’idée que l’introduction de données erronées dans un système d’apprentissage automatique risque de mal classer les choses.

Cela pourrait être particulièrement difficile pour des choses comme les systèmes anti-programmes malveillants (les Fight club AI) qui sont constamment mis à jour pour tenir compte des nouveaux virus. Une approche connexe bombarde les systèmes avec des données conçues pour générer des faux positifs, de sorte que les défenseurs recalibrent leurs systèmes de manière à permettre aux attaquants de s’infiltrer.

La probabilité que ces approches soient utilisées dépendra de la récompense potentielle et de la sophistication des attaquants. La plupart des techniques décrites ci-dessus exigent un haut niveau d’expertise, mais il devient de plus en plus facile d’accéder à du matériel de formation et à des outils pour l’apprentissage machine.

Des versions plus simples de l’apprentissage automatique ont été au cœur des filtres anti-spam par courriel pendant des années, et les spammeurs ont mis au point une foule de solutions novatrices pour les contourner. Alors que l’apprentissage machine et l’IA s’intègrent de plus en plus dans nos vies, les récompenses pour apprendre à les tromper l’emporteront probablement sur les coûts.

 

Singularity.hub

1 commentaire sur “Les AI sont faciles à duper : très vulnérables, il faut changer ça”

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.