Une simple erreur de conception rend le piratage de Siri et Alexa incroyablement facile

Les pirates informatiques peuvent prendre le contrôle des assistants vocaux les plus populaires du monde en leur chuchotant à des fréquences que les humains ne peuvent pas entendre.

Des chercheurs chinois ont découvert une vulnérabilité terrifiante chez les assistants vocaux d’Apple, Google, Amazon, Microsoft, Samsung et Huawei. Elle affecte tous les iPhone et Macbook fonctionnant sous Siri, tous les téléphones Galaxy, tous les PC fonctionnant sous Windows 10, et même l’assistant Alexa d’Amazon.

Utilisant une technique appelée la DolphinAttack, une équipe de l’Université de Zhejiang a traduit des commandes vocales typiques en fréquences ultrasonores trop élevées pour que l’oreille humaine puisse les entendre, mais parfaitement déchiffrables par les microphones et le logiciel qui alimentent nos assistants vocaux en permanence. Ce processus de traduction relativement simple leur permet de prendre le contrôle des gadgets avec seulement quelques mots prononcés dans des fréquences qu’aucun de nous ne peut entendre.

Les chercheurs n’ont pas seulement activé les commandes de base comme « Hey Siri » ou « Okay Google », cependant. Ils pourraient aussi dire à un iPhone d’appeler le 123456567890 ou dire à un iPad de faire un FaceTime avec le numéro. Ils pourraient forcer un Macbook ou un Nexus 7 à ouvrir un site web malveillant. Même une Audi Q3 pourrait faire rediriger son système de navigation vers un nouvel emplacement. Les commandes vocales inaudibles remettent en question l’hypothèse de conception courante selon laquelle les adversaires peuvent tout au plus essayer de manipuler un [assistant vocal] vocalement et peuvent être détectés par un utilisateur averti « , écrit l’équipe de recherche dans un article qui vient d’être accepté à la conférence de l’ACM sur la sécurité informatique et des communications.

En d’autres termes, la Silicon Valley a conçu une interface utilisateur conviviale avec un énorme contrôle de sécurité. Même si nous n’entendons pas les « méchants » parler, nos ordinateurs le peuvent clairement. Du point de vue UX, c’est une « trahison « , affirme Ame Elliott, directeur du design de l’organisme à but non lucratif SimplySecure. « Les prémisses de la façon dont vous interagissez avec l’appareil est de lui dire ce qu’il faut faire, pour que la commande silencieuse et clandestine soit perturbée. »

Pour pirater chaque assistant vocal, les chercheurs ont utilisé un smartphone avec environ 3 $ de matériel supplémentaire, y compris un minuscule haut-parleur et un ampli. En théorie, leurs méthodes, qui sont aujourd’hui publiques, peuvent être reproduites par quiconque possède un peu de savoir-faire technique et n’ a que quelques dollars dans sa poche.

Dans certains cas, ces attaques ne pouvaient être faites qu’ à quelques centimètres de distance, bien que les gadgets comme l’Apple Watch étaient vulnérables à quelques mètres. En ce sens, il est difficile d’imaginer qu’un Echo Amazon soit piraté avec DolphinAttack. Un intrus qui veut « ouvrir la porte dérobée » doit déjà être à l’intérieur de votre maison, près de votre Echo. Mais pirater un iPhone ne semble pas poser de problème. Un hacker aurait presque juste besoin de passer devant vous dans la foule.Même avec le téléphone éteint, jouant une commande à des fréquences que vous n’entendriez pas, avec votre téléphone dans la main, vous ne verriez pas Safari ou Chrome charger un site, le code d’installation de logiciels malveillants, et tout le contenu et les communications de votre téléphone seraient en cession ouverte pour eux, faciles à explorer.

L’exploit est rendu possible par une combinaison de problèmes matériels et logiciels, expliquent les chercheurs dans leur article. Les microphones et les logiciels qui alimentent les assistants vocaux tels que Siri, Alexa et Google Home peuvent capter des fréquences inaudibles, en particulier des fréquences dépassant les 20KhZ, la limite de l’oreille humaine. (C’est juste au-dessus l’équivalent du son d’un moustique, un son d’ailleurs qui est devenue viral il y a quelques années, permettant à de jeunes étudiants de s’envoyer des messages texte sans que leurs professeurs n’entendent).

Selon Gadi Amit, fondateur de NewDealDesign et concepteur industriel de produits comme le Fitbit, la conception de ces microphones les rend difficiles à sécuriser contre ce type d’attaque. Les composants des microphones eux-mêmes varient en type, mais la plupart utilisent des pressions d’air qui ne peuvent probablement pas être bloquées par les ultrasons « , explique Amit. En gros, les micros les plus populaires d’aujourd’hui transforment les vibrations de l’air ou les ondes sonores en ondes électriques. Il pourrait être impossible de bloquer ces capacités de super-audience.

Cela signifie qu’il faut un logiciel pour déchiffrer ce qui est la parole humaine et ce qui est la parole machine. En théorie, Apple ou Google pourraient simplement ordonner à leurs assistants de ne jamais obéir aux ordres d’une personne parlant à moins de 20 kHz grâce à un filtre audionumérique : »Attendez, cet humain me dit ce qu’il faut faire dans une gamme vocale qu’il ne peut pas prononcer ! » Selon ce que les chercheurs du Zhejiang ont trouvé, toutes les grandes compagnies d’assistants vocaux ont montré une vulnérabilité avec des commandes supérieures à 20 kHz.

Pourquoi les Amazon et les Apple du monde laisseraient-ils un trou béant qui pourrait, potentiellement, être si facilement bouché par le logiciel? Nous ne le savons pas encore, car Apple, Google, Amazon, Microsoft, Samsung et Huawei ne font pas de commentaires sur le sujet. Mais au moins deux théories sont parfaitement plausibles, et toutes deux se résument à rendre les assistants vocaux plus conviviaux.
La première est que les assistants vocaux ont besoin d’ultrasons pour bien entendre les gens, par rapport à l’analyse d’une voix sans ces hautes fréquences. Gardez à l’esprit que le logiciel d’analyse vocale peut avoir besoin de chaque petit « indice » dans votre voix pour créer sa compréhension « , dit Amit en filtrant les fréquences les plus élevées dans nos systèmes vocaux. Même si les gens n’ont pas besoin d’ultrasons pour entendre les autres personnes, nos ordinateurs comptent peut-être sur elles comme une béquille.

La seconde est que certaines entreprises exploitent déjà les ultrasons pour leur propre UX, y compris la communication de téléphone à gadget. Plus particulièrement, le bouton Dash d’Amazon s’apparie avec le téléphone à des fréquences qui se situent aux alentours de 18 kHz, et le Chromecast de Google utilise lui aussi un couplage ultrasonique. Pour l’utilisateur final, cette association imperceptible crée une expérience magique à laquelle les consommateurs s’attendent à l’ère moderne de l’électronique (« Comment ça marche? On s’en fout, c’est magique! »). Mais parce que nous ne pouvons pas entendre ces mécanismes à l’œuvre, nous ne pouvons pas non plus savoir quand ils se sont trompés ou quand ils ont été détournés. Ils sont conçus pour être invisibles. C’est l’équivalent de conduire une voiture avec un moteur silencieux. Si la courroie de distribution se brise, vous ne vous en rendrez compte que lorsque la voiture s’arrête inévitablement et que le moteur est détruit.

La convivialité est de plus en plus en contradiction avec la sécurité. Nos navigateurs Web recueillent facilement et invisiblement les cookies, ce qui permet aux spécialistes du marketing de nous suivre sur le Web. Nos téléphones sauvegardent nos photos et contacts dans le cloud, séduisant tout pirate informatique avec un référentiel complet de notre vie privée. C’est comme si chaque accord tacite que nous avons conclu avec une technologie facile à utiliser avait un coût caché: notre propre vulnérabilité personnelle. Ce nouvel exploit de commande vocale n’est que le dernier né d’une liste croissante de failles de sécurité causées par le design, mais c’est peut-être le meilleur exemple du mépris généralisé de la Silicon Valley pour la sécurité face au nouveau et « brillant ».

La Silicon Valley a des angles morts en ne réfléchissant pas à la façon dont un produit peut être mal utilisé (n’est-ce pas Elon). Une partie de la planification des produits n’est pas aussi solide qu’elle devrait l’être « , dit Elliott. Les systèmes vocaux sont clairement difficiles à sécuriser. Et cela devrait soulever des questions… Il est difficile de comprendre comment les systèmes fonctionnent, et parfois par conception délibérée. Je pense qu’il faut travailler dur pour défaire le manque d’étanchéité de la voix et penser à ajouter plus de visibilité dans le fonctionnement du système. »

Pour l’instant, il y a une solution relativement facile à la plupart des vulnérabilités de DolphinAttack. Tout ce que vous avez à faire est d’éteindre les paramètres de Siri ou de Google Assistant sur vos téléphones et tablettes, et un hacker ne pourra pas parler à votre téléphone (sauf dans les moments où vous essayez de lui parler). Pendant ce temps, Alexa d’Amazon et Google Home (qui n’ a pas été testée par les chercheurs mais est théoriquement tout aussi vulnérable) ont tous deux des boutons muets qui devraient faire l’affaire la majorité du temps.

Mais bien sûr, ces solutions sont autodestructrices. Si la seule façon d’utiliser les assistants vocaux en toute sécurité est de s’assurer qu’ils n’écoutent pas, à quoi servent-ils? Peut-être que ces ordinateurs qui écoutent aux portes ne font pas partie de nos vies, ou du moins pas n’importe où en public.

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.