L’intelligence artificielle fera ce que nous demandons. C’est un problème

En apprenant aux machines à comprendre nos véritables désirs, un scientifique espère éviter les conséquences potentiellement désastreuses de leur faire faire ce que nous commandons.

Le danger d’avoir des machines artificiellement intelligentes à notre service est que nous ne soyons pas assez prudents quant à ce que nous souhaitons.

Les lignes de code qui animent ces machines manqueront inévitablement de nuances, oublieront d’énoncer des mises en garde et finiront par donner aux systèmes d’IA des objectifs et des incitations qui ne correspondent pas à nos véritables préférences.

Une expérience de pensée désormais classique illustrant ce problème a été posée par le philosophe d’Oxford Nick Bostrom en 2003. Bostrom a imaginé un robot superintelligent, programmé dans le but apparemment inoffensif de fabriquer des trombones. Le robot finit par transformer le monde entier en une gigantesque usine de trombones.

Un tel scénario peut être qualifié d’académique, une inquiétude qui pourrait surgir dans un avenir lointain. Mais l’IA mal alignée est devenue un problème bien plus tôt que prévu.

L’exemple le plus alarmant est celui qui touche des milliards de personnes. YouTube, qui vise à maximiser le temps de visionnage, déploie des algorithmes de recommandation de contenu basés sur l’IA. Il y a deux ans, les informaticiens et les utilisateurs ont commencé à remarquer que l’algorithme de YouTube semblait atteindre son but en recommandant des contenus de plus en plus extrêmes et conspirateurs. Une chercheuse a rapporté qu’après avoir visionné des images de rassemblements de la campagne de Donald Trump, YouTube lui a ensuite proposé des vidéos présentant « des diatribes sur la suprématie blanche, des négations de l’Holocauste et d’autres contenus inquiétants« . L’approche upping-the-ante de l’algorithme va au-delà de la politique, a-t-elle déclaré : « Les vidéos sur le végétarisme ont conduit à des vidéos sur le végétalisme. Des vidéos sur le jogging ont conduit à des vidéos sur la course d’ultramarathon« . Selon les recherches, l’algorithme de YouTube a donc contribué à polariser et à radicaliser les gens et à diffuser des informations erronées, juste pour nous inciter à regarder. « Si j’avais planifié les choses, je n’aurais probablement pas fait de ce projet le premier test de déploiement de cette technologie à grande échelle », a déclaré Dylan Hadfield-Menell, chercheur en IA à l’Université de Californie, Berkeley.

Ce qui compte, et donc l’objectif de l’IA, c’est en quelque sorte la qualité globale de l’expérience humaine.
– Stuart Russell

Les ingénieurs de YouTube n’avaient probablement pas l’intention de radicaliser l’humanité. Mais les codeurs ne peuvent pas penser à tout. « La façon dont nous faisons actuellement de l’IA impose aux concepteurs une lourde charge pour comprendre les conséquences des incitations qu’ils donnent à leurs systèmes », a déclaré Hadfield-Menell. « Et l’une des choses que nous apprenons, c’est que beaucoup d’ingénieurs ont fait des erreurs. »

Un aspect majeur du problème est que les humains ne savent souvent pas quels objectifs donner à nos systèmes d’IA, parce que nous ne savons pas ce que nous voulons vraiment. Si vous demandez à quelqu’un dans la rue : « Que voulez-vous que votre voiture autonome fasse ? », il vous répondra : « Eviter les collisions« , explique Dorsa Sadigh, une scientifique de l’Université de Stanford spécialisée dans l’interaction homme-robot. « Mais vous réalisez que ce n’est pas seulement cela, il y a un tas de préférences que les gens ont ». Les voitures autonomes super sûres vont trop lentement et freinent si souvent qu’elles rendent les passagers malades. Lorsque les programmeurs tentent de dresser la liste de tous les objectifs et préférences avec lesquels une voiture robotisée doit simultanément jongler, la liste finit inévitablement par être incomplète. Mme Sadigh a déclaré que lorsqu’elle conduisait à San Francisco, elle s’est souvent retrouvée coincée derrière une voiture automatique qui s’est arrêtée dans la rue. Elle évite en toute sécurité le contact avec un objet en mouvement, comme ses programmeurs lui ont dit de le faire – mais l’objet est quelque chose comme un sac en plastique qui souffle dans le vent.

Pour éviter ces pièges et résoudre éventuellement le problème de l’alignement de l’IA, les chercheurs ont commencé à développer une toute nouvelle méthode de programmation des machines utiles. Cette approche est étroitement liée aux idées et aux recherches de Stuart Russell, un informaticien décoré à Berkeley. Russell, 57 ans, a fait un travail de pionnier sur la rationalité, la prise de décision et l’apprentissage des machines dans les années 80 et 90 et est l’auteur principal du manuel très utilisé sur l’intelligence artificielle : A Modern Approach. Au cours des cinq dernières années, il est devenu une voix influente sur le problème de l’alignement et une figure omniprésente dans les réunions et les groupes d’experts internationaux sur les risques et la gouvernance à long terme de l’intelligence artificielle.

Stuart Russell speaks at TED2017 – The Future You, April 24-28, 2017, Vancouver, BC, Canada. Photo: Bret Hartman / TED

Selon Russell, l’IA orientée vers un but est aujourd’hui limitée, malgré son succès dans l’accomplissement de tâches spécifiques comme nous battre à Jeopardy ! et Go, identifier des objets en images et des mots en paroles, et même composer de la musique et de la prose. Demander à une machine d’optimiser une « fonction de récompense » – une description méticuleuse d’une combinaison d’objectifs – conduira inévitablement à une IA mal alignée, affirme Russell, car il est impossible d’inclure et de pondérer correctement tous les objectifs, sous-objectifs, exceptions et réserves dans la fonction de récompense, ou même de savoir quels sont les bons. Donner des objectifs à des robots « autonomes » en liberté sera de plus en plus risqué à mesure qu’ils deviendront plus intelligents, car les robots seront impitoyables dans la poursuite de leur fonction de récompense et tenteront de nous empêcher de les éteindre.

Au lieu que les machines poursuivent des objectifs qui leur sont propres, la nouvelle pensée avance, elles devraient chercher à satisfaire les préférences humaines ; leur seul but devrait être d’en savoir plus sur nos préférences. Russell soutient que l’incertitude quant à nos préférences et la nécessité de se tourner vers nous pour obtenir des conseils permettront de maintenir la sécurité des systèmes d’IA. Dans son récent livre, Human Compatible, Russell présente sa thèse sous la forme de 3 « principes de machines bénéfiques », faisant écho aux trois lois de la robotique d’Isaac Asimov de 1942, mais avec moins de naïveté. La version de Russell précise :

  • Le seul objectif de la machine est de maximiser la réalisation des préférences humaines.
  • La machine n’est pas sûre au départ de ce que sont ces préférences.
  • La source ultime d’information sur les préférences humaines est le comportement humain.

Au cours des dernières années, Russell et son équipe à Berkeley, ainsi que des groupes de même sensibilité à Stanford, à l’université du Texas et ailleurs, ont développé des moyens novateurs de faire correspondre les systèmes d’IA à nos préférences, sans jamais avoir à les spécifier.

Ces laboratoires enseignent aux robots comment apprendre les préférences des humains qui ne les ont jamais formulées et qui ne sont peut-être même pas sûrs de ce qu’ils veulent. Les robots peuvent apprendre nos désirs en observant des démonstrations imparfaites et peuvent même inventer de nouveaux comportements qui aident à résoudre l’ambiguïté humaine. (Aux panneaux de stop à quatre voies, par exemple, les voitures qui se conduisent seules ont pris l’habitude de reculer un peu pour signaler aux conducteurs humains de passer devant). Ces résultats suggèrent que l’IA pourrait être étonnamment bonne pour déduire nos mentalités et nos préférences, même si nous les apprenons à la volée.

« Ce sont les premières tentatives de formalisation du problème », a déclaré M. Sadigh. « Ce n’est que récemment que les gens ont réalisé que nous devons examiner plus attentivement l’interaction humain-robot ».

Il reste à voir si les efforts naissants et les trois principes de Russell concernant les machines bénéfiques annoncent vraiment un avenir brillant pour l’IA. L’approche repose sur la capacité des robots à comprendre ce que les humains préfèrent vraiment, ce que l’espèce essaie de découvrir depuis un certain temps. Au minimum, Paul Christiano, un chercheur en alignement à OpenAI, a déclaré que Russell et son équipe ont grandement clarifié le problème et aidé à « préciser le comportement souhaité – ce que nous visons ».

Comment comprendre un être humain

La thèse de Russell lui est venue comme une révélation, cet acte sublime d’intelligence. C’était en 2014 et il était à Paris en congé sabbatique de Berkeley, en route pour répéter pour une chorale qu’il avait rejoint en tant que ténor. « Parce que je ne suis pas un très bon musicien, je devais toujours apprendre ma musique dans le métro en allant aux répétitions », se souvient-il récemment. L’arrangement choral Agnus Dei de Samuel Barber de 1967 a rempli ses écouteurs alors qu’il filmait sous la Ville Lumière. « C’était un si beau morceau de musique », a-t-il déclaré. « Il m’est venu à l’esprit que ce qui compte, et donc le but de l’IA, c’est en quelque sorte la qualité globale de l’expérience humaine. »

Les robots ne devraient pas essayer d’atteindre des objectifs comme la maximisation du temps de visionnage ou des trombones, a-t-il réalisé ; ils devraient simplement essayer d’améliorer nos vies. Il n’y avait qu’une seule question : « Si l’obligation des machines est d’essayer d’optimiser cette qualité globale de l’expérience humaine, comment diable pourraient-elles savoir ce que c’est ?

Les racines de la pensée de Russell remontent à bien plus loin. Il a étudié l’IA depuis ses années d’école à Londres dans les années 1970, lorsqu’il a programmé des algorithmes de jeu de tic-tac-toe (morpion) et d’échecs sur l’ordinateur d’un collège voisin. Plus tard, après s’être installé dans la Bay Area, une région favorable à l’IA, il a commencé à élaborer des théories sur la prise de décision rationnelle. Il a vite conclu que c’était impossible. Les humains ne sont pas du tout rationnels, parce qu’il n’est pas possible de l’être d’un point de vue informatique : Nous ne pouvons pas calculer quelle action à un moment donné conduira au meilleur résultat des trillions d’actions plus tard dans notre avenir à long terme ; une IA ne le peut pas non plus. Russell a théorisé que notre prise de décision est hiérarchique – nous nous rapprochons grossièrement de la rationalité en poursuivant de vagues objectifs à long terme via des objectifs à moyen terme tout en accordant le plus d’attention à nos circonstances immédiates. Les agents robotiques devraient faire quelque chose de similaire, pensait-il, ou à tout le moins comprendre notre mode de fonctionnement.

La révélation parisienne de Russell est survenue à une époque charnière dans le domaine de l’intelligence artificielle. Des mois plus tôt, un réseau de neurones artificiels utilisant une approche bien connue appelée apprentissage par renforcement a choqué les scientifiques en leur apprenant rapidement, à partir de zéro, comment jouer et battre les jeux vidéo Atari, et même en innovant de nouvelles astuces en cours de route. Dans l’apprentissage par renforcement, une IA apprend à optimiser sa fonction de récompense, comme son score dans un jeu ; en essayant différents comportements, ceux qui augmentent la fonction de récompense se renforcent et sont plus susceptibles de se produire à l’avenir.

Si nous ne pouvons pas éteindre une machine parce qu’elle ne nous le permet pas, nous sommes vraiment dans le pétrin. – Stuart Russell

Russell avait développé l’inverse de cette approche dès 1998, travail qu’il a continué à affiner avec son collaborateur Andrew Ng. Un système d' »apprentissage par renforcement inverse » n’essaie pas d’optimiser une fonction de récompense codée, comme dans l’apprentissage par renforcement ; il essaie plutôt d’apprendre quelle fonction de récompense un humain optimise. Alors qu’un système d’apprentissage par renforcement détermine les meilleures actions à entreprendre pour atteindre un objectif, un système d’apprentissage par renforcement inverse déchiffre l’objectif sous-jacent lorsqu’on lui donne un ensemble d’actions.

Quelques mois après sa révélation inspirée par Agnus Dei, Russell s’est mis à parler de l’apprentissage par renforcement inverse avec Nick Bostrom, célèbre trombone, lors d’une réunion sur la gouvernance de l’IA au ministère allemand des affaires étrangères. « C’est là que les deux choses se sont rejointes », a déclaré Russell. Dans le métro, il avait compris que les machines devaient s’efforcer d’optimiser la qualité globale de l’expérience humaine. Maintenant, il a réalisé que si elles ne savent pas comment faire cela – si les ordinateurs ne savent pas ce que les humains préfèrent – « ils pourraient faire une sorte de renforcement inverse en apprenant à en savoir plus ».

Avec l’apprentissage standard par renforcement inverse, une machine essaie d’apprendre une fonction de récompense que l’homme poursuit. Mais dans la vie réelle, nous pourrions être disposés à l’aider activement à apprendre à nous connaître. De retour à Berkeley après son congé sabbatique, Russell a commencé à travailler avec ses collaborateurs pour développer un nouveau type d' »apprentissage coopératif par renforcement inverse » où un robot et un humain peuvent travailler ensemble pour apprendre les vraies préférences de l’humain dans divers « jeux d’assistance » – des scénarios abstraits représentant des situations du monde réel, à connaissance partielle.

L’un des jeux qu’ils ont mis au point, connu sous le nom de « jeu de l’interrupteur », traite de l’une des façons les plus évidentes dont les robots autonomes peuvent se détourner de nos vraies préférences : en désactivant leurs propres interrupteurs. Alan Turing a suggéré dans une conférence radiophonique de la BBC en 1951 (l’année suivant la publication d’un article pionnier sur l’IA) qu’il pourrait être possible de « maintenir les machines dans une position servile, par exemple en coupant le courant à des moments stratégiques« . Les chercheurs trouvent maintenant cela simpliste. Qu’est-ce qui empêche un agent intelligent de désactiver son propre interrupteur d’arrêt, ou, plus généralement, d’ignorer les commandes pour ne plus augmenter sa fonction de récompense ? Dans Human Compatible, Russell écrit que le problème de l’interrupteur de désactivation est « le cœur du problème de contrôle des systèmes intelligents ». Si nous ne pouvons pas éteindre une machine parce qu’elle ne nous le permet pas, nous sommes vraiment dans le pétrin. Si nous le pouvons, alors nous pourrons peut-être la contrôler d’autres façons également ».

L’incertitude quant à nos préférences peut être la clé, comme le montre le jeu off-switch de l’interrupteur, un modèle formel du problème impliquant Harriet l’humaine et Robbie le robot. Robbie décide d’agir au nom de Harriet – de lui réserver une chambre d’hôtel agréable mais chère, par exemple – mais il n’est pas certain de ce qu’elle préférera. Robbie estime que le gain pour Harriet pourrait être de l’ordre de -40 à +60, avec une moyenne de +10 (Robbie pense qu’elle aimera probablement la chambre chic mais n’est pas sûr). Ne rien faire a un gain de 0. Mais il y a une troisième option : Robbie peut demander à Harriet si elle souhaite que le projet se poursuive ou si elle préfère « l’arrêter », c’est-à-dire qu’elle peut retirer Robbie de la décision de réserver l’hôtel. Si elle laisse le robot continuer, le gain moyen escompté pour Harriet devient supérieur à +10. Robbie décidera donc de consulter Harriet et, si elle le souhaite, la laissera l’éteindre.

Russell et ses collaborateurs ont prouvé qu’en général, à moins que Robbie ne soit totalement certain de ce que Harriet ferait elle-même, il préférera la laisser décider. « Il s’avère que l’incertitude sur l’objectif est essentielle pour s’assurer que nous pouvons éteindre la machine« , a écrit Russell dans Human Compatible, « même si elle est plus intelligente que nous ».

Que ressentons-nous face à l’évolution de nos sentiments ? Tout cela est plutôt difficile à comprendre pour un pauvre robot.

Ces scénarios et d’autres scénarios à connaissance partielle ont été développés comme des jeux abstraits, mais le laboratoire de Scott Niekum à l’université du Texas à Austin utilise des algorithmes d’apprentissage des préférences sur des robots réels. Lorsque Gemini, le robot à deux bras du laboratoire, observe un humain placer une fourchette à gauche d’une assiette dans une démonstration de mise en place de table, il ne peut pas dire au départ si les fourchettes vont toujours à gauche des assiettes, ou toujours à cet endroit particulier de la table ; de nouveaux algorithmes permettent à Gemini d’apprendre le modèle après quelques démonstrations. Niekum s’efforce d’amener les systèmes d’IA à quantifier leur propre incertitude sur les préférences d’un humain, permettant au robot de déterminer quand il en sait assez pour agir en toute sécurité. « Nous raisonnons directement sur des distributions d’objectifs dans la tête de la personne qui pourraient être vraies », dit-il. « Et nous raisonnons sur le risque par rapport à cette distribution. »

Récemment, Niekum et ses collaborateurs ont trouvé un algorithme efficace qui permet aux robots d’apprendre à effectuer des tâches bien mieux que leurs démonstrateurs humains. Il peut être très difficile pour un véhicule robotisé d’apprendre des manœuvres de conduite simplement en regardant des démonstrations faites par des conducteurs humains. Mais Niekum et ses collègues ont découvert qu’ils pouvaient améliorer et accélérer considérablement l’apprentissage en montrant des démonstrations de robots qui ont été classées en fonction de la performance de l’homme. « L’agent peut regarder ce classement et dire : « Si c’est le classement, qu’est-ce qui l’explique ? a déclaré M. Niekum. « Ce qui se passe le plus souvent à mesure que les manifestations s’améliorent, qu’est-ce qui se passe le moins souvent ? » La dernière version de l’algorithme d’apprentissage, appelée T-REX bayésien (pour « trajectoire classée d’extrapolation de récompense« ), trouve dans les démos classées des modèles qui révèlent des fonctions de récompense possibles pour lesquelles les humains pourraient optimiser. L’algorithme évalue également la probabilité relative de différentes fonctions de récompense. Un robot utilisant le T-REX bayésien peut efficacement déduire les règles les plus probables des couverts, ou l’objectif d’un jeu Atari, a déclaré Niekum, « même s’il n’a jamais vu la démonstration parfaite ».

Nos choix imparfaits

Les idées de Russell « font leur chemin dans l’esprit de la communauté de l’IA », a déclaré Yoshua Bengio, le directeur scientifique de Mila, un institut de recherche de pointe en IA à Montréal. Il a ajouté que l’approche de Russell, où les systèmes d’IA visent à réduire leur propre incertitude sur les préférences humaines, peut être réalisée grâce à un apprentissage approfondi – la méthode puissante qui est à l’origine de la récente révolution de l’intelligence artificielle, où le système passe au crible les données à travers les couches d’un réseau neuronal artificiel pour trouver ses modèles. « Bien sûr, il faut davantage de travaux de recherche pour que cela devienne une réalité », a-t-il déclaré.

Russell voit deux défis majeurs. « Le premier est le fait que notre comportement est si loin d’être rationnel qu’il pourrait être très difficile de reconstruire nos véritables préférences sous-jacentes », a-t-il déclaré. Les systèmes d’IA devront raisonner sur la hiérarchie des objectifs à long, moyen et court terme – la myriade de préférences et d’engagements dans lesquels nous sommes chacun enfermé. Si les robots doivent nous aider (et éviter de commettre de graves erreurs), ils devront s’orienter dans les réseaux nébuleux de nos croyances subconscientes et de nos désirs non articulés.

Le deuxième défi est que les préférences humaines changent. Nos esprits changent au cours de notre vie, et ils changent également en un clin d’œil, en fonction de notre humeur ou de circonstances modifiées qu’un robot pourrait avoir du mal à saisir.

En outre, nos actions ne sont pas toujours à la hauteur de nos idéaux. Les gens peuvent avoir des valeurs contradictoires. Dans quel but un robot doit-il être optimisé ? Pour éviter de répondre à nos pires pulsions (ou pire encore, d’amplifier ces pulsions, les rendant ainsi plus faciles à satisfaire, comme l’a fait l’algorithme de YouTube), les robots pourraient apprendre ce que Russell appelle nos méta-préférences : « les préférences concernant les types de processus de changement de préférence qui pourraient être acceptables ou inacceptables ». Que ressentons-nous face à l’évolution de nos sentiments ? Tout cela est plutôt difficile à comprendre pour un pauvre robot.

Comme les robots, nous essayons aussi de comprendre nos préférences, à la fois ce qu’elles sont et ce que nous voulons qu’elles soient, et comment gérer les ambiguïtés et les contradictions. Comme la meilleure IA possible, nous nous efforçons aussi – du moins certains d’entre nous, parfois – de comprendre la forme du bien, comme Platon appelait l’objet de la connaissance. Comme nous, les systèmes d’IA peuvent être bloqués pour toujours à poser des questions – ou à attendre en position de repos, trop incertaine pour aider.

« Je ne m’attends pas à ce que nous ayons de sitôt une grande compréhension de ce qu’est le bien », a déclaré M. Christiano, « ou des réponses idéales à l’une des questions empiriques auxquelles nous sommes confrontés. Mais j’espère que les systèmes d’IA que nous construisons pourront répondre à ces questions aussi bien qu’à un humain et qu’ils seront engagés dans les mêmes types de processus itératifs pour améliorer ces réponses que les humains le sont – au moins dans les bons jours ».

Cependant, il y a un troisième problème majeur qui ne figurait pas dans la liste des préoccupations de Russell : Qu’en est-il des préférences des mauvaises personnes ? Qu’est-ce qui empêche un robot de travailler pour satisfaire les fins malfaisantes de son propriétaire malfaisant ? Les systèmes d’IA ont tendance à trouver des moyens de contourner les interdictions, tout comme les gens riches trouvent des failles dans les lois fiscales, donc le simple fait de leur interdire de commettre des crimes ne sera probablement pas couronné de succès.

Ou, pour devenir encore plus sombre : Et si nous étions tous un peu mauvais ? YouTube s’est efforcé de corriger son algorithme de recommandation, qui, après tout, capte les impulsions humaines omniprésentes.

Russell est néanmoins optimiste. Bien qu’il faille poursuivre les recherches sur les algorithmes et la théorie des jeux, il estime que les programmeurs pourraient réussir à réduire les préférences négatives et que la même approche pourrait même être utile « dans la façon dont nous élevons les enfants et éduquons les gens ». En d’autres termes, en apprenant aux robots à être bons, nous pourrions trouver un moyen de nous enseigner nous-mêmes. Il a ajouté : « Je pense que c’est une occasion, peut-être, de mener les choses dans la bonne direction ».

Via Quanta Magazine

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.