Publicités

Les ordinateurs tracent une nouvelle voie vers l’intelligence humaine

Les ordinateurs tracent une nouvelle voie vers l’intelligence humaine

Les réseaux neuronaux qui empruntent des stratégies à la biologie font de grands bonds en avant dans leurs capacités. Est-ce que le fait d’ignorer un but est la meilleure façon de faire des machines vraiment intelligente ?

En 2007, Kenneth Stanley, informaticien à l’Université de Floride centrale, jouait avec Picbreeder, un site Web qu’il avait créé avec ses étudiants, lorsqu’un alien est devenu une voiture de course et a changé sa vie. Sur Picbreeder, les utilisateurs peuvent voir un tableau de 15 images similaires, composées de formes géométriques ou de motifs tourbillonnants, toutes variations sur un thème. À l’occasion, certains peuvent ressembler à un objet réel, comme un papillon ou un visage. On demandait aux utilisateurs d’en choisir un, et ils cliquaient généralement sur ce qu’ils trouvaient le plus intéressant. Une fois qu’ils l’ont fait, un nouvel ensemble d’images, toutes les variations de leur choix, peuplaient l’écran. De cette exploration ludique, un catalogue de dessins fantaisistes a émergé.

Stanley est un pionnier dans un domaine de l’intelligence artificielle appelé neuroévolution, qui coopte les principes de l’évolution biologique pour concevoir des algorithmes plus intelligents. Avec Picbreeder, chaque image était le résultat d’un système de calcul similaire à un réseau neuronal. Lorsqu’une image a germé, son réseau sous-jacent a muté en 15 variations légèrement différentes, chacune d’elles apportant une nouvelle image. Stanley n’avait pas l’intention que Picbreeder génère quelque chose en particulier. Il avait simplement l’intuition qu’il pourrait, lui ou le public, apprendre quelque chose sur l’évolution ou sur l’intelligence artificielle.

Un jour, Stanley aperçut quelque chose qui ressemblait à un visage d’alien sur le site et commença à le faire évoluer, en choisissant un enfant et un petit-enfant et ainsi de suite. Par hasard, les yeux ronds se sont abaissés et ont commencé à ressembler aux roues d’une voiture. Stanley l’a suivi et a mis au point une voiture de sport à l’allure épurée. Il n’arrêtait pas de penser au fait que s’il avait commencé à essayer de faire évoluer une voiture à partir de zéro, au lieu d’un alien, il ne l’aurait peut-être jamais fait, et il se demandait ce que cela impliquait d’attaquer directement les problèmes. « Ça a eu un impact énorme sur toute ma vie », dit-il. Il a regardé d’autres images intéressantes qui avaient émergé sur Picbreeder, tracé leurs lignées, et s’est rendu compte que presque toutes avaient évolué grâce à quelque chose qui semblait complètement différent. « Une fois que j’ai vu les preuves, j’ai été époustouflé. »

La prise de conscience de Stanley a mené à ce qu’il appelle le principe du tremplin – et, avec lui, une façon de concevoir des algorithmes qui embrassent plus pleinement le potentiel infiniment créatif de l’évolution biologique.

Les algorithmes évolutifs existent depuis longtemps. Traditionnellement, ils ont été utilisés pour résoudre des problèmes spécifiques. Dans chaque génération, les solutions les plus performantes sur certains paramètres – la capacité de contrôler un robot à deux pattes, par exemple – sont sélectionnées et donnent naissance à une progéniture. Bien que ces algorithmes aient connu certains succès, ils peuvent être plus intensifs en calcul que d’autres approches telles que le “deep learning, l' »apprentissage approfondi« , qui a explosé en popularité ces dernières années.

Le principe du tremplin va au-delà des approches évolutives traditionnelles. Au lieu d’optimiser en vue d’un objectif spécifique, il s’agit d’explorer de façon créative toutes les solutions possibles. Ce faisant, il a donné des résultats révolutionnaires. Plus tôt cette année, un système basé sur le principe du tremplin maîtrisait deux jeux vidéo qui avaient fait échouer les méthodes populaires d’apprentissage machine. Et dans un article publié la semaine dernière dans Nature, DeepMindla société d’intelligence artificielle pionnière dans l’utilisation de l’apprentissage profond pour des problèmes tels que le jeu de Go – a fait état de son succès à combiner l’apprentissage profond avec l’évolution d’une population diverse de solutions.

Le potentiel du tremplin peut être vu par analogie avec l’évolution biologique. Dans la nature, l’arbre de vie n’a pas de but primordial, et les caractéristiques utilisées pour une fonction peuvent être utilisées pour quelque chose de complètement différent. Les plumes, par exemple, ont probablement évolué pour l’isolation et ne sont devenues pratiques que plus tard pour le vol.

L’évolution biologique est aussi le seul système à produire de l’intelligence humaine, ce qui est le rêve ultime de nombreux chercheurs en IA. En raison des antécédents de la biologie, Stanley et d’autres en sont venus à croire que si nous voulons des algorithmes qui peuvent naviguer dans le monde physique et social aussi facilement que nous le pouvons – ou mieux ! – nous devons imiter les tactiques de la nature. Au lieu de coder en dur les règles du raisonnement ou de faire en sorte que les ordinateurs apprennent à obtenir de bons résultats sur des indicateurs de performance spécifiques, ils soutiennent que nous devons laisser s’épanouir une population de solutions. Demandez-leur de donner la priorité à la nouveauté ou à l’intérêt plutôt qu’à la capacité de marcher ou de parler. Ils peuvent découvrir un chemin indirect, un ensemble de tremplins, et finir par marcher et parler mieux que s’ils avaient recherché directement ces compétences.

Nouveau, Intéressant, Diversité

Après Picbreeder, Stanley a entrepris de démontrer que la neuroévolution pouvait surmonter l’argument le plus évident contre elle : « Si j’utilise un algorithme si créatif que je ne suis pas sûr de ce qu’il produira, dit-il, c’est très intéressant du point de vue de la recherche, mais c’est plus difficile à vendre sur le plan commercial ».

Il espérait montrer qu’en suivant simplement des idées dans des directions intéressantes, les algorithmes pouvaient non seulement produire une diversité de résultats, mais aussi résoudre des problèmes. Plus audacieusement, il a voulu montrer qu’ignorer complètement un objectif peut vous permettre d’y arriver plus vite que de le poursuivre. Il l’a fait par le biais d’une approche appelée recherche de nouveauté.

Le système a commencé avec un réseau neuronal, qui est un arrangement de petits éléments de calcul appelés neurones connectés en couches. La sortie d’une couche de neurones est transmise à la couche suivante par des connexions qui ont différents « poids ». Dans un exemple simple, des données d’entrée telles qu’une image peuvent être introduites dans le réseau neuronal. Au fur et à mesure que l’information de l’image passe d’une couche à l’autre, le réseau extrait des informations de plus en plus abstraites sur son contenu. Finalement, un dernier calque calcule l’information de plus haut niveau : une étiquette pour l’image.

Dans la neuroévolution, vous commencez par assigner des valeurs aléatoires aux poids entre les couches. Ce caractère aléatoire signifie que le réseau ne sera pas très bon dans son travail. Mais à partir de cet état de bas niveau, vous créez ensuite un ensemble de mutations aléatoires – des réseaux de neurones descendants de poids légèrement différents – et vous évaluez leurs capacités. Vous gardez les meilleurs, produisez plus de descendance et répétez. (Des stratégies de neuroévolution plus avancées introduiront également des mutations dans le nombre et la disposition des neurones et des connexions.)

La neuroévolution est un méta-algorithme, un algorithme pour concevoir des algorithmes. Et finalement, les algorithmes deviennent assez bons dans leur travail.

Pour mettre à l’épreuve le principe du tremplin, Stanley et son élève Joel Lehman ont modifié le processus de sélection. Au lieu de sélectionner les réseaux les plus performants dans une tâche, la recherche de nouveauté les a sélectionnés en fonction de leur différence par rapport à ceux dont les comportements étaient les plus similaires aux leurs. (Dans Picbreeder, les gens récompensaient l’intérêt. Ici, en tant qu’indicateur de l’intérêt, la recherche de nouveauté récompense la nouveauté.)

Lors d’un test, ils ont placé des robots virtuels à roues dans un labyrinthe et ont fait évoluer les algorithmes les contrôlant, en espérant que l’on trouverait un chemin vers la sortie. Ils ont fait l’évolution à partir de zéro 40 fois. Un programme de comparaison, dans lequel les robots ont été sélectionnés en fonction de leur proximité (à vol d’oiseau) de la sortie, n’a fait apparaître un robot gagnant que 3 fois sur 40. La recherche de nouveauté, qui ignorait complètement à quel point chaque bot était proche de la sortie, a réussi 39 fois. Cela a fonctionné parce que les robots ont réussi à éviter les impasses. Plutôt que de faire face à la sortie et de se frapper la tête contre le mur, ils ont exploré un territoire inconnu, trouvé des solutions de rechange et gagné par accident. « La recherche de nouveauté est importante parce qu’elle a tout chamboulé « , a déclaré Julian Togelius, informaticien à l’Université de New York,  » et a demandé ce qui se passe quand on n’a pas d’objectif.

Une fois que Stanley a fait valoir que la poursuite d’objectifs peut être un obstacle à l’atteinte de ces objectifs, il a cherché des moyens intelligents de combiner la recherche de nouveauté et des buts spécifiques. C’est ce qui l’a amené, lui et Lehman, à créer un système qui reflète les niches évolutives de la nature. Dans cette approche, les algorithmes ne sont en concurrence qu’avec d’autres qui leur sont similaires. Tout comme les vers ne concurrencent pas les baleines, le système maintient des niches algorithmiques distinctes d’où une variété d’approches prometteuses peuvent émerger.

De tels algorithmes évolutifs avec une compétition localisée ont démontré leur maîtrise du traitement des pixels, du contrôle d’un bras de robot et (comme le montre la couverture de Nature) de l’adaptation rapide de la démarche d’un robot à six pattes après avoir perdu un membre, comme le ferait un animal. Un élément clé de ces algorithmes est qu’ils favorisent les tremplins. Au lieu d’accorder constamment la priorité à une seule solution globale optimale, ils maintiennent un ensemble diversifié de créneaux dynamiques, chacun d’entre eux pouvant apporter une solution gagnante. Et la meilleure solution pourrait venir d’une lignée qui a sauté entre les niches.

Évoluer pour gagner

Pour Stanley, qui travaille maintenant chez Uber AI Labs, le principe du tremplin explique l’innovation : Si on remontait le temps avec un ordinateur moderne et qu’on disait aux développeurs de tubes à vide de les abandonner et de se concentrer sur les ordinateurs portables, on n’aurait ni l’un ni l’autre. Il explique aussi l’évolution : Nous avons évolué à partir de vers plats, qui n’étaient pas particulièrement intelligents, mais qui avaient une symétrie bilatérale. « Il n’est pas sûr que la découverte de la symétrie bilatérale ait quelque chose à voir avec l’intelligence, encore moins avec Shakespeare, » dit Stanley, « mais c’est vrai. »

La neuroévolution elle-même a suivi un cheminement inattendu et détourné au cours de la dernière décennie. Pendant longtemps, elle a vécu dans l’ombre d’autres formes d’IA.

L’un de ses plus gros inconvénients, selon Risto Miikkulainen, informaticien à l’Université du Texas, à Austin (et ancien conseiller de Stanley au doctorat), est la quantité de calculs nécessaires. Dans l’apprentissage machine traditionnel, au fur et à mesure que vous formez un réseau neuronal, il s’améliore progressivement. Avec la neuroévolution, les poids changent de façon aléatoire, de sorte que la performance du réseau peut se dégrader avant de s’améliorer.

Un autre inconvénient est le fait que la plupart des gens ont un problème particulier qu’ils aimeraient résoudre. Une stratégie de recherche qui optimise votre intérêt pourrait vous aider à trouver une solution créative à ce problème particulier. Mais il pourrait vous égarer avant de vous mettre sur la bonne voie.

Mais aucune stratégie n’est parfaite. Au cours des cinq dernières années environ, la recherche a explosé dans différents domaines de la recherche sur l’IA, tels que l’apprentissage approfondi et le renforcement de l’apprentissage. Dans l’apprentissage du renforcement, un algorithme interagit avec l’environnement – un robot navigue dans le monde réel, ou un joueur participe à un jeu – et apprend par essais et erreurs quels comportements mènent aux résultats désirés. L’apprentissage du renforcement profond a été utilisé par DeepMind pour créer un programme qui pourrait battre les meilleurs joueurs du monde au Go, un exploit que beaucoup pensaient encore loin dans des années ou des décennies.

Mais l’apprentissage du renforcement peut s’enliser dans une ornière. Des récompenses rares ou peu fréquentes ne donnent pas suffisamment de rétroaction aux algorithmes pour leur permettre d’atteindre leur but. Des récompenses trompeuses – décernées pour des gains à court terme qui entravent le progrès à long terme – piègent les algorithmes dans des impasses. Ainsi, alors que le renforcement de l’apprentissage peut stimuler les humains avec

– des jeux avec des points fréquents et des objectifs clairs – ils sont tombés à plat dans d’autres jeux classiques qui manquent de ces caractéristiques.

Au cours de l’année écoulée, l’IA fondée sur le principe du tremplin a finalement réussi à résoudre un certain nombre de problèmes de longue date dans ce domaine.

Le jeu vidéo Montezuma’s Revenge, sorti pour la première fois en 1984, récompense l’exploration ouverte.

Dans le jeu Montezuma’s Revenge, Panama Joe navigue de pièce en pièce dans un labyrinthe souterrain, ramassant les clés pour ouvrir les portes tout en évitant les ennemis et les obstacles comme les serpents et les trappes de feu. Pour battre le jeu,  Jeff CluneJoost Huizinga et Adrien Ecoffet, tous les cinq travaillant chez Uber AI Labs, ont développé un système où Panama Joe se promène essentiellement et tente au hasard diverses actions. Chaque fois qu’il atteint un nouvel état de jeu – un nouvel emplacement avec un nouvel ensemble de possessions – il le classe dans sa mémoire, avec l’ensemble des actions qu’il a prises pour y arriver. S’il trouve plus tard un chemin plus rapide vers cet état, il remplace l’ancienne mémoire. Pendant l’entraînement, Panama Joe choisit à plusieurs reprises l’un de ces états stockés, explore au hasard pendant un certain temps, et ajoute à sa mémoire tous les nouveaux états qu’il trouve.

En fin de compte, l’un de ces États est celui où l’on gagne la partie. Et Panama Joe a en mémoire toutes les actions qu’il a prises pour y arriver. Il l’a fait sans réseau neuronal ni apprentissage de renforcement – pas de récompenses pour la collecte de clés ou l’approche de la fin du labyrinthe – juste une exploration aléatoire et une façon intelligente de collecter et de connecter les tremplins. Cette approche a permis de battre non seulement les meilleurs algorithmes mais aussi le record du monde humain du jeu.

La même technique, que les chercheurs appellent Go-Explore, a été utilisée pour battre les experts humains à Pitfall, un jeu où Pitfall Harry navigue dans la jungle à la recherche de trésors tout en évitant les crocodiles et les sables mouvants. Aucune autre machine apprenant l’IA n’avait obtenu un score supérieur à zéro.

Maintenant même DeepMind, ce moteur de l’apprentissage du renforcement, a révélé son intérêt croissant pour la neuroévolution. En janvier, l’équipe a présenté AlphaStar, un logiciel capable de battre les meilleurs professionnels dans le jeu vidéo complexe StarCraft II, dans lequel deux adversaires contrôlent des armées et construisent des colonies pour dominer un paysage numérique. AlphaStar a développé une population de joueurs qui se sont affrontés et ont appris les uns des autres. Dans l’article Nature de la semaine dernière, les chercheurs de DeepMind ont annoncé qu’une version mise à jour d’AlphaStar a été classée parmi les 0,2 % des meilleurs joueurs actifs de StarCraft II sur une plate-forme de jeu populaire, devenant ainsi la première IA à atteindre sans restrictions le niveau supérieur d’un e-sport populaire.

« Pendant longtemps, avec les agents AlphaStar, ils se sont améliorés, mais ils étaient toujours exploitables « , explique Max Jaderberg, informaticien chez DeepMind qui a travaillé sur le projet. « Vous formeriez un agent, et il aurait une très, très bonne performance en moyenne, mais vous pourriez toujours former quelque chose contre cet agent et trouver des manques dans cet agent. »

Comme dans le jeu pour enfants jeu rock-paper-scissors, il n’y a pas de meilleure stratégie de jeu unique dans StarCraft II. DeepMind a donc encouragé sa population d’agents à développer une diversité de stratégies – non pas comme des tremplins mais comme une fin en soi. Lorsque AlphaStar a battu deux pros tous les cinq matchs à zéro, il a combiné les stratégies de cinq agents différents dans sa population. Les cinq agents avaient été choisis de manière à ce qu’ils ne soient pas tous vulnérables à la stratégie d’un seul adversaire. Leur force réside dans leur diversité.

AlphaStar démontre l’une des principales utilisations des algorithmes évolutifs : maintenir une population de solutions différentes. Un autre projet récent de DeepMind montre l’autre utilisation : optimiser une solution unique. En collaboration avec Waymo, le projet de voiture autonome d’Alphabet, l’équipe a développé des algorithmes d’identification des piétons. Pour éviter de s’enliser dans une approche qui fonctionne assez bien, mais qui n’est pas la meilleure stratégie possible, ils ont maintenu des « niches » ou sous-populations, de sorte que les solutions nouvelles auraient le temps de se développer avant d’être écrasées par les plus performantes établies.

Les algorithmes basés sur la population sont devenus plus populaires ces dernières années, en partie parce qu’ils  » correspondent bien au type de calcul que nous avons maintenant « , a déclaré Raia Hadsell, chercheuse scientifique et responsable de la robotique chez DeepMind, qui utilise un terme standard dans le domaine des ressources informatiques. Hadsell a invité Clune, Lehman et Stanley à faire une présentation de deux heures de leur travail à la Conférence internationale sur l’apprentissage machine en juin. « Je pense que c’est un domaine de recherche important pour l’IA, dit-elle, parce qu’il est complémentaire aux approches d’apprentissage profond qui ont fait avancer ce domaine.

L’intelligence artificielle qui conçoit l’intelligence artificielle

Tous les algorithmes discutés jusqu’à présent sont limités dans leur créativité. AlphaStar ne peut que proposer de nouvelles stratégies StarCraft II. La recherche de nouveauté peut trouver la nouveauté dans un seul domaine à la fois – la résolution d’un labyrinthe ou la marche d’un robot.

L’évolution biologique, d’autre part, produit une nouveauté sans fin. Nous avons des bactéries, le varech, des oiseaux et des gens. C’est parce que les solutions évoluent, mais les problèmes aussi. La girafe est une réponse au problème de l’arbre. L’innovation humaine procède de même. Nous nous créons des problèmes pour nous-mêmes – pourrions-nous mettre une personne sur la lune ? et ensuite les résoudre.

Des décennies de recherche nous ont appris que ces algorithmes nous surprennent et nous dépassent constamment. Jeff Clune

Pour refléter cette conversation ouverte entre problèmes et solutions, Stanley, Clune, Lehman et un autre collègue Uber, Rui Wang, ont publié plus tôt cette année un algorithme appelé POET, pour Paired Open-Ended Trailblazer. Pour tester l’algorithme, ils ont développé une population de robots virtuels à deux pattes. Ils ont également créé une population de parcours d’obstacles pour les bots, avec des collines, des tranchées et des souches d’arbres. Les bots échangeaient parfois leurs places les uns avec les autres, essayant de nouveaux terrains. Par exemple, un robot a appris à traverser un terrain plat en traînant les genoux. On l’a ensuite fait passer au hasard dans un paysage avec des souches courtes, où il a dû apprendre à marcher debout. Lorsqu’il est revenu à sa première course à obstacles, il l’a complétée beaucoup plus rapidement. Un cheminement indirect lui a permis de s’améliorer en appliquant à un autre casse-tête les compétences acquises à partir d’un casse-tête.

POET pourrait potentiellement concevoir de nouvelles formes d’art ou faire des découvertes scientifiques en s’inventant de nouveaux défis et en les résolvant. Elle pourrait même aller beaucoup plus loin, en fonction de sa capacité à construire le monde. Stanley a dit qu’il espère construire des algorithmes qui pourraient encore faire quelque chose d’intéressant après un milliard d’années.

L’évolution a « inventé la vue, la photosynthèse, l’intelligence à l’échelle humaine, l’intelligence à l’échelle humaine, et tout cela en un seul cycle d’un algorithme », dit Stanley. « Pour capturer un minuscule iota de ce processus, je pense que ça pourrait être incroyablement puissant. »

Dans un article récent, Clune soutient que la découverte ouverte est probablement la voie la plus rapide vers l’intelligence générale artificielle – des machines avec presque toutes les capacités des humains. La majeure partie du domaine de l’intelligence artificielle est axée sur la conception manuelle de tous les éléments constitutifs d’une machine intelligente, tels que les différents types d’architectures de réseaux neuronaux et les processus d’apprentissage. Mais il n’est pas clair comment ceux-ci pourraient éventuellement être regroupés dans une intelligence générale.

Au lieu de cela, Clune pense qu’il faudrait accorder plus d’attention à l’IA qui conçoit l’IA. Les algorithmes concevront ou feront évoluer à la fois les réseaux neuronaux et les environnements dans lesquels ils apprennent, en utilisant une approche comme celle des POET. Une telle exploration ouverte pourrait mener à une intelligence au niveau humain par des voies que nous n’aurions jamais prévues – ou à une variété d’intelligences étrangères qui pourraient nous apprendre beaucoup de choses sur l’intelligence en général. « Des décennies de recherche nous ont appris que ces algorithmes nous surprennent et nous dépassent constamment « , a-t-il dit. « C’est donc complètement hubristique de penser que nous connaîtrons le résultat de ces processus, surtout quand ils deviendront plus puissants et plus ouverts. »

Il peut également être hubristique d’exercer un trop grand contrôle sur les chercheurs. L’ironie de l’histoire de Stanley, c’est qu’il a d’abord présenté Picbreeder à la National Science Foundation, qui a rejeté sa demande de subvention, disant que son objectif n’était pas clair. Mais le projet a débouché sur des articles, des conférences, un livre et une start-upGeometric Intelligence, acheté par Uber pour former le noyau d’Uber AI Labs. « Pour moi, dit Stanley, l’une des choses qui est vraiment frappante et peut-être folle, c’est que l’histoire de la façon dont je suis arrivé ici est fondamentalement la même que la vision algorithmique qui m’a amené ici. La chose qui m’a conduit à l’intuition s’explique en fait par l’intuition elle-même. »

Via Quanta

 

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :