La nouvelle AI de DeepMind, AlphaGo, a appris à être la plus grand joueuse de Go au monde et a redéfini la façon d’y jouer

‘AlphaGo AI’ qui a fait la une des journaux l’année dernière après avoir battu un maître du jeu de société Go vient d’être battu 100-0 par une version mise à jour. Et contrairement à son prédécesseur, le nouveau système s’est enseigné à partir des premiers principes qui ouvrent la voie à l’IA qui peut penser par elle-même.

Quand les échecs sont tombés à l’IA dans les années 1990, les informaticiens à la recherche d’un nouveau défi se sont tournés vers le jeu chinois millénaire Go, qui malgré ses règles plus simples a beaucoup plus de mouvements possibles et exige souvent que les joueurs se fient à l’instinct.

On prévoyait qu’il faudrait des décennies avant qu’une IA puisse battre un maître humain, mais l’an dernier, un programme appelé AlphaGo développé par la filiale DeepMind de Google a battu Lee Sedol, 18 fois champion du monde 4-1 dans une série de matchs en Corée du Sud.

Ce fut un moment décisif pour la recherche sur l’IA qui a mis en évidence la puissance de l’approche d' »apprentissage de renforcement » prônée par DeepMind. Non seulement le système a gagné, mais il a aussi joué des coups surprenants et très efficaces qui ont contrarié des siècles de sagesse accumulée sur le fonctionnement du jeu.

Aujourd’hui, un an plus tard, DeepMind a dévoilé une nouvelle version du programme AlphaGo Zero dans un article de Nature qui surpasse la version qui bat Sedol sur tous les métriques. En seulement trois jours et 4,9 millions de matchs d’entraînement, il a atteint le même niveau que son prédécesseur plusieurs mois et 30 millions de matchs d’entraînement. Il l’ a également fait sur seulement quatre des unités de traitement Tensor de Google, des puces spécialisées pour la formation des réseaux neuronaux, contre 48 pour AlphaGo.


Crédit Image: DeepMind

La différence la plus frappante par rapport au système précédent est la simplicité des entrées. AlphaGo a appris les bases du Go en analysant des milliers de jeux entre joueurs humains, avant d’affiner ses compétences en se jouant des millions de fois. En revanche, AlphaGo Zero a commencé avec rien de plus que les règles du jeu et a appris entièrement en jouant des jeux contre lui-même en commençant par des mouvements complètement aléatoires.

La conception du système n’est pas radicalement différente de son prédécesseur ou de la version AlphaGo Master plus récente, qui a défait une foule d’experts humains, y compris Ke Jie, numéro un mondial, qu’AlphaGo Zero a surpassé après 40 jours de formation. Essentiellement, il s’agit d’une rationalisation de l’approche précédente, rendue possible par une architecture simplifiée et des algorithmes plus puissants.

AlphaGo dispose de deux réseaux neuronaux distincts. Le premier a été formé pour prédire le meilleur coup probable d’abord en utilisant les données humaines et ensuite en jouant lui-même, tandis que le deuxième réseau a été formé pour prédire le vainqueur de ces jeux d’auto-play. Lorsqu’il s’agissait de jouer à un jeu, ces réseaux étaient combinés avec un algorithme de recherche pour explorer le meilleur coup étant donné l’état du jeu.

Le premier réseau sélectionnerait les meilleurs coups possibles et ensuite le système utiliserait une combinaison du réseau de valeur et des « déploiements » – une série de jeux rapides simulés pour tester les coups possibles – pour décider d’un jeu.

Le nouveau système combine les deux réseaux neuronaux en un seul, avec beaucoup plus de couches de neurones artificiels, qui peuvent être formés plus efficacement. Il utilise également un algorithme de recherche beaucoup plus simple et supprime les déploiements, en s’appuyant sur le réseau neuronal de qualité supérieure pour faire des prédictions. Parlant au magazine Nature, le chercheur principal David Silver a comparé cela à demander à un expert de faire une prédiction plutôt que de compter sur des centaines de joueurs moyens pour tester les déplacements.

« Non seulement elle découvrit de manière indépendante les mouvements connus qui ont pris des millénaires pour que les humains se développent, mais elle en a créé de nouveaux qui redéfinissent maintenant la façon dont le Go est joué. »

Le fait que les chercheurs aient réussi à augmenter considérablement les performances tout en simplifiant le système est particulièrement impressionnant, étant donné que de nombreux progrès récents dans l’apprentissage machine sont dus au fait que plus de données ou de processeurs ont été jetés à des problèmes. « Il montre que ce sont les nouveaux algorithmes qui comptent, et non la puissance de calcul ou les données « , a déclaré Silver à la BBC.

Il y a les mises en garde habituelles qui accompagnent les percées dans le domaine de l’IA, et en particulier le renforcement de l’apprentissage. Le programme a dû se jouer des millions de fois avant de devenir un champion du monde, beaucoup plus de jeux qu’un joueur de Go humain n’en aurait besoin pour atteindre le niveau d’expert. Ses réalisations sont également limitées au monde hautement ordonné du Go, qui est loin d’être à la hauteur des problèmes désordonnés et incertains qu’ une AI devra éventuellement résoudre dans la vie réelle.

Néanmoins, un ordinateur qui peut jouer à des millions de jeux en quelques jours apprend encore énormément plus vite qu’un être humain, ce qui ne devrait pas être considéré comme une limitation majeure. Et alors que la transition risque d’être lente et hésitante, les chercheurs de DeepMind travaillent déjà sur l’application de techniques similaires à celles qui sont au cœur d’AlphaGo Zero à des applications pratiques. Dans un billet de blog, DeepMind a dit que l’approche pourrait être prometteuse dans d’autres problèmes structurés comme le repliement des protéines, la réduction de la consommation d’énergie ou la conception des matériaux.

Mais le plus important, c’est que cette avancée est la plus puissante démonstration à ce jour que l’intelligence artificielle peut aller au-delà de l’intelligence humaine. Dans leur article, les chercheurs décrivent comment, lorsqu’ils ont essayé de former AlphaGo Zero sur les jeux humains, ils ont appris plus rapidement, mais en fait, cela a empiré à long terme. Laissée à elle-même, elle a non seulement découvert indépendamment des mouvements connus qui ont pris des millénaires pour que les humains se développent, mais elle en a créé de nouveaux qui redéfinissent maintenant la façon dont le Go est joué.

« Nous avons en fait éliminé les contraintes de la connaissance humaine et elle est donc capable de créer elle-même la connaissance à partir des premiers principes, à partir d’une liste blanche », a déclaré Silver à la BBC.

Ce qui fait réfléchir….

 

Découvrez DeepMind.

 

Publicités

1 commentaire sur “La nouvelle AI de DeepMind, AlphaGo, a appris à être la plus grand joueuse de Go au monde et a redéfini la façon d’y jouer”

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.