Un algorithme qui apprend par les récompenses peut montrer comment notre cerveau fait aussi

En optimisant les algorithmes d’apprentissage par renforcement, DeepMind a découvert de nouveaux détails sur la façon dont la dopamine aide le cerveau à apprendre.

En 1951, Marvin Minsky, alors étudiant à Harvard, a emprunté des observations du comportement animal pour tenter de concevoir une machine intelligente. En s’inspirant des travaux du physiologiste Ivan Pavlov, qui a utilisé des chiens pour montrer comment les animaux apprennent par le biais de punitions et de récompenses, Minsky a créé un ordinateur qui pouvait apprendre en continu grâce à un renforcement similaire pour résoudre un labyrinthe virtuel.

À l’époque, les neuroscientifiques n’avaient pas encore compris les mécanismes du cerveau qui permettent aux animaux d’apprendre de cette façon. Mais Minsky était encore capable d’imiter vaguement ce comportement, faisant ainsi progresser l’intelligence artificielle. Plusieurs décennies plus tard, alors que l’apprentissage par renforcement continuait de mûrir, il a à son tour aidé le domaine des neurosciences à découvrir ces mécanismes, alimentant ainsi un cercle vertueux d’avancement entre les deux domaines.

Dans un article publié dans Nature, DeepMind, la filiale d’Alphabet spécialisée dans l’intelligence artificielle, a une fois de plus utilisé les leçons tirées de l’apprentissage par renforcement pour proposer une nouvelle théorie sur les mécanismes de récompense dans notre cerveau. L’hypothèse, appuyée par les premiers résultats expérimentaux, pourrait non seulement améliorer notre compréhension de la santé mentale et de la motivation. Elle pourrait également valider l’orientation actuelle de la recherche en IA vers la construction d’une intelligence générale plus proche de celle de l’homme.

A un niveau élevé, l’apprentissage du renforcement suit la vision des chiens de Pavlov : il est possible d’apprendre à un agent à maîtriser des tâches complexes et nouvelles en ne lui donnant que des réactions positives et négatives. Un algorithme commence l’apprentissage d’une tâche assignée en prédisant au hasard quelle action pourrait lui valoir une récompense. Il prend ensuite l’action, observe la récompense réelle et ajuste sa prédiction en fonction de la marge d’erreur. Sur des millions ou même des milliards d’essais, les erreurs de prédiction de l’algorithme convergent vers zéro, et il sait alors précisément quelles actions prendre pour maximiser sa récompense et ainsi accomplir sa tâche.

Il s’avère que le système de récompense du cerveau fonctionne à peu près de la même façon – une découverte faite dans les années 1990, inspirée par les algorithmes d’apprentissage par renforcement. Lorsqu’un humain ou un animal est sur le point d’accomplir une action, ses neurones dopaminergiques font une prédiction sur la récompense attendue. Une fois la récompense reçue, ils envoient une quantité de dopamine qui correspond à l’erreur de prédiction. Une meilleure récompense que prévue déclenche une forte libération de dopamine, tandis qu’une récompense pire que prévue supprime la production du produit chimique. La dopamine, en d’autres termes, sert de signal de correction, indiquant aux neurones d’ajuster leurs prédictions jusqu’à ce qu’elles convergent vers la réalité. Le phénomène, connu sous le nom d’erreur de prédiction de récompense, fonctionne comme un algorithme d’apprentissage de renforcement.

Le nouvel article de DeepMind s’appuie sur le lien étroit entre ces mécanismes d’apprentissage naturels et artificiels. En 2017, ses chercheurs ont introduit un algorithme d’apprentissage par renforcement amélioré qui a depuis permis d’obtenir des résultats de plus en plus impressionnants pour diverses tâches. Ils croient maintenant que cette nouvelle méthode pourrait offrir une explication encore plus précise du fonctionnement des neurones dopaminergiques dans le cerveau.

Plus précisément, l’algorithme amélioré modifie la façon dont il prédit les récompenses. Alors que l’ancienne approche estimait les récompenses sous forme d’un seul chiffre – c’est-à-dire égal au résultat moyen attendu – la nouvelle approche les représente plus précisément sous forme d’une distribution. (Pensez un instant à une machine à sous : vous pouvez soit gagner, soit perdre en suivant une certaine distribution. Mais en aucun cas vous ne recevrez le résultat moyen attendu).

La modification se prête à une nouvelle hypothèse : Les neurones de la dopamine prévoient-ils aussi les récompenses de la même façon distributive ?

Pour tester cette théorie, DeepMind s’est associé à un groupe de Harvard pour observer le comportement des neurones dopaminergiques chez la souris. Ils ont demandé aux souris d’accomplir une tâche et les ont récompensées en fonction du lancement des dés, en mesurant les schémas d’allumage de leurs neurones dopaminergiques tout au long de la tâche. Ils ont découvert que chaque neurone libérait des quantités différentes de dopamine, ce qui signifie qu’ils avaient tous prédit des résultats différents. Alors que certains étaient trop  » optimistes « , prédisant des récompenses plus élevées que celles réellement reçues, d’autres étaient plus  » pessimistes « , minimisant la réalité. Lorsque les chercheurs ont établi la répartition de ces prédictions, celle-ci a suivi de près la répartition des récompenses réelles. Ces données offrent des preuves convaincantes que le cerveau utilise effectivement les prédictions de distribution des récompenses pour renforcer son algorithme d’apprentissage.

 » C’est une belle extension de la notion de codage de la dopamine de l’erreur de prédiction de récompense « , a écrit dans un courriel Wolfram Schultz, un pionnier du comportement des neurones dopaminergiques qui n’a pas participé à l’étude. « Il est étonnant de voir comment cette très simple réponse à la dopamine suit de façon prévisible les schémas intuitifs des processus d’apprentissage biologique de base qui deviennent maintenant une composante de l’IA. »

L’étude a des implications à la fois pour l’IA et les neurosciences. Tout d’abord, elle valide l’apprentissage du renforcement distributionnel comme une voie prometteuse vers des capacités d’IA plus avancées.  » Si le cerveau l’utilise, c’est probablement une bonne idée « , a déclaré Matt Botvinick, directeur de la recherche en neurosciences de DeepMind et l’un des principaux auteurs de l’article, lors d’un point de presse.  » Il nous dit que c’est une technique de calcul qui peut être mise à l’échelle dans des situations réelles. Il va bien s’intégrer avec d’autres processus de calcul. »

Deuxièmement, il pourrait offrir une mise à jour importante de l’une des théories canoniques en neuroscience sur les systèmes de récompense dans le cerveau, ce qui pourrait à son tour améliorer notre compréhension de tout, de la motivation à la santé mentale. Que pourrait signifier, par exemple, le fait d’avoir des neurones dopaminergiques  » pessimistes  » et  » optimistes  » ? Si le cerveau n’écoutait sélectivement que l’un ou l’autre, cela pourrait-il entraîner des déséquilibres chimiques et provoquer une dépression ?

Fondamentalement, en poursuivant le décodage des processus dans le cerveau, les résultats mettent également en lumière ce qui crée l’intelligence humaine.  » Cela nous donne une nouvelle perspective sur ce qui se passe dans notre cerveau au cours de la vie quotidienne « , a dit M. Botvinick.

Via Techreview

 

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.