Geoff Hinton, pionnier de l’IA : « L’apprentissage profond va permettre de tout faire »

Il y a trente ans, la croyance de Hinton dans les réseaux de neurones était à contre-courant. Aujourd’hui, il est difficile de trouver quelqu’un qui ne soit pas d’accord, dit-il, rapporte MITTechreview.

  • Sur les lacunes du domaine de l’IA : « Il va falloir faire pas mal de percées conceptuelles… nous avons aussi besoin d’une augmentation massive d’échelle. »
  • Sur les faiblesses des réseaux de neurones : « Les réseaux neuronaux sont étonnamment bons pour traiter une quantité de données assez faible, avec un nombre énorme de paramètres, mais les gens sont encore meilleurs. »
  • Sur le fonctionnement de nos cerveaux : « Ce qu’il y a à l’intérieur du cerveau, ce sont ces grands vecteurs d’activité neuronale. »

La révolution de l’IA moderne a commencé lors d’un obscur concours de recherche. C’était en 2012, la troisième année du concours annuel ImageNet, qui mettait au défi les équipes de construire des systèmes de vision par ordinateur qui reconnaîtraient 1 000 objets, des animaux aux paysages en passant par les personnes.

Au cours des deux premières années, les meilleures équipes n’avaient même pas réussi à atteindre une précision de 75 %. Mais au cours de la troisième année, une bande de trois chercheurs – un professeur et ses étudiants – a soudainement dépassé ce plafond. Ils ont remporté le concours avec une marge de 10,8 points de pourcentage, ce qui est stupéfiant. Ce professeur était Geoffrey Hinton, et la technique qu’ils ont utilisée s’appelait l’apprentissage profond.

Hinton travaillait en fait avec l’apprentissage profond depuis les années 1980, mais son efficacité avait été limitée par un manque de données et de puissance de calcul. Sa foi inébranlable dans cette technique a finalement porté ses fruits. La quatrième année du concours ImageNet, presque toutes les équipes utilisaient l’apprentissage profond et obtenaient des gains de précision miraculeux. Très vite, l’apprentissage profond a été appliqué à des tâches allant au-delà de la reconnaissance d’images, et ce dans un large éventail de secteurs d’activité également.

L’année dernière, pour ses contributions fondamentales dans ce domaine, M. Hinton a reçu le prix Turing, aux côtés d’autres pionniers de l’AI, Yann LeCun et Yoshua Bengio. Le 20 octobre, MITTechreview s’est entretenu avec lui lors de la conférence annuelle EmTech du MIT Technology Review sur l’état du domaine et sur la direction qu’il pense qu’il devrait prendre à l’avenir.

Le texte suivant a été édité et condensé pour plus de clarté.

Vous pensez qu’un apprentissage profond suffira pour reproduire toute l’intelligence humaine. Qu’est-ce qui vous rend si sûr ?

Je crois que l’apprentissage profond sera capable de tout faire, mais je pense qu’il faudra faire de nombreuses percées conceptuelles. Par exemple, en 2017, Ashish Vaswani et al. ont introduit les transformateurs, qui dérivent de très bons vecteurs représentant le sens des mots. C’était une percée conceptuelle. Il est maintenant utilisé dans presque tous les meilleurs traitements du langage naturel. Nous allons avoir besoin d’un tas d’autres percées de ce genre.

Et si nous avons ces percées, serons-nous en mesure d’approcher toute l’intelligence humaine grâce à un apprentissage approfondi ?

Oui. En particulier, les percées liées à la façon dont vous obtenez de grands vecteurs d’activité neuronale pour mettre en œuvre des choses comme la raison. Mais nous avons également besoin d’une augmentation massive de l’échelle. Le cerveau humain possède environ 100 billions de paramètres, ou synapses. Ce que nous appelons aujourd’hui un très grand modèle, comme le GPT-3, en compte 175 milliards. Il est mille fois plus petit que le cerveau. Le GPT-3 peut maintenant générer un texte d’apparence assez plausible, et il est encore minuscule par rapport au cerveau.

Quand vous parlez d’échelle, vous voulez dire de plus grands réseaux de neurones, plus de données, ou les deux ?

Les deux. Il y a une sorte de décalage entre ce qui se passe en informatique et ce qui se passe chez les gens. Les gens ont une quantité énorme de paramètres par rapport à la quantité de données qu’ils reçoivent. Les réseaux neuronaux sont étonnamment bons pour traiter une quantité de données assez faible, avec un nombre énorme de paramètres, mais les gens sont encore meilleurs.

Beaucoup de personnes sur le terrain pensent que le bon sens est la prochaine grande capacité à laquelle il faut s’attaquer. Êtes-vous d’accord ?

Je suis d’accord sur le fait que c’est l’une des choses les plus importantes. Je pense aussi que le contrôle moteur est très important, et les réseaux neuronaux profonds deviennent maintenant très performants dans ce domaine. En particulier, des travaux récents de Google ont montré que vous pouvez contrôler la motricité fine et la combiner avec le langage, de sorte que vous pouvez ouvrir un tiroir et sortir un bloc, et le système peut vous dire en langage naturel ce qu’il fait.

Pour des choses comme le GPT-3, qui génère ce merveilleux texte, il est clair qu’il doit comprendre beaucoup de choses pour générer ce texte, mais il n’est pas tout à fait clair de savoir à quel point il comprend. Mais si quelque chose ouvre le tiroir et en sort un bloc et dit : « Je viens d’ouvrir un tiroir et d’en sortir un bloc », il est difficile de dire qu’il ne comprend pas ce qu’il fait.

Le domaine de l’IA a toujours considéré le cerveau humain comme sa plus grande source d’inspiration, et différentes approches de l’IA ont découlé de différentes théories en science cognitive. Croyez-vous que le cerveau construit réellement des représentations du monde extérieur pour le comprendre, ou est-ce simplement une façon utile d’y penser ?

Il y a longtemps, en science cognitive, il y a eu un débat entre deux écoles de pensée. L’une était dirigée par Stephen Kosslyn, et il croyait que lorsque vous manipulez des images visuelles dans votre esprit, ce que vous avez est un ensemble de pixels et vous les déplacez. L’autre école de pensée était plus en accord avec l’IA conventionnelle. Elle disait : « Non, non, c’est absurde. C’est une description hiérarchique et structurelle. Vous avez une structure symbolique dans votre esprit, et c’est ce que vous manipulez. »

Je pense qu’ils faisaient tous les deux la même erreur. Kosslyn pensait que nous manipulions les pixels parce que les images externes sont faites de pixels, et c’est une représentation que nous comprenons. Les gens du symbole pensaient que nous manipulions les symboles parce que nous représentons aussi des choses dans des symboles, et c’est une représentation que nous comprenons. Je pense que c’est tout aussi faux. Ce qui se trouve à l’intérieur du cerveau, ce sont ces grands vecteurs d’activité neuronale.
Certaines personnes croient encore que la représentation symbolique est l’une des approches de l’IA.

Absolument. J’ai de bons amis comme Hector Levesque, qui croit vraiment à l’approche symbolique et qui a fait un travail formidable dans ce domaine. Je ne suis pas d’accord avec lui, mais l’approche symbolique est une chose parfaitement raisonnable à essayer. Mais je pense qu’au final, nous nous rendrons compte que les symboles existent simplement dans le monde extérieur, et que nous faisons des opérations internes sur de grands vecteurs.

Quelle est, selon vous, votre vision la plus contradictoire de l’avenir de l’IA ?

Eh bien, mon problème est que j’ai ces opinions contraires et que cinq ans plus tard, elles sont devenues courantes. La plupart de mes opinions contraires des années 1980 sont maintenant largement acceptées. Il est assez difficile aujourd’hui de trouver des gens qui ne sont pas d’accord avec elles. Alors oui, j’ai été en quelque sorte sapé dans mes opinions contraires.

Via MITTechreview

 

 

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.