Dans le cadre d’une enquête sur la nature des intuitions physiques humaines, les chercheurs du MIT ont formé un réseau de neurones pour prédire comment les blocs instables réagiraient à la force de gravité.

Josh Tenenbaum, professeur de sciences cognitives et du cerveau au MIT, dirige la recherche sur le développement de l’intelligence au Centre for Brains, Minds, and Machines, un projet multidisciplinaire et multiuniversitaire basé au MIT qui cherche à expliquer et à reproduire l’intelligence humaine.

Tenenbaum et l’un de ses étudiants, Jiajun Wu, qui présentent leurs travaux à la conférence de cette année sur les systèmes de traitement de l’information neuronale, sont coauteurs de quatre articles qui examinent les capacités cognitives fondamentales dont un agent intelligent a besoin pour naviguer dans le monde: discerner des objets distincts et inférer comment ils réagissent aux forces physiques.

En construisant des systèmes informatiques qui commencent à se rapprocher de ces capacités, les chercheurs croient qu’ils peuvent aider à répondre aux questions sur les ressources informatiques que les êtres humains utilisent à quelles étapes du développement. En cours de recherche, les chercheurs pourraient également générer des aperçus utiles pour les systèmes de vision robotique.

« Le thème commun ici est d’apprendre à percevoir la physique « , dit Tenenbaum. Cela commence par la vue des formes 3D complètes des objets, et des objets multiples dans une scène, avec leurs propriétés physiques, comme la masse et le frottement, puis le raisonnement sur la façon dont ces objets vont se déplacer dans le temps. Les quatre articles de Jiajun traitent de tout cet espace. « Ensemble, nous commençons à être capables de construire des machines qui captent de plus en plus la compréhension élémentaire du monde physique. »

Trois des articles traitent de l’inférence d’informations sur la structure physique des objets, à partir de données visuelles et sonores. Le quatrième concerne la prédiction du comportement des objets sur la base de ces données.

Voie à double sens

Quelque chose d’autre qui unit les quatre articles est leur approche inhabituelle de l’apprentissage machine, une technique dans laquelle les ordinateurs apprennent à exécuter des tâches informatiques en analysant d’énormes ensembles de données de formation. Dans un système typique d’apprentissage machine, les données de formation sont marquées: les analystes humains auront, par exemple, identifié les objets dans une scène visuelle ou transcrit les mots d’une phrase parlée. Le système tente d’apprendre quelles caractéristiques des données sont en corrélation avec quelles étiquettes, et il est jugé sur la façon dont il étiquette les données encore non vues.

Dans les nouveaux papiers de Wu et Tenenbaum, le système est entraîné à déduire un modèle physique du monde – les formes tridimensionnelles d’objets qui sont le plus souvent cachés de la vue, par exemple. Mais il travaille ensuite en arrière, en utilisant le modèle pour resynthétiser les données d’entrée, et son rendement est jugé sur la mesure dans laquelle les données reconstruites correspondent aux données d’origine.

Par exemple, l’utilisation d’images visuelles pour construire un modèle tridimensionnel d’un objet dans une scène nécessite de dépouiller tous les objets occlusifs, de filtrer les textures visuelles confondantes, les reflets et les ombres et de déduire la forme des surfaces invisibles. Une fois que le système de Wu et Tenenbaum a construit un tel modèle, il le fait pivoter dans l’espace et y ajoute des textures visuelles jusqu’ à ce qu’il puisse estimer les données d’entrée.

En effet, deux des quatre articles des chercheurs abordent le problème complexe d’inférer des modèles 3D à partir de données visuelles. Quatre autres chercheurs du MIT, dont William Freeman, professeur Perkins de génie électrique et d’informatique, ainsi que des collègues de DeepMind, de l’Université de ShanghaiTech et de la Shanghai Jiao Tong University, se sont joints à eux.

Diviser et conquérir

Le système des chercheurs est basé sur les théories influentes du neuroscientifique du MIT, David Marr, décédé en 1980 à l’âge tragique de 35 ans. Marr a émis l’hypothèse qu’en interprétant une scène visuelle, le cerveau crée d’abord ce qu’il appelle une esquisse en 2,5-D des objets qu’elle contient – une représentation des surfaces des objets qui font face au spectateur. Ensuite, sur la base de l’esquisse en 2,5-D – et non des informations visuelles brutes sur la scène – le cerveau déduit les formes tridimensionnelles complètes des objets.

« Les deux problèmes sont très difficiles, mais il y a une bonne façon de les démêler « , dit Wu. « Tu peux les faire un à la fois, donc tu n’as pas à faire face aux deux en même temps, ce qui est encore plus dur. »

Wu et le système de ses collègues doivent être formés sur les données qui comprennent à la fois des images visuelles et des modèles 3D des objets représentés par les images. La construction de modèles 3D précis des objets représentés dans des photographies réelles prendrait beaucoup trop de temps, donc les chercheurs forment d’abord leur système à l’aide de données synthétiques, dans lesquelles l’image visuelle est générée à partir du modèle 3D, et non l’inverse. Le processus de création des données est semblable à celui d’un film d’animation par ordinateur.

Cependant, une fois que le système a été formé sur les données synthétiques, il peut être affiné à l’aide de données réelles. En effet, son critère de performance ultime est la précision avec laquelle il reconstruit les données d’entrée. Il construit encore des modèles 3D, mais il n’est pas nécessaire de les comparer à des modèles construits par l’homme pour évaluer le rendement.

Dans l’évaluation de leur système, les chercheurs ont utilisé une mesure appelée intersection au-dessus de l’union, qui est courante dans le domaine. Sur cette mesure, leur système surpasse ses prédécesseurs. Mais un score donné d’intersection sur union laisse beaucoup de place aux variations locales dans la fluidité et la forme d’un modèle 3D. Wu et ses collègues ont donc également mené une étude qualitative de la fidélité des modèles aux images sources. Parmi les participants à l’étude, 74 % préféraient les reconstructions du nouveau système à celles de ses prédécesseurs.

Toute cette chute

Dans un autre des articles de Wu et Tenenbaum, sur lesquels Freeman et des chercheurs du MIT, de l’Université de Cambridge et de l’Université de ShanghaiTech se sont joints à nouveau à eux, ils forment un système pour analyser les enregistrements audio d’un objet en train de tomber, pour en déduire des propriétés telles que la forme de l’objet, sa composition et la hauteur à partir de laquelle il est tombé. Encore une fois, le système est formé pour produire une représentation abstraite de l’objet, qu’il utilise à son tour pour synthétiser le son que l’objet produirait s’il tombait d’une certaine hauteur. La performance du système est évaluée sur la similitude entre le son synthétisé et le son source.

Enfin, dans leur quatrième article, Wu, Tenenbaum, Freeman et ses collègues de DeepMind et Oxford University décrivent un système qui commence à modéliser la compréhension intuitive des forces physiques agissant sur les objets dans le monde. Le présent document reprend là où les documents précédents s’arrêtent: il suppose que le système a déjà déduit les formes 3D des objets.

Ces formes sont simples: balles et cubes. Les chercheurs ont formé leur système pour accomplir deux tâches. La première consiste à estimer la vitesse des boules qui se déplacent sur une table de billard et, sur cette base, à prédire comment elles se comporteront après une collision. La seconde consiste à analyser une image statique de cubes empilés et à déterminer s’ils tomberont et, si c’est le cas, où les cubes vont atterrir.

Wu a développé un langage de représentation qu’il appelle scène XML qui peut quantitativement caractériser la position relative des objets dans une scène visuelle. Le système apprend d’abord à décrire les données d’entrée dans cette langue. Il alimente ensuite cette description en un moteur appelé moteur physique, qui modélise les forces physiques agissant sur les objets représentés. Les moteurs de physique sont un élément essentiel de l’animation informatique, où ils génèrent le mouvement de vêtements, d’objets tombants, etc., et de l’informatique scientifique, où ils sont utilisés pour des simulations physiques à grande échelle.

Une fois que le moteur physique a prédit les mouvements des boules et des boîtes, cette information est transmise à un moteur graphique dont la sortie est, encore une fois, comparée aux images sources. Comme dans le cas des travaux sur la discrimination visuelle, les chercheurs forment leur système aux données synthétiques avant de l’affiner avec des données réelles.

Lors des essais, le système des chercheurs a encore une fois surpassé ses prédécesseurs. En fait, dans certains tests impliquant des boules de billard, il a souvent surperformé les observateurs humains.

« La clé de leur travail est d’utiliser des outils physiques avancés – un moteur de rendu, un moteur de simulation, des modèles entraînés, parfois – pour former des modèles génératifs », explique Joseph Lim, professeur adjoint d’informatique à l’Université de Californie du Sud. « Cette idée simple mais élégante, combinée aux techniques d’apprentissage en profondeur les plus récentes, a donné d’excellents résultats sur de multiples tâches liées à l’interprétation du monde physique. »

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.