Un modèle informatique pourrait améliorer l’interaction homme-machine et donner un aperçu de la façon dont les enfants apprennent le langage.

Les chercheurs du MIT ont mis au point un « analyseur sémantique » qui apprend par l’observation pour mieux imiter le processus d’acquisition du langage d’un enfant, ce qui pourrait considérablement étendre les capacités de l’informatique.

Les enfants apprennent le langage en observant leur environnement, en écoutant les gens qui les entourent et en reliant les points entre ce qu’ils voient et entendent. Entre autres choses, cela aide les enfants à établir l’ordre des mots de leur langue, comme par exemple où les sujets et les verbes tombent dans une phrase.

En informatique, l’apprentissage du langage est la tâche des analyseurs syntaxiques et sémantiques. Ces systèmes sont formés sur des phrases annotées par des humains qui décrivent la structure et la signification des mots. Les analyseurs deviennent de plus en plus importants pour les recherches sur le Web, les requêtes dans les bases de données en langage naturel et les systèmes de reconnaissance vocale tels que Alexa et Siri. Bientôt, ils pourront également être utilisés pour la robotique domestique.

Mais la collecte des données d’annotation peut prendre beaucoup de temps et être difficile pour les langues moins courantes. De plus, les humains ne sont pas toujours d’accord sur les annotations, et les annotations elles-mêmes peuvent ne pas refléter exactement comment les gens parlent naturellement.

Dans un article présenté à la conférence Empirical Methods in Natural Language Processing de la semaine passée, les chercheurs du MIT décrivent un analyseur qui apprend par l’observation pour imiter plus étroitement le processus d’acquisition du langage d’un enfant, ce qui pourrait grandement améliorer ses capacités. Pour apprendre la structure du langage, l’analyseur observe les vidéos sous-titrées, sans autre information, et associe les mots aux objets et actions enregistrés. Avec une nouvelle phrase, l’analyseur peut alors utiliser ce qu’il a appris sur la structure du langage pour prédire avec précision le sens d’une phrase, sans la vidéo.

Cette approche « faiblement supervisée » – ce qui signifie qu’elle nécessite des données de formation limitées – imite la façon dont les enfants peuvent observer le monde qui les entoure et apprendre la langue, sans que personne ne fournisse de contexte direct. Selon les chercheurs, l’approche pourrait élargir les types de données et réduire l’effort nécessaire à la formation des analyseurs. Quelques phrases directement annotées, par exemple, pourraient être combinées avec de nombreuses vidéos sous-titrées, qui sont plus faciles à trouver, pour améliorer les performances.

À l’avenir, l’analyseur pourrait être utilisé pour améliorer l’interaction naturelle entre les humains et les robots personnels. Un robot équipé de l’analyseur, par exemple, pourrait constamment observer son environnement pour renforcer sa compréhension des commandes vocales, y compris lorsque les phrases prononcées ne sont pas entièrement grammaticales ou claires. « Les gens se parlent en phrases partielles, en pensées et en mots mélangés. Vous voulez un robot dans votre maison qui s’adaptera à leur façon particulière de parler …. et qui comprendra toujours ce qu’ils veulent dire « , dit le co-auteur Andrei Barbu, chercheur au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et au Center for Brains, Minds, and Machines (CBMM) du McGovern Institute, du MIT.

L’analyseur pourrait également aider les chercheurs à mieux comprendre comment les jeunes enfants apprennent le langage. « Un enfant a accès à des informations redondantes et complémentaires provenant de différentes modalités, y compris entendre ses parents et ses frères et sœurs parler du monde, ainsi qu’à des informations tactiles et visuelles [qui l’aident] à comprendre le monde « , explique Boris Katz, co-auteur et chercheur scientifique principal et responsable du groupe InfoLab au CSAIL. « C’est une énigme incroyable, de traiter toutes ces données sensorielles simultanées. Ce travail fait partie d’une plus grande pièce pour comprendre comment ce genre d’apprentissage se produit dans le monde. »

Les coauteurs de l’article sont : Candace Ross, première auteure, étudiante diplômée au Département de génie électrique et informatique et à la CSAIL, et chercheuse au CBMM ; Yevgeni Berzak, PhD’17, postdoctorante au Groupe de psycholinguistique informatique au Département des sciences du cerveau et cognitives ; et Battushig Myanganbayar, étudiante diplômée à la CSAIL.

Apprenant visuel

Pour leurs travaux, les chercheurs ont combiné un analyseur sémantique avec une composante de vision par ordinateur formée à la reconnaissance d’objets, d’humains et d’activités en vidéo. Les analyseurs sémantiques sont généralement formés sur des phrases annotées d’un code qui attribue un sens à chaque mot et aux relations entre les mots. Certains ont été formés sur des images fixes ou des simulations par ordinateur.

Le nouvel analyseur est le premier à être entraîné à l’aide de la vidéo, dit Ross. En partie, les vidéos sont plus utiles pour réduire l’ambiguïté. Si l’analyseur n’est pas sûr d’une action ou d’un objet dans une phrase, par exemple, il peut faire référence à la vidéo pour clarifier les choses. « Il y a des composantes temporelles – des objets qui interagissent les uns avec les autres et avec les gens – et des propriétés de haut niveau que vous ne verriez pas dans une image fixe ou simplement dans le langage « , dit Ross.

Les chercheurs ont compilé un ensemble de données d’environ 400 vidéos illustrant des personnes effectuant un certain nombre d’actions, y compris la prise ou la dépose d’un objet et la marche vers un objet. Les participants sur la plate-forme de crowdsourcing Mechanical Turk ont ensuite fourni 1 200 légendes pour ces vidéos. Ils ont mis de côté 840 exemples de sous-titrage vidéo pour la formation et le réglage, et utilisé 360 pour les tests. L’un des avantages de l’analyse basée sur la vision est que « vous n’avez pas besoin d’autant de données – bien que si vous aviez [les données], vous auriez pu mettre à l’échelle des ensembles de données énormes », explique M. Barbu.

En formation, les chercheurs ont donné à l’analyseur l’objectif de déterminer si une phrase décrit correctement une vidéo donnée. Ils ont fourni à l’analyseur une vidéo et la légende correspondante. L’analyseur extrait les significations possibles de la légende sous forme d’expressions mathématiques logiques. La phrase « La femme ramasse une pomme », par exemple, peut être exprimée comme suit : λxy. femme x, ramasser x y, pomme y.

Ces expressions et la vidéo sont entrées dans l’algorithme de vision par ordinateur, appelé « Sentence Tracker« , développé par Barbu et d’autres chercheurs. L’algorithme examine chaque image vidéo pour suivre comment les objets et les personnes se transforment au fil du temps, afin de déterminer si les actions se déroulent comme décrit. De cette façon, il détermine si la signification de la vidéo est probablement vraie.

Relier les points

L’expression qui correspond le mieux aux représentations d’objets, d’humains et d’actions devient le sens le plus probable de la légende. L’expression, au début, peut se référer à de nombreux objets et actions différents dans la vidéo, mais l’ensemble des significations possibles sert de signal d’apprentissage qui aide l’analyseur à évaluer continuellement les possibilités. « En supposant que toutes les phrases doivent suivre les mêmes règles, qu’elles proviennent toutes de la même langue et en voyant de nombreuses vidéos sous-titrées, vous pouvez affiner encore le sens des mots « , dit Barbu.

Bref, l’analyseur apprend par l’observation passive : Pour déterminer si une légende est vraie pour une vidéo, l’analyseur doit nécessairement identifier la signification la plus probable de la légende. « La seule façon de savoir si la phrase est vraie d’une vidéo [est] de passer par cette étape intermédiaire de « Que signifie la phrase ? Sinon, vous n’avez aucune idée de la façon de relier les deux « , explique M. Barbu. « Nous ne donnons pas au système le sens de la phrase. Nous disons :  » Il y a une phrase et une vidéo. La phrase doit être vraie pour la vidéo. « Trouve une représentation intermédiaire qui le rend vrai pour la vidéo. »

La formation produit une grammaire syntaxique et sémantique pour les mots appris. Avec une nouvelle phrase, l’analyseur n’a plus besoin de vidéos, mais utilise sa grammaire et son lexique pour déterminer la structure et le sens de la phrase.

En fin de compte, ce processus permet d’apprendre « comme si vous étiez un enfant », dit Barbu. « Vous voyez le monde autour de vous et entendez les gens parler pour apprendre un sens. Un jour, je peux te donner une phrase et te demander ce que ça veut dire et, même sans visuel, tu en connais le sens. »

« Cette recherche est exactement la bonne direction pour le traitement du langage naturel « , dit Stefanie Tellex, professeure d’informatique à l’Université Brown qui se concentre sur l’aide aux robots qui utilisent le langage naturel pour communiquer avec les humains. « Pour interpréter un langage fondé, nous avons besoin de représentations sémantiques, mais il n’est pas possible de les rendre disponibles au moment de la formation. Au lieu de cela, ce travail capture des représentations de la structure compositionnelle en utilisant le contexte de vidéos sous-titrées. C’est le journal que j’attendais ! »

Dans leurs travaux futurs, les chercheurs s’intéressent à la modélisation des interactions, pas seulement aux observations passives. « Les enfants interagissent avec l’environnement au fur et à mesure qu’ils apprennent. Notre idée est d’avoir un modèle qui utiliserait également la perception pour apprendre « , dit Ross.

Ces travaux ont été appuyés en partie par le CBMM, la National Science Foundation, la Ford Foundation Graduate Research Fellowship, le Toyota Research Institute et le MIT-IBM Brain-Inspired Multimedia Comprehension Project.

MIT Research

 

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.