Le MIT et les chercheurs de Google ont créé AI qui peut relier le son, la vue et le texte pour comprendre le monde

Si nous voulons que les futurs robots fassent notre boulot, ils devront comprendre le monde qui les entoure d’une manière complète: si un robot entend un bruit d’aboiement, qu’est-ce qui se passe ? À quoi ressemble un chien et de quoi les chiens ont-ils besoin ?

La recherche en AI a généralement traité la capacité de reconnaître les images, à identifier les bruits et à comprendre le texte comme trois problèmes différents, et a créé des algorithmes adaptés à chaque tâche. Imaginez si vous ne pouviez utiliser qu’un seul sens à la fois, et que vous ne pouviez pas faire correspondre tout ce que vous avez entendu à ce que vous avez vu. C’est l’AI aujourd’hui, et une partie de la raison pour laquelle nous sommes si loin de créer un algorithme qui peut apprendre comme un humain. Mais deux nouveaux articles de MIT et Google expliquent les premières étapes pour faire comprendre l’AI, entendre et lire de manière holistique – une approche qui pourrait aider à apprendre comment enseignons nos machines au sujet du monde.

« Peu importe si vous voyez une voiture ou entendez un moteur, vous reconnaissez instantanément le même concept. L’information dans notre cerveau est alignée naturellement « , explique Yusuf Aytar, dans une recherche en AI post-doctorale au MIT qui est co-auteur du document.

Ce mot qu’Aytar utilise -aligné- est l’idée clé ici. Les chercheurs n’enseignent pas au algorithmes du nouveau, ils créent un moyen pour eux de lier ou d’aligner des connaissances d’un sens à l’autre. Aytar offre l’exemple d’une voiture d’auto-conduite qui entend une ambulance avant de la voir. La connaissance de ce qui ressemble à une ambulance à l’ouïe, et sa fonction pourrait permettre à la voiture de se préparer à voir d’autres voitures autour d’elle pour ralentir, et sortir de la voie.

Pour former ce système, le groupe du MIT a d’abord montré les images vidéo du réseau neuronal associées à l’audio. Une fois que le réseau a trouvé les objets dans la vidéo et les sons dans l’audio, il a essayé de prédire à quoi les objets corrélés ressemble. À quel point, par exemple, les ondes font-elles un son ?

Ensuite, l’équipe a alimenté des images avec des légendes montrant des situations similaires dans le même algorithme, afin d’associer les mots aux objets et aux actions représentés. Même idée: d’abord, le réseau identifiait séparément tous les objets qu’il pouvait trouver dans les images et les mots pertinents, puis faisait correspondre.

Le réseau pourrait ne pas sembler incroyablement impressionnant à partir de cette description. Après tout, nous avons une AI qui peut faire ces choses séparément. Mais lorsqu’il a été formé sur des images / images, le système a pu combiner l’audio au texte lorsqu’il n’a jamais été formé pour savoir quels mots correspondent à différents sons. Les chercheurs affirment que le réseau avait construit une idée plus objective de ce qu’il voyait, entendait ou lisait, qui ne comptait pas entièrement sur le support utilisé pour apprendre l’information.

Un algorithme qui peut aligner son idée d’un objet à travers la vue, par le le son et le texte peut automatiquement transférer ce qu’il a appris de ce qu’il entend à ce qu’il voit. Aytar offre les exemples que, si l’algorithme entend un cri de zèbre, il suppose qu’un zèbre est similaire à celui d’un cheval.

« Il sait que [le zèbre] est un animal, il sait qu’il génère ce type de sons et, de façon intrinsèque, il transfère cette information à travers les modalités », dit Aytar. Ces types d’hypothèses permettent à l’algorithme de créer de nouvelles connexions entre les idées, de renforcer sa compréhension du monde.

Le modèle de Google se comporte de la même façon, sauf s’il est possible de traduire le texte. Google a refusé d’informer un chercheur pour en savoir plus sur la façon dont son réseau fonctionnait. Cependant, l’algorithme a été mis à disposition en ligne pour d’autres chercheurs.

Aucune de ces techniques de Google ou MIT n’a mieux réussi que les algorithmes à usage unique, mais Aytar dit que ce ne sera pas le cas pour longtemps.

« Si vous avez plus de sens, vous avez plus de précision », a-t-il déclaré.

 

Quartz

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s