Percevoir des actions dynamiques pourrait être une énorme avancée dans la façon dont le logiciel donne un sens au monde.

Pour un ordinateur, reconnaître un chat ou un canard dans une image fixe est assez intelligent. Mais un test plus rigoureux pour l’intelligence artificielle sera la compréhension lorsque le chat monte sur un Roomba et court après un canard dans la cuisine.

Le MIT et IBM a publié cette semaine un vaste ensemble de données de clips vidéo minutieusement annotés avec des détails de l’action menée. L’ensemble de données de Moments in Time comprend des extraits de trois secondes de tout, de la pêche au break-dance.

« Beaucoup de choses dans le monde changent d’une seconde à l’autre « , déclare Aude Oliva, une des principales chercheuses du MIT et l’une des personnes à l’origine du projet. « Si vous voulez comprendre pourquoi quelque chose se passe, le mouvement vous donne beaucoup d’informations que vous ne pouvez pas capturer dans une seule image. »

Le boom actuel de l’intelligence artificielle a été déclenché, en partie, par le succès de l’enseignement des ordinateurs à reconnaître le contenu des images statiques en formant des réseaux neuronaux profonds sur de grands ensembles de données étiquetés.

//player.ooyala.com/static/v4/candidate/latest/skin-plugin/iframe.html?ec=B5cTlrZDE6HL-BNOhUZHFGXLleVDjvIw&pbid=5ad1946db28d45cdb4325c91c7751266&pcode=FvbGkyOtJVFD33j_Rd0xPLSo0Jiv

Les systèmes d’IA qui interprètent la vidéo aujourd’hui, y compris les systèmes que l’on trouve dans certaines voitures autonomes, reposent souvent sur l’identification d’objets dans des cadres statiques plutôt que sur l’interprétation d’actions. Lundi, Google a lancé un outil capable de reconnaître les objets en vidéo dans le cadre de sa plate-forme Cloud Platform, un service qui comprend déjà des outils d’intelligence artificielle pour le traitement des images, de l’audio et du texte.

Le prochain défi peut être d’enseigner aux machines de comprendre non seulement ce qu’une vidéo contient, mais aussi ce qui se passe dans la séquence. Cela pourrait avoir des avantages pratiques, ce qui pourrait mener à de nouvelles façons puissantes de chercher, d’annoter et d’extraire des séquences vidéo. Il s’agit également de donner aux robots ou aux voitures autonomes une meilleure compréhension de l’évolution du monde qui les entoure.

Le projet MIT-IBM n’est en fait qu’un des nombreux ensembles de données vidéo conçus pour faire progresser les machines d’entraînement à la compréhension des actions dans le monde physique. L’année dernière, par exemple, Google a publié un ensemble de 8 millions de vidéos YouTube appelé YouTube-8M. Facebook est en train d’élaborer un ensemble de données annotées sur les actions vidéo intitulé Scènes, Actions et Objets.

Olga Russakovsky, professeure adjointe à l’Université de Princeton, qui se spécialise dans la vision par ordinateur, affirme qu’il s’est avéré difficile de développer des ensembles de données vidéo utiles parce qu’ils nécessitent plus de stockage et de puissance de calcul que les images fixes. « Je suis excitée de jouer avec ces nouvelles données, dit-elle. « Je pense que la durée de trois secondes est excellente – elle fournit un contexte temporel tout en maintenant les exigences de stockage et de calcul à un niveau bas. »

Twenty Billion Neurons, une startup basée à Toronto et à Berlin, ont créé un ensemble de données sur mesure en payant des travailleurs pour accomplir des tâches simples. L’un des cofondateurs de la société, Roland Memisevic, affirme qu’il utilise également un réseau neuronal conçu spécifiquement pour traiter les informations de vision temporelle.

« Les réseaux formés sur les autres jeux de données peuvent vous dire si la vidéo montre un match de football ou une fête », dit-il. « Nos réseaux peuvent vous dire si quelqu’un est entré dans la pièce. »

Danny Gutfreund, un chercheur d’IBM qui a collaboré au projet, affirme que la reconnaissance efficace des actions exigera que les machines apprennent à connaître, par exemple, une personne qui entreprend une action et transfèrent ces connaissances à un cas où, par exemple, un animal exécute la même action. Les progrès dans ce domaine, connu sous le nom de transfert d’apprentissage, seront importants pour l’avenir de l’IA. « Voyons comment les machines peuvent transférer cet apprentissage, cette analogie, que nous faisons très bien « , dit-il.

M. Gutfreund ajoute que cette technologie pourrait avoir des applications pratiques. »Vous pourriez l’utiliser pour les soins aux personnes âgées, en disant si quelqu’un est tombé ou s’il a pris ses médicaments », dit-il. « Vous pouvez penser à des appareils qui aident les aveugles. »

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.