Cette AI génère des images d’aliments simplement en lisant la recette

Elle trouve les pâtes, les riz et les soupes, mais fait ressembler les hamburgers à des « hamberders »…

On se fout une peu de l’IA qui fait paraître les faux humains réels, apprend toutes les langues sur terre, et prédit les crimes – l’IA réussira vraiment que lorsqu’elle sera capable de générer toute seule une chaîne Instagram de foodporn, en lisant des recettes qui lui disent comment faire à manger dans le monde réel.

Jusqu’à présent, l’intelligence artificielle texte-à-image produisait des images synthétiques en regardant des phrases visuellement descriptives comme « cette fleur rose et jaune a un beau centre jaune avec beaucoup d’étamines »; ou « un petit oiseau à œil noir, tête noire, et bec foncé »;. Microsoft dispose d’une telle technologie qui est si douée qu’elle pourrait théoriquement remplacer les résultats de Google Images par des contrefaçons photoréalistes.

UN DÉVELOPPEMENT IMPORTANT DANS L’AI
Mais les nouveaux algorithmes d’IA développés par les informaticiens Ori Bar El, Ori Licht, Netanel Yosephian de l’Université de Tel Aviv ne vous obligent pas à décrire visuellement quoi que ce soit : ils peuvent générer de fausses photos d’aliments à partir de recettes texte qui énumèrent les ingrédients et la méthode de préparation mais ne contiennent aucune description visuelle de l’assiette finale. L’IA n’était pas autorisée à lire le titre de la recette pour générer l’image, car elle peut être suffisamment descriptive à elle seule. Elle a utilisé exclusivement les ingrédients et le mode d’emploi.

Il s’agit d’un test important pour la puissance de l’IA, comme le suggère l’article publié sur le site Arxiv. org de l’Université Cornell. Cela montre une capacité d’abstraction que nous avons supposé que les ordinateurs n’ont pas.

COMMENT ÇA MARCHE
La méthode s’appuie sur des réseaux contradictoires génératifs empilés (GANs). La première IA de ce réseau analyse une recette, des ingrédients aux finitions, en convertissant le texte en vecteurs numériques. Les scientifiques appellent ce processus « incorporation de texte » (text embedding), et il est conçu pour comprendre ce qu’il y a sur la page par cartographie sémantique avec d’autres éléments de contenu.

Le second est un GAN qui analyse ces vecteurs et les compare à d’autres descriptions de plus de 50 000 photos d’aliments dans le monde réel. Après ce processus d’apprentissage, l’IA génère des photos synthétiques à partir de nouvelles recettes. Certes, il fait un meilleur travail dans les soupes, les riz et les enchiladas que d’autres sujets comme les rôtis du dimanche ou les hamburgers, car ces derniers ont des formes plus précises. Mais les scientifiques expliquent que c’est seulement parce qu’ils ont utilisé des photos basse résolution avec un faible éclairage pour la formation.

Quoi qu’il en soit, il s’agit d’une première dans le domaine de l’intelligence artificielle, et cela changera sans aucun doute la façon dont nous créons et traitons l’imagerie. Sans même avoir à être visuellement descriptive, l’intelligence artificielle pourra éventuellement analyser n’importe quel texte et créer des images synthétiques à partir de celui-ci. Préparez-vous pour les fausses vidéos pornographiques dérivées de descriptions de parties du corps et de listes de fétichisme.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.