DALL-E : Créer

« Nous avons formé un réseau de neurones appelé DALL-E qui crée des images à partir de légendes de texte pour un large éventail de concepts exprimables en langage naturel » présente Open-AI.

DALL-E [1 : « Nous avons décidé de nommer notre modèle en utilisant un portemanteau de l’artiste Salvador Dalí et le WALL-E de Pixar »] est une version de GPT-3 avec 12 milliards de paramètres, formée pour générer des images à partir de descriptions textuelles, en utilisant un ensemble de données de paires texte-image.Ils ont découvert qu’il possède un ensemble de capacités diverses, notamment la création de versions anthropomorphes d’animaux et d’objets, la combinaison de concepts sans rapport entre eux de manière plausible, le rendu de texte et l’application de transformations à des images existantes.

Invitation textuelle


une illustration d’un bébé radis daikon dans un tutu qui promène un chien
Images générées par l’IA

un fauteuil en forme d’avocat (…)
Images générées par l’IA

une vitrine de magasin sur laquelle est écrit le mot « openai » […]
Images générées par l’IA

le même chat en haut qu’un dessin en bas
Images générées par l’IA

Le GPT-3 a montré que le langage peut être utilisé pour ordonner à un grand réseau de neurones d’effectuer diverses tâches de génération de texte. L’image GPT a montré que le même type de réseau neuronal peut également être utilisé pour générer des images de haute fidélité. Ils étendent ces résultats pour montrer que la manipulation de concepts visuels par le langage est désormais à portée de main.

Vue d’ensemble

Comme le GPT-3, DALL-E est un modèle de langage de transformateur. Il reçoit à la fois le texte et l’image sous la forme d’un flux de données unique contenant jusqu’à 1280 jetons, et est entraîné en utilisant le maximum de probabilité pour générer tous les jetons, les uns après les autres.

Cette procédure de formation permet à DALL-E non seulement de générer une image à partir de zéro, mais aussi de régénérer toute région rectangulaire d’une image existante qui s’étend jusqu’au coin inférieur droit, d’une manière qui est cohérente avec l’invite du texte.

Ils reconnaissent que les travaux impliquant des modèles générateurs peuvent avoir des répercussions importantes et étendues sur la société. À l’avenir, ils prévoient d’analyser la manière dont des modèles comme DALL-E sont liés à des questions sociétales telles que l’impact économique sur certains processus de travail et certaines professions, le risque de biais dans les résultats des modèles et les défis éthiques à plus long terme qu’implique cette technologie.

Capacités

Ils constatent que DALL-E est capable de créer des images plausibles pour une grande variété de phrases qui explorent la structure compositionnelle du langage. Ils illustrent cela à l’aide d’une série de visuels interactifs dans la section suivante. Les échantillons présentés pour chaque légende dans les visuels sont obtenus en prenant les 32 premiers sur 512 après avoir été reclassés avec CLIP, mais nous n’utilisons pas de sélection manuelle, à l’exception des vignettes et des images autonomes qui apparaissent à l’extérieur.

Contrôler les attributs

Ils testent la capacité de DALL-E à modifier plusieurs des attributs d’un objet, ainsi que le nombre de fois qu’il apparaît.

Dessiner des objets multiples

Le contrôle simultané de plusieurs objets, de leurs attributs et de leurs relations spatiales représente un nouveau défi. Prenons par exemple l’expression « un hérisson portant un chapeau rouge, des gants jaunes, une chemise bleue et un pantalon vert ». Pour interpréter correctement cette phrase, DALL-E doit non seulement composer correctement chaque vêtement avec l’animal, mais aussi former les associations (chapeau, rouge), (gants, jaune), (chemise, bleu), et (pantalon, vert) sans les mélanger [« Cette tâche est appelée « liaison variable » et a été largement étudiée dans la littérature.17181920
Nous testons la capacité de DALL-E à le faire pour le positionnement relatif, l’empilage des objets et le contrôle des attributs multiples. »]

Bien que DALL-E offre un certain niveau de contrôle sur les attributs et les positions d’un petit nombre d’objets, le taux de réussite peut dépendre de la façon dont la légende est formulée. À mesure que de nouveaux objets sont introduits, DALL-E a tendance à confondre les associations entre les objets et leurs couleurs, et le taux de réussite diminue fortement. Ils notent également que DALL-E est fragile en ce qui concerne la reformulation de la légende dans ces scénarios : les légendes alternatives, sémantiquement équivalentes, ne donnent souvent pas d’interprétations correctes.

Visualisation de la perspective et de la tridimensionnalité

Ils constatent que DALL-E permet également de contrôler le point de vue d’une scène et le style 3D dans lequel une scène est rendue.

Pour aller plus loin, ils testent la capacité de DALL-E à dessiner de manière répétée la tête d’une figure bien connue à chaque angle d’une séquence d’angles équidistants, et nous constatons que nous pouvons récupérer une animation fluide de la tête en rotation.

DALL-E semble pouvoir appliquer certains types de distorsions optiques aux scènes, comme nous le voyons avec les options « vue d’un objectif fisheye » et « panorama sphérique ». Cela nous a motivés à explorer sa capacité à générer des réflexions.


Visualisation de la structure interne et externe

Les échantillons de la « vue rapprochée extrême » et du style « rayon X » les ont amenés à explorer plus avant la capacité de DALL-E à rendre la structure interne avec des vues en coupe, et la structure externe avec des macrophotographies.

Inférer des détails contextuels

La tâche de traduction du texte en images est sous-estimée : une seule légende correspond généralement à une infinité d’images plausibles, de sorte que l’image n’est pas déterminée de manière unique. Par exemple, considérons la légende « une peinture d’un capybara assis sur un champ au lever du soleil ». Selon l’orientation du capybara, il peut être nécessaire de dessiner une ombre, bien que ce détail ne soit jamais mentionné explicitement. Ils explorent la capacité de DALL-E à résoudre la sous-spécification dans trois cas : changer de style, de décor et de temps ; dessiner le même objet dans diverses situations différentes ; et générer une image d’un objet avec un texte spécifique écrit dessus.

(…)

Pour en savoir plus voir sur Open-AI

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.