Définition | Générateur d'images IA

au sommaire

C'est une nouvelle génération d'applicationapplication qui exploite l'intelligence artificielle comme jamais auparavant : Dall.e 2, Stable DiffusionDiffusion, MidJourney... Le principe : on tape un texte et une image est générée. Oui mais... l'imaginaire est totalement au rendez-vous. On peut demander à générer un visuel de koalakoala pilotant une motomoto, d'un micro-ordinateur de la période Renaissance, de Mozart essayant un nouveau casque stéréo sous le regard intrigué de Marilyn Monroe... Ou encore s'aventurer dans les universunivers de science-fiction, du jeu vidéo, du street art. Et mélanger allègrement les stylesstyles, les époques, inventer des situations baroques et totalement surréalistes. À chaque fois, l'IA va satisfaire nos désirs.

Ces applications de « génération d'image par IA » ou « text-to-image » représentent l'une des premières concrétisations accessibles à tous des potentiels de l’intelligence artificielle.

L’initiative OpenAI

Organisation à but non lucratif, OpenAI est apparue en décembre 2015 à San Francisco. Son objectif est de repousser les limites de l’intelligence artificielle avec toutefois, une éthique assumée : l'IA se doit d'être sans danger et bénéfique pour l'humanité dont elle voudrait contribuer à « préserver la sécurité ».

Elle est présidée par :

le programmeur-entrepreneur Sam AltmanSam Altman, par ailleurs fondateur de Reddit ;
le chercheur Greg Brockman, fondateur de Stripe, une entreprise de paiement en ligne.

OpenAI a été initialement fondée à partir des subventions de personnalités telles que Altman et Brockman, mais aussi Elon MuskElon Musk, et a reçu par la suite une dotation d'un milliard de dollars de la part de MicrosoftMicrosoft. Elle est par ailleurs soutenue financièrement par des partenaires tels que AmazonAmazon Web Services ou Infosys.

Dall.e 2

Si OpenAI s'est d'abord distinguée par la création d'outils pour les développeurs, dès janvier 2021, elle a été en mesure de présenter une application concrète de ses recherches accessible à tous : Dall.e. (un nom créé à partir du peintre surréaliste Salvador Dalí et du robot de dessin animé Wall-E de Pixar).

Le principe : on tape une phrase et Dall.e la transforme en image. Sur cette première version, le résultat laissait quelque peu à désirer.

Ici, nous avons demandé à Dall.e 2 de représenter « <em>un lapin courant le marathon à New York, style de photographie à l’ancienne</em> ». Il nous a soumis quatre variantes. © dall.e 2

Ici, nous avons demandé à Dall.e 2 de représenter « un lapin courant le marathon à New York, style de photographie à l’ancienne ». Il nous a soumis quatre variantes. © dall.e 2

En avril 2022, Dall.e 2 a été présenté au public et cette fois, les résultats ont été jugés bluffants : les réalisations sont à la fois originales et d'un niveau artistique patent. Les images sont de belle qualité et qui plus est, il ne faut qu'une dizaine de secondes pour les produire.

Dall.e 2 a généré cette image à partir du texte : « <em>un énorme pont reliant deux falaises avec des dinosaures dans le gouffre, peinture à l’huile</em> ». © dall.e 2

Dall.e 2 a généré cette image à partir du texte : « un énorme pont reliant deux falaises avec des dinosaures dans le gouffre, peinture à l’huile ». © dall.e 2

Dalle.e 2 a été l'une des premières manifestations visibles par tous des prouesses de l'intelligence artificielle. Car il est possible de taper des phrases hautement surréalistes et d'obtenir un résultat qui tient la route. De fait, plus la requête est spécifique et plus le résultat est impressionnant. Les images sont dignes de ce que pourrait réaliser un artiste graphique de talent. Elles sont à la fois créatives et esthétiques. Qui plus est, si l'utilisateur n'est pas pleinement satisfait, il peut générer des variations.

Seule limitation à l'automneautomne 2022 : Dall.e 2 et les diverses déclinaisonsdéclinaisons présentées plus bas ne comprennent pour l'instant que des phrases formulées en anglais.

Cette image a été générée en tapant le texte : « <em>Sherlock Holmes marchant à côté d’une vieille dame, pixel art </em>». © dall.e 2

Cette image a été générée en tapant le texte : « Sherlock Holmes marchant à côté d’une vieille dame, pixel art ». © dall.e 2

C'est peu dire que Dall.e 2 a séduit un très large public. En septembre 2022, l'application recensait déjà 1,5 million d'utilisateurs et servait à la création de plus de 2 millions d'images par jour.

Les outils de OpenAI

Pour aboutir à une telle performance, OpenAI a mis au point deux technologies avancées :

GPT3 : une IA à même de comprendre des textes humains.
Clip : un système de « vision » par ordinateur, intégrant une évaluation automatisée de ce que nous considérons comme esthétique.

Le projet GPT (Generative Pre-trained Transformer)) a pris naissance dès 2018. Il s'agit d'un système d'apprentissage automatique qui fonctionne en pondérant son acquisition de connaissances après évaluation de leur pertinence.

L'autre élément, Clip, intègre des centaines de milliards d'images assorties de leurs légendes provenant de la base de données Common Crawl. Il inclut l'analyse du style particulier à de très nombreux artistes. Dall.e repose sur le fruit de cette analyse pour proposer des images à l'esthétique proche d'un grand peintre ou d'un photographe de renom.

Image générée par Dall.e 2 à partir du texte : «<em> un couple dans la chaleur d’une grande couverture regarde le stupéfiant panorama d’un champ de glace, digital art</em> ». © dall.e 2

Image générée par Dall.e 2 à partir du texte : « un couple dans la chaleur d’une grande couverture regarde le stupéfiant panorama d’un champ de glace, digital art ». © dall.e 2

Stable Diffusion

Stable Diffusion est une autre tentative fort réussie de générer des images d'aspect photographique fort réaliste à partir de texte. Initiative britannique, l'outil Dream Studio de Stable Diffusion est apparu en août 2022. Il produit des rendus particulièrement impressionnants au niveau artistique. L'outil est accessible en ligne à l'adresse : https://beta.dreamstudio.ai/dream.

Stable Diffusion produit des images d’une réelle beauté. Celle-ci est issue de ce texte : « rêve d’une galaxie éloignée, dans le style de Caspar David Friendrich, peinture numérique tendance artstation ». © Stable Diffusion

On peut aisément spécifier avec cet outil un chiffre indiquant le degré de liberté créative de l'IA. Le site https://lexica.art présente une galerie d'images générées avec Stable Diffusion.

Le site lexica.art regroupe de nombreuses créations spectaculaires réalisées à partir de Stable Diffusion/Dreamstudio. © lexica.art

MidJourney

La troisième application majeure, MidJourney est l'œuvre d'un laboratoire de recherche en IA fondé par David Holz, un chercheur talentueux de Californie, dépositaire d'un très grand nombre de brevets et qui définit la mission de MidJourney comme « étendre les pouvoirs imaginatifs de l'espèceespèce humaine ». Notable pour sa créativité, MidJourney peut être mis en pratique depuis le forum DiscordDiscord de MidJourney, dans la section « newbiesnewbies ». Ce forum avait déjà attiré plus de 2 millions d'abonnés à l'automne 2022.

Une menace pour les artistes ?

D'autres projets sont en cours, notamment Imagen qui est mené par GoogleGoogle.

C'est peu dire que de constater que Dall.e 2 et ses avatarsavatars ont laissé le monde artistique interloqué. Frédéric Boisdron, spécialiste en IA et en robotiquerobotique estime pourtant que ces outils seront peu à peu intégrés dans le panel des créatifs : « Il est certain qu'une minorité d'artistes se sentira en danger avec l’émergence de ces IA. Mais, d'autres les prendront pour ce qu'elles sont, des outils parfaits pour faire exploser leurs inspirations, leur créativité. De la même manière, les joueurs professionnels d'échecs et de go travaillent désormais avec les IA, afin de découvrir de nouvelles stratégies auxquelles personne n'avait pensé. »