Stable Diffusion XL, l’une des IA génératives d’images les plus douées, arrive pour le grand public

Stability AI vient de publier la version 1.0 de son nouveau modèle d’intelligence artificielle qui génère des images à partir de quelques mots. Baptisé Stable Diffusion XL, il s’agit d’une évolution majeure de Stable Diffusion, avec une définition bien plus élevée.

au sommaire

Dans le monde des IAIA génératrices d'images, il existe un trio de référence : Midjourney, Dall-E 2 et Stable Diffusion. Ce dernier se distingue des deux autres car son code source est public, signifiant que n'importe qui peut le télécharger et le faire fonctionner sur son propre ordinateur. Son créateur, Stability AI, vient d'annoncer le lancement de Stable DiffusionDiffusion XL (SDXL) 1.0.

La firme avait précédemment publié SDXL 0.9 uniquement pour les chercheurs. Cette nouvelle version est désormais ouverte au grand public. Il s'agit d'une nette amélioration par rapport au modèle Stable Diffusion standard, actuellement en version 2.1 et limité à une définition de 768 x 768 pixels. Selon Stability AI, SDXL « est le meilleur modèle ouvert pour le photoréalisme » et peut générer des images sans ajouter « d'atmosphèreatmosphère » propre au modèle. Il serait également particulièrement doué pour les éléments qui posent problème à ses rivaux, comme les mains ou le texte.

Une génération d’images en deux étapes

Pour parvenir à ce résultat, l'éditeur a créé une architecture avec un modèle de base comportant 3,5 milliards de paramètres qui crée des images d'une définition de 128 x 128 pixels, et un « affineur » de 6,6 milliards de paramètres qui améliore la qualité pour atteindre 1 024 x 1 024 pixels. Ce système limite les ressources et le temps de traitement nécessaires, ce qui permet de le faire tourner sur un ordinateur équipé d'au moins 8 gigaoctets de mémoire vidéo.

Une démonstration de Stable Diffusion XL 1.0, pleinement fonctionnelle mais un peu lente et limitée à quelques essais, est disponible sur le site Clipdrop. Pour ceux ayant suffisamment de connaissances en informatique pour installer le modèle, il est possible de télécharger le code source directement sur Github.