Des chercheurs de chez Google Brain viennent de publier une démonstration d’Imagen, une intelligence artificielle capable de générer des images à partir d’une simple description avec « un photoréalisme sans précédent ».


au sommaire


    DeepMind n'est pas la seule équipe chez GoogleGoogle qui travaille sur l'intelligence artificielle. Il existe aussi Google Brain, qui fait partie de Google AI, également spécialisée dans l'apprentissage profondapprentissage profond. Les chercheurs de la « Brain Team » viennent de dévoiler Imagen, une IA capable de générer des images photoréalistes à partir de textes.

    Le projet est très similaire à DALL-E 2 d’OpenAI, présenté il y a à peine plus d'un mois. Saisissez une description de l'image voulue, même farfelue comme « un cerveaucerveau chevauchant une fuséefusée qui se dirige vers la LuneLune », et l'IA produira l'image correspondante.

    Une démonstration d’Imagen qui permet de choisir parmi plusieurs options. © Google Research
    Une démonstration d’Imagen qui permet de choisir parmi plusieurs options. © Google Research

    La recherche sur l’IA confrontée à des problèmes éthiques

    Pour évaluer les performances d'Imagen, les chercheurs ont confronté Imagen à DALL-E 2, ainsi qu'à d'autres modèles similaires avec leur propre outil d'évaluation DrawBench. Ils ont créé une série de 200 descriptions, dans 11 catégories, utilisées sur chacun des différents modèles. Les images obtenues ont ensuite été présentées à 25 volontaires pour chaque catégorie, qui ont dû les évaluer selon deux critères : la qualité de l'image et la correspondance avec la description. Dans les deux cas, les participants ont largement préféré Imagen.

    L'outil n'est pas disponible au grand public pour des raisons éthiques. Les chercheurs ont mis en ligne une démonstration simple qui permet de choisir entre plusieurs options, mais rien de plus. Outre des risques d'abus et des impacts possibles d'un tel outil, les chercheurs ont tenu à souligner le problème des bases de données utilisées, qui sont composées d'images publiques non modérées. Selon eux, « les jeux de données de cette nature reflètent souvent des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes ou nuisibles à des groupes marginalisés ».