Google, Adobe, Nvidia, Meta… Plusieurs géants sont en lice pour proposer un outil hors pair de création de vidéos à partir d’un texte. Pourtant, le gagnant de la bataille pourrait bien être une start-up inconnue du grand public…


au sommaire


    À partir de la mi-2022, un sujet a suscité un énorme buzz : celui des applicationsapplications « text to image » (Générateur d'images IA). Et pour cause. Nous tapons un texte et obtenons en retour une image habituellement d'une haute qualité artistique. Dall.e 2 de OpenAI a ouvert le bal mais s'est fait voler la vedette par MidJourney et Stable DiffusionDiffusion - et pour notre part, nous estimons que Leonardo.ai est le plus doué du lot.

    Le prochain Graal est celui des « text to video », et donc la création de vidéos à partir d'un simple texte. Des applications comme Genmo et Kaiber ont pris les devants mais pour l'heure, elles laissent encore à désirer. Il est vrai que l'objectif paraît bien plus ambitieux que pour les « text to image ».

    Il reste que depuis plusieurs semaines, une agitation se fait sentir au niveau des grands protagonistes du domaine. Quatre géants ont pris d'assaut cette forteresse, chacun espérant vivement tirer son épingle du jeu et occuper le devant de la scène de l'intelligence artificielle (IA), après le choc causé par ChatGPT de OpenAI. Pourtant, c'est un inconnu qui semble le mieux avancé dans cette quête...

    Google Imagen

    S'il est une société qui a tout à gagner à faire briller son étoileétoile, c'est bien GoogleGoogle. Durant une dizaine d'années, elle est apparue comme la société phare de l'intelligence artificielle, que ce soit avec son véhicule autonome ou encore la victoire d’une IA sur l’un des champions mondiaux du jeu de go. Or, c'est peu dire que Google a été pris par surprise par l'arrivée de ChatGPTChatGPT qui, du jour au lendemain, menace un règne que l'on aurait pu croire intouchable.

    Avec Imagen, Google tente de reprendre la main. Le géant de la recherche nous propose une série de clips de cinq secondes qui laissent apparaître un certain savoir-faire, mais sans être pour autant bluffant. Et l'attente se fait longue.

    Démo de Google Imagen : « un panda conduit une automobile ». © Google

    Meta « Make a Video »

    Meta, la société qui gère FacebookFacebook et InstagramInstagram, propose une série de clips un peu plus aventureux sur la page de Make a Video. Pourtant, là encore, il ne nous est nullement proposé de tester la bête. Il est vrai que Meta garde sans doute des souvenirs pénibles de son essai raté sur le métavers, qui avait été proposé un peu trop tôt à la curiosité des internautes.

    Nvidia « VideoLDM »

    Le 23 avril, lors d'une conférence de l'IEEE (Institute of Electrical and Electronics Engineers), Nvidia, le leader des cartes graphiques, a montré que sa propre application de « text to video », VideoLDM, avait réalisé des progrès honorables. Depuis une courte séquence sur l'autoroute jusqu'à un ours en peluche jouant de la guitare, on peut constater que la technologie avance (Nvidia s'attaque à des résolutions d'image élevées), mais sa solution demeure encore perfectible. Et là aussi, nous ne pouvons pas encore tester la chose.

    « Un chat qui porte des lunettes monte la garde dans une piscine ». Cette vidéo a été générée par l’outil VideoLDM de Nvidia. © Nvidia

    Adobe Firefly

    Adobe a pris position depuis plusieurs mois dans le secteur de l'IA avec la collection Firefly et propose d'ores et déjà plusieurs applications de qualité dont une qui nettoie les fichiers audio. Pour pouvoir tester l'application maison, fort prometteuse de « text to video », il faut s'inscrire sur une liste d'attente. Nous avons fait la demande et attendons encore...

    GEN-2 de Runway

    En réalité, la surprise semblerait devoir venir d'une start-upstart-up : Runway. Celle-ci propose une boîte à outils avec une trentaine d'applications d'intelligence artificielle. Et d'ailleurs, bonne nouvelle, plusieurs de ces outils sont désormais accessibles sur iPhoneiPhone, sous le nom de RunwayML. Or, Runway s'est déjà distingué avec une application Gen-1, qui peut transformer une vidéo existante en une création étonnante (Gen-1 est également disponible depuis peu sur iPhone).

    À présent, Runway nous fait miroiter son successeur, Gen-2. Si l'on se base sur le savoir-faire que cette société a déjà démontré en matièrematière d'IA, et notamment avec Gen-1 qui n'a cessé de progresser au fil des mois, il y a bon espoir pour que Gen-2 accapare la position de leader des « text to video ».

    De fait, si l'application tient ses promesses, nous devrions avoir droit à des clips d'une fluidité stable, sans effet illogique dans les mouvementsmouvements d'image. Les paris sont ouverts.

    La démo de Gen-2 montre les progrès accomplis par son prédécesseur, Gen-1, depuis son lancement. © RunwayML