Illustration générée à l'aide d'une IA. © kramynina, Adobe Stock

La nouvelle IA de Google pour générer des vidéos est plus préoccupante que jamais

Intelligence artificielle

Deepfake

actualité

• 2 Min

Cela vous intéressera aussi

[EN VIDÉO] DeepStereo crée une vidéo à partir de simples photos Un peu comme l'application Hyperlapse, DeepStereo, un nouvel algorithme développé par Google, est capable de...

Distinguer le vrai du faux devient de plus en plus difficile sur les images diffusées sur les réseaux sociaux. Avec le nouvel outil Vlogger de Google, une simple photo et un échantillon audio vont rendre l’exercice de la détection presque impossible.

au sommaire

Le mois dernier Sora d'OpenAI a émerveillé et également inquiété avec ses exemples de génération de vidéos ultra réalistes. À l'heure des deepfakes et des opérations d'influences numériques distillées par des acteurs étatiques, ces vidéos vont rendre encore plus difficile la détection entre ce qui est vrai ou faux. Et comme pour la génération d'images, l'accélération de la technologie a déjà lieu. Cette semaine, Enric Corona, de GoogleGoogle, a dévoilé Vlogger.

Hollywood remplacera-t-il bientôt les acteurs et actrices par des clones digitaux ? Décryptage dans cet épisode de Vitamine Tech. © Futura

L'outil expérimental peut générer une vidéo en haute définition d'un individu parlant, et ce, à partir d'une seule photographiephotographie et d'un échantillon vocal. L'équipe de développement imagine déjà des applicationsapplications utiles pour les entreprises, avec des avatars réalistes capables de suggérer de l'empathieempathie auprès des clients. Mais c'est du côté de la création des deepfakes que Vlogger a de quoi inquiéter.

Alors que Sora a encore du mal à afficher les mains et que ce sont souvent les visages qui sont mis en avant plutôt que les corps entiers, Vlogger y parvient et sait imiter avec conviction les mains et leurs mouvementsmouvements lorsqu'une personne parle. De même les mouvements de la tête et du haut du corps, ainsi que le visage, sont représentés de façon crédible par rapport aux propos tenus par l'avatar.

L’outil Vlogger de Google impressionne et inquiète. © Google

Distinguer le vrai du faux va être encore plus difficile

Pour concevoir Vlogger, l'équipe d'Enric Corona a formé un réseau neuronal permettant d'associer l'audio d'un locuteur aux images vidéo. Pour que cela soit correctement synchronisé, ils ont imbriqué une innovation appelée le Transformer. Il permet de prédire la génération des images de la vidéo en conjonctionconjonction avec ce qui est énoncé par le locuteur. C'est image par image qu'un réseau neuronal apprend à restituer avec précision les mouvements des mains et du corps et les expressions faciales, et même les clignements des yeuxyeux en rapport avec ce qui est dit.

Un second réseau neuronal va ensuite aider le premier à générer les images vidéo en haute définition. La base d'apprentissage a collecté les données de 800 000 vidéos de personnes parlant. En tout, l'IAIA a ingurgité 2 200 heures de vidéo. Avec un tel procédé, on peut s'attendre à des deepfakes tellement parfaits qu'il sera difficile d'infirmer des propos qu’un politique n'aura pas réellement tenu, par exemple. Pour contrer ce type de deepfake, il sera nécessaire de créer des IA suffisamment puissantes pour pouvoir détecter une fausse d'une véritable vidéo.

par Sylvain Biget

Journaliste

le 25 mars 2024

Nos articles

Intelligence artificielle

L’intelligence artificielle entre en scène dans l’art

brève

• 15/01/2024

La sélection de la

Article

Liens externes

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

À voir aussi

intelligence artificielle

intelligence artificielle danger

intelligence artificielle exemple

intelligence artificielle voiture autonome

innovation intelligence artificielle

comment générer des ultrasons

lettre de motivation intelligence artificielle

thèse cifre intelligence artificielle

Mots Clés

Génération de vidéos

OpenAI

Google

Google Vlogger

Réseau de neurones

Apprentissage automatique

Algorithme d'apprentissage automatique