Distinguer le vrai du faux devient de plus en plus difficile sur les images diffusées sur les réseaux sociaux. Avec le nouvel outil Vlogger de Google, une simple photo et un échantillon audio vont rendre l’exercice de la détection presque impossible.
au sommaire
Le mois dernier Sora d'OpenAI a émerveillé et également inquiété avec ses exemples de génération de vidéos ultra réalistes. À l'heure des deepfakes et des opérations d'influences numériques distillées par des acteurs étatiques, ces vidéos vont rendre encore plus difficile la détection entre ce qui est vrai ou faux. Et comme pour la génération d'images, l'accélération de la technologie a déjà lieu. Cette semaine, Enric Corona, de GoogleGoogle, a dévoilé Vlogger.
L'outil expérimental peut générer une vidéo en haute définition d'un individu parlant, et ce, à partir d'une seule photographiephotographie et d'un échantillon vocal. L'équipe de développement imagine déjà des applicationsapplications utiles pour les entreprises, avec des avatars réalistes capables de suggérer de l'empathieempathie auprès des clients. Mais c'est du côté de la création des deepfakes que Vlogger a de quoi inquiéter.
Alors que Sora a encore du mal à afficher les mains et que ce sont souvent les visages qui sont mis en avant plutôt que les corps entiers, Vlogger y parvient et sait imiter avec conviction les mains et leurs mouvementsmouvements lorsqu'une personne parle. De même les mouvements de la tête et du haut du corps, ainsi que le visage, sont représentés de façon crédible par rapport aux propos tenus par l'avatar.
L’outil Vlogger de Google impressionne et inquiète. © Google
Distinguer le vrai du faux va être encore plus difficile
Pour concevoir Vlogger, l'équipe d'Enric Corona a formé un réseau neuronal permettant d'associer l'audio d'un locuteur aux images vidéo. Pour que cela soit correctement synchronisé, ils ont imbriqué une innovation appelée le Transformer. Il permet de prédire la génération des images de la vidéo en conjonctionconjonction avec ce qui est énoncé par le locuteur. C'est image par image qu'un réseau neuronal apprend à restituer avec précision les mouvements des mains et du corps et les expressions faciales, et même les clignements des yeuxyeux en rapport avec ce qui est dit.
Un second réseau neuronal va ensuite aider le premier à générer les images vidéo en haute définition. La base d'apprentissage a collecté les données de 800 000 vidéos de personnes parlant. En tout, l'IAIA a ingurgité 2 200 heures de vidéo. Avec un tel procédé, on peut s'attendre à des deepfakes tellement parfaits qu'il sera difficile d'infirmer des propos qu’un politique n'aura pas réellement tenu, par exemple. Pour contrer ce type de deepfake, il sera nécessaire de créer des IA suffisamment puissantes pour pouvoir détecter une fausse d'une véritable vidéo.