Un logiciel développé à l’université de Stanford (États-Unis) permet à une personne de parler devant une webcam et de voir ses paroles reproduites en temps réel sur le visage d’une autre. Réellement impressionnante, cette technologie pourrait potentiellement servir à truquer les discours vidéo de n’importe quel homme politique. Pas très rassurant…

au sommaire


    Des chercheurs en technologies graphiques de l'université de Stanford ont présenté une nouvelle méthode pour truquer les vidéos, afin de modifier très rapidement et facilement ce que dit une personne filmée. La technique baptisée Face2Face permet au truqueur de parler devant sa webcam, et de voir ses paroles reproduites en temps réel sur le visage de la victime.

    Pour réaliser cette performance, Face2Face est d'abord entraîné sur YouTube avec des vidéos qui permettent d'acquérir et de modéliser en 3D la bouche de la personne victime du trucage, pour pouvoir redessiner sa forme en fonction des phonèmesphonèmes à prononcer et de leur enchaînement.

    Dans la fenêtre supérieure gauche, l’imposteur devant sa caméra parle et fait des mimiques. L’image source (vignette inférieure gauche) est modifiée en temps réel par apposition d’un masque invisible qui va reproduire tout ce que dit le truqueur. Le résultat (vignette de droite) est sidérant de réalisme. Il est alors possible de faire dire n’importe quoi à n’importe qui © <em>Stanford University</em>, Matthias Nießner

    Dans la fenêtre supérieure gauche, l’imposteur devant sa caméra parle et fait des mimiques. L’image source (vignette inférieure gauche) est modifiée en temps réel par apposition d’un masque invisible qui va reproduire tout ce que dit le truqueur. Le résultat (vignette de droite) est sidérant de réalisme. Il est alors possible de faire dire n’importe quoi à n’importe qui © Stanford University, Matthias Nießner

    Face2Face fonctionne avec une simple webcam RGB

    Puis l'animation est collée sur le visage de la cible, en temps réel, en fonction de l'orientation détectée du visage. Le tout est réalisé avec une simple webcam RGB pour obtenir les données d'animation, alors que de précédents travaux utilisaient une webcam équipée également d'un capteurcapteur de profondeur.

    Le résultat est totalement bluffant de réalismeréalisme, même s'il reste perfectible. En particulier il ne s'agit pour le moment que de l'animation de la bouche, mais les yeuxyeux ne sont pas modifiés. Or une grande partie de l'expression et du réalisme d'un discours passe aussi par les mouvementsmouvements des sourcilssourcils et des yeux, qui renforcent ce qui est prononcé. Reste à y ajouter le moteur de synthèse vocal préparé par Microsoft, qui imite même le timbre de la personne, et le trucage complet d'un discours sera accessible au quidam.