En décomposant un enregistrement audio, des chercheurs sont parvenus à animer un visage mais aussi et surtout à appliquer les émotions transcrites depuis l’enregistrement audio. Une trouvaille qui pourrait améliorer les graphismes dans les jeux mais aussi, hélas, produire des vidéos type « deepfake » de plus en plus réalistes.
Une équipe de chercheurs de chez Microsoft vient de publier un article dans lequel ils décrivent un nouveau système mis au point pour animer des visages en se basant uniquement sur un enregistrement audio. Cette nouvelle méthode profite des avancées dans le domaine du deep learning, ou apprentissage profond, pour créer une vidéo d'un visage qui parle en y traduisant les émotions détectées dans la voix.
L'animation des visages basée sur un enregistrement n'est pas complètement nouvelle, mais les méthodes actuelles partent du principe que l'échantillon sonore est clair, sans bruit de fond et avec un ton neutre. Le nouveau système utilise un auto-encodeur variationnel (VAE) qui apprend à démêler les différents composants de l'enregistrement audio, avec entre autres la partie phonétique, la tonalité émotionnelle, et les bruits de fond. Cela lui permet d'être beaucoup plus robuste et de pouvoir créer des animations à partir d'enregistrements plus naturels.
De nombreuses applications dans le doublage et l’animation 3D
La piste audio est décomposée sous forme de représentations qui peuvent ensuite être utilisées avec différentes méthodes d'animation existantes. Cependant, les chercheurs de chez Microsoft ont utilisé des réseaux antagonistesantagonistes génératifs (GAN), deux réseaux neuronaux en compétition, pour créer leurs vidéos. Cela leur permet non seulement d'animer un visage qui « parle », mais également de lui insuffler les émotions transcrites depuis l'enregistrement audio.
Comme toute technologie, celle-ci pourrait être abusée pour créer des deepfakes. Cependant, les auteurs visent avant tout des applicationsapplications plus utiles, comme le doublage d'une vidéo dans une autre langue, des avatarsavatars 3D générés en temps réel, ou encore pour améliorer les animations des personnages dans les jeux vidéo.
Comparatifs et bons plans

Santé
Santé
Offrez-vous la montre connectée Garmin Instinct Solar Surf à prix cassé sur Cdiscount

Tech
Télécoms
SFR Box : la fibre avec un débit jusqu’à 500 Mb/s est à seulement 19,99 €/mois

Tech
Tech
Découvrez la meilleure sélection des sacs à dos Amazon Basics

Tech
chromebook
Les meilleurs chromebooks 2022

Tech
écran PC
écrans PC - notre comparateur

Tech
manette PC
manettes PC - nos gagnants 2022

Tech
cdiscount mobile
Comparatifs des meilleurs forfaits Cdiscount Mobile