OpenAI vient de dévoiler encore un nouvel outil intégrant l’intelligence artificielle. Cette fois il s’agit de « Voice Engine », une technologie de synthèse vocale capable de reproduire n’importe quelle voix à partir d’un enregistrement de 15 secondes seulement.


au sommaire


    Après la génération de texte avec ChatGPTChatGPT, la génération d'images avec Dall-E, et la génération de vidéos avec Sora, OpenAI vient d'annoncer un outil de synthèse vocale un peu spécial. Baptisé « Voice Engine », il permet de cloner la voix de n'importe qui à partir d'un enregistrement de 15 secondes seulement.

    Mieux encore : découvrez l'IA capable d'imiter votre voix à partir de seulement... 3 secondes ! On vous en parle dans cet épisode de Vitamine Tech. © Futura

    OpenAI indique avoir développé Voice Engine dès 2022, et s'en sert pour son API de synthèse vocale, ainsi que pour la lecture des réponses de ChatGPT. Ce n'est pas le premier outil de ce genre, puisqu'en janvier 2023, MicrosoftMicrosoft annonçait Vall-E, capable de cloner une voix à partir d'un clip de seulement trois secondes, et ElevenLabs propose une fonction similaire.

    Un outil d’aide à la lecture ou une traduction automatique

    La firme teste actuellement cette technologie avec des partenaires de confiance dans différents domaines. Tout d'abord pour l'aide à la lecture, pour les enfants ou les non-lecteurs, avec des voix « naturelles et émotives ». Cela permet également de générer des traductions automatiques de vidéos et de podcasts en conservant la voix et l'accent du locuteur. Par exemple, générer une voix en français à partir d'un locuteur américain conservera l'accent américain. Cela permettra aux entreprises d'atteindre un public plus grand, ou encore d'améliorer l'offre de services pour des minorités linguistiques.

    Voice Engine n'est toutefois pas encore disponible au grand public. La firme indique que face aux risques d'abus et de deepfake, notamment avec l'élection présidentielle américaine cette année, elle préfère restreindre l'accès. De plus, OpenAI ajoute un filigrane audio à tous les clips générés afin qu'ils soient facilement identifiables.