Parlez à toute vitesse, murmurez au milieu de bruits ambiants, criez plus fort que la foule... Whisper analyse et transcrit comme il se doit. Une fois de plus, OpenAI, créateur de ChatGPT, remet les pendules à l’heure.
La reconnaissance vocale... Voilà un domaine qui bénéficie de dizaines d'années de recherche. Des programmes comme Dragon de Nuance ou Express Scribe se targuent de pratiquer la chose avec élégance. Et vous utilisez probablement Siri sur iPhoneiPhone, l'Assistance GoogleGoogle sur un appareil AndroidAndroid ou encore Cortana sur Windows.
Plus futé que Siri ou Google Assistant
Reconnaissons-le toutefois : un système de reconnaissance vocale comme SiriSiri est fort approximatif. Les textes que l'on dicte sont généralement truffés d'erreurs et si l'on ne prend pas la peine de se relire, les risques de fâcher un interlocuteur abondent.
Une fois de plus, OpenAI, créateur du célébrissime ChatGPT mais aussi du générateur d'images IA Dall.e2, se démarque par une qualité surprenante. Le speech donné en exemple (en anglais) sur le blogblog d'OpenAI parle de lui-même -- il est énoncé à toute vitessevitesse, et réellement difficile à décoder à l'oreille. Whisper parvient pourtant à le déchiffrer. Et l'on notera que, ce qui le distingue de Siri ou des outils d'analyse de Google, Whisper inclut une ponctuation avisée dans ses transcriptionstranscriptions.

Qu'on se le dise : cet outil produit un meilleur rendu que celui qu'utilise YouTube pour générer les sous-titres de vidéos. D'ailleurs, Whisper fournit aussi un minutage de ce qui est dit, qu'il suffit ensuite de transmettre à YouTube.
Comment Whisper parvient-il à décoder la parole ?
Outil de reconnaissance automatique de la parole, Whisper a effectué son apprentissage, tout comme ChatGPT, sur de vastes volumesvolumes d'informations. Dans le cas présent, il s'agit de 680 000 heures de données multilingues trouvées sur le Web. Car, détail d'importance, Whisper est aussi à même de transcrire la parole de phrases prononcées en plusieurs langues -- quand bien même, pour l'heure, son efficacité maximale se trouve sur l'anglais.
Pour les geeks uniquement
Si l'envie vous prend de vouloir tester Whisper, à moins d'avoir une certaine compétence technique, il faudra, hélas, patienter car son usage suppose de pratiquer le langage PythonPython.
Il existe toutefois une solution relativement accessible. Il se trouve que Google fournit une plate-forme, Google Colab, qui facilite l'usage de commandes Python. Si vous parlez bien l'anglais, il vous suffit alors de suivre les instructions indiquées sur cette page -- vous n'aurez aucunement à programmer en Python, la procédure a été simplifiée autant que faire se peut. Vous pourrez ainsi analyser un fichier vocal MP3 que vous aurez préalablement placé sur votre Google Drive.


Nous avons testé Whisper sur une interview en français faisant intervenir plusieurs speakers et il s'est en fort bien sorti. Le résultat a pu être utilisé presque tel que pour produire des sous-titres sur YouTube. Donc, autant le dire, Whisper est ultra prometteur et pourrait tourner une page dans l'histoire de la reconnaissance de la parole par ordinateurordinateur !
Comparatifs et bons plans

Maison
Jardin
Cette tondeuse autoportée 3 en 1 SCHEPPACH MR196 61 profite d'une promotion exceptionnelle sur Cdiscount !

Maison
Aménagement du jardin
Ce barbecue au charbon de bois Tepro Grill Toronto est à prix brisé avant l'été sur Amazon !

Maison
Jardin
Le robot tondeuse WORX LANDROID est à prix sacrifié sur Amazon

Tech
stabilisateur smartphone
Meilleur stabilisateur smartphone 2022 ? Voir le ici

Tech
console de jeu
consoles de jeux - notre comparateur

Tech
appareil photo hybride
appareils photo hybrides - notre comparateur 2022

Tech
B and you
Forfaits mobiles B&You : découvrez notre sélection