Une équipe de Microsoft Research spécialisée en intelligence artificielle annonce avoir accompli une avancée majeure en matière de reconnaissance vocale, en concevant un système capable de transcrire une conversation aussi bien qu’un professionnel humain. Les futurs assistants virtuels, mais aussi les robots, comprendront beaucoup mieux ce que nous leur disons.

au sommaire


    « Nous sommes en train de passer d'un monde où les gens doivent comprendre les ordinateurs à un monde dans lequel les ordinateurs doivent nous comprendre », explique Harry Shum, patron du groupe MicrosoftMicrosoft Artificial IntelligenceIntelligence and Research. Cette inflexion, dont nous commençons à percevoir les prémices à travers les assistants virtuels de nos smartphones et les enceintes connectées type AmazonAmazon Echo, est en train de s'accomplir en partie sous l'effet de deux technologies intrinsèquement liées : l'intelligence artificielle (IA) et la reconnaissance vocale. À ce propos, Microsoft affirme avoir réalisé une « performance historique » avec son système de reconnaissance vocale qui transcrit la parole conversationnelle aussi bien que des humains spécialisés dans cet exercice.

    Pour confirmer cette avancée, l'équipe d'Harry Shum a demandé à des transcripteurs professionnels de travailler à partir de la base de données Switchboard. Elle a été créée dans les années 1990 par le National Institute of Standards and Technology (NISTNIST) afin de servir de maître-étalon aux travaux sur la reconnaissance vocale. Switchboard contient des échantillons de conversations téléphoniques en anglais, espagnol et chinois mandarin qui ont l'avantage de recréer des conditions réelles où les gens peuvent parfois marmonner, bafouiller, tousser, s'éclaircir la voix...

    Confronté à ce test, le logiciellogiciel de reconnaissance vocale de Microsoft a obtenu un taux d'erreur de 5,9 % qui selon le géant nord-américain est, d'une part, égal à celui que les transcripteurs humains ont atteint et, d'autre part, le taux le plus bas jamais enregistré sur Switchboard. Ces travaux ont fait l'objet d'une publication sur arXiv.

    Cortana, l’assistant virtuel de Microsoft, sera évidemment l’un des principaux bénéficiaires des progrès accomplis par son système de reconnaissance vocale. © Ymgerman, Shutterstock

    Cortana, l’assistant virtuel de Microsoft, sera évidemment l’un des principaux bénéficiaires des progrès accomplis par son système de reconnaissance vocale. © Ymgerman, Shutterstock

    Une technologie intégrée à la Xbox et à Cortana

    Pour réaliser cette performance, l'équipe de Microsoft Research s'est appuyée sur un réseau neuronalréseau neuronal d'apprentissage profondapprentissage profond, à l'instar de Google qui a récemment fait de gros progrès en matièrematière de traduction instantanée grâce à cette méthode. Du côté de Microsoft, l'une des clés de la réussite tient à l'optimisation du fonctionnement de l'infrastructure de son IA nommée Computational Network Toolkit (CNTK). Cette plateforme d'apprentissage profond, par ailleurs disponible en open sourceopen source via GitHub, peut exécuter ses algorithmes sur plusieurs ordinateurs équipés de processeurs graphiquesprocesseurs graphiques dont la capacité à traiter des centaines de milliards d'opérations par seconde a joué un rôle déterminant dans l'avènement des réseaux neuronaux ces dernières années.

    L'une des forces de l'architecture multicouches du CNTK est qu'elle sait regrouper les mots qui ont une similarité afin de pouvoir généraliser plus efficacement. Par exemple, en anglais, les mots fast et quick veulent tous les deux dire « vite » ou « rapide ». L'intelligence artificielle de Microsoft est capable de rapprocher ces deux mots et pour le coup d'être nettement plus rapide dans son traitement. La firme nord-américaine prévoit d'exploiter cette technologie dans sa console de jeu vidéo Xbox, avec l'assistant virtuel CortanaCortana qui est intégré à ses smartphones et ordinateurs Windows 10Windows 10 ainsi que pour des logiciels de transcriptiontranscription vocale en texte.

    Malgré cette percée majeure, il ne s'agit que d'une étape. En effet, Microsoft Research explique que ses spécialistes vont désormais s'atteler à faire fonctionner leur système de reconnaissance vocale dans diverses conditions réelles, avec notamment un bruit de fond élevé (circulation automobileautomobile, brouhaha d'une fête...). Ils veulent également que leur IA soit en mesure de reconnaître différents types de voix en fonction de l'âge ou de l'accent mais aussi d'identifier chaque interlocuteur lorsque plusieurs personnes s'expriment en même temps.

    À plus long terme, les chercheurs veulent aller au-delà de la simple transcription, vers des systèmes capables de comprendre la signification des mots qu'ils entendent. De quoi rendre les assistants virtuels, mais aussi les futurs robotsrobots domestiques, capables d'accomplir des tâches et des actions pour nous seconder plus efficacement.