L'IA de Google DeepMind lit sur les lèvres mieux qu'un humainAprès la reconnaissance vocale, Google et sa filiale DeepMind ont fait une nouvelle démonstration de leur maîtrise de l’intelligence artificielle. © CC0 DP via Pixabay

Tech

L'IA de Google DeepMind lit sur les lèvres mieux qu'un humain

ActualitéClassé sous :intelligence artificielle , Google , Deepmind

-

Nouvel exploit pour DeepMind, la filiale de Google, dont l'intelligence artificielle co-développée avec l'université d'Oxford surpasse de très loin l'Homme quand il s'agit de lire sur les lèvres. Une technologie qui pourrait aider les personnes malentendantes ou bien permettre de contrôler un assistant virtuel comme Siri ou Cortana. Mais la question d'un usage à des fins de surveillance ou d'espionnage est sur toutes les lèvres...

Une équipe composée de chercheurs de l'université d'Oxford et de DeepMind, la filiale de Google spécialisée dans l'intelligence artificielle (IA), a mis au point une application de lecture sur les lèvres présentée comme beaucoup plus performante que les humains. Ils ont entrainé leur réseau neuronal à partir de 5.000 heures de programmes télévisés de la BBC (Newsnight, Question Time, The World Today). L'échantillon contenait 118.000 phrases et 17.500 mots uniques.

Résultat, l'IA est parvenue à un taux de réussite de 46,8 %. Cela peut paraître faible, mais il faut savoir que des professionnels à qui l'on a demandé d'annoter les mêmes séquences vidéo en lisant sur les lèvres des personnages à l'écran n'ont atteint que 12,4 % de réussite. Il y a une quinzaine de jours de cela, une autre équipe de l'université d'Oxford avait fait l'actualité en présentant un autre programme de lecture sur les lèvres nommé LipNet qui affichait 93,4 % de réussite contre 52,3 % pour les humains. Mais il y a une grande différence par rapport aux travaux menés par DeepMind. En effet, LipNet a été testé sur un échantillon spécialement créé pour l'occasion totalisant seulement 51 mots uniques.

Pour entrainer son IA, l’équipe de l’université d’Oxford et de DeepMind a travaillé sur un échantillon de vidéos issues de programmes télévisés de la BBC. © Oxford university, DeepMind

L’IA de DeepMind est parvenue à gérer les homophones

Dans l'article scientifique consacré à cette innovation publié sur arXiv, l'équipe de l'université d'Oxford/DeepMind explique que l'une des principales difficultés de la lecture sur les lèvres tient aux homophones, des mots ayant un sens différent mais une même prononciation, comme par exemple « mer », « maire » et « mère ». Le mouvement des lèvres pour prononcer ces trois mots est identique, d'où la difficulté de saisir le sens exact.

Pour les spécialistes à l'origine de cette avancée, une intelligence artificielle capable de lire sur les lèvres aurait de nombreuses applications potentielles : dicter un message ou commander l'assistant virtuel d'un smartphone dans un environnement bruyant en parlant en face de la caméra frontale ; doubler des films d'archives muets ; transcrire des dialogues impliquant plusieurs orateurs ; améliorer les performances de la reconnaissance vocale.

Mais évidemment, on ne peut s'empêcher d'imaginer qu'une telle technologie pourrait aussi servir à surveiller ou espionner. Certes, les microphones longue portée font déjà le bonheur des grandes oreilles, mais un tel dispositif aurait l'avantage d'être totalement invisible et utilisable en toute circonstance, pourvu qu'un flux vidéo soit accessible. De leur côté, les chercheurs assurent que l'IA a besoin d'images de très bonne qualité pour lire correctement sur les lèvres et qu'elle ne pourrait pas travailler à partir de vidéos de caméras de surveillance par exemple. Mais l’analyse d’images par les intelligences artificielles est elle-même en progrès constant...

Interview : comment est née l'intelligence artificielle ?  L’intelligence artificielle vise à mimer le fonctionnement du cerveau humain, ou du moins sa logique lorsqu’il s’agit de prendre des décisions. Jean-Claude Heudin, directeur du laboratoire de recherche de l’IIM (institut de l’Internet et du multimédia), nous explique l'origine de ces recherches.