Avec ses huit microphones logés dans la tête, le robot Hearbo, du Honda Research Institute Japan, identifie quatre sons différents à la fois et en localise la provenance. De quoi améliorer le contrôle vocal des futurs robots domestiques.  
Cela vous intéressera aussi

Notre ouïe nous permet de saisir simultanément une variété de sons et leur provenance. Lors d'une conversation de groupe, nous sommes en mesure d'identifier nos interlocuteurs et de dialoguer au milieu d'autres discussions sans perdre le fil. Doter les robots de cette même capacité est un exploit technique dont les chercheurs de la société japonaise Honda sont parvenus à s'approcher. Ils ont créé Hearbo (abréviation de Hearing Robot), un robot humanoïde capable d'analyser simultanément quatre sons distincts, y compris des voix, et de déterminer leur provenance.

La technologie logicielle mise au point par l'équipe du professeur Kazuhiro Nakadai au Honda Research Institute Japan (HRI-JP) porteporte le nom de Hark (pour HRI-JP Audition for Robots with Kyoto University). Hark est un logiciel open source dont la version 1.1.1 est disponible pour Linux Ubuntu 12.04. Il se compose de plusieurs modules de localisation et de séparationséparation des sons, d'extraction acoustique et de reconnaissance vocalereconnaissance vocale.

Hearbo, le robot aux huit microphones

Dans la tête de Hearbo, huit microphones captent les sons environnants. Un traitement logiciellogiciel (ego-noise suppression) isole les bruits des moteurs électriques qui animent le robotrobot. Ensuite, un algorithme identifie les sons restants et les localise. Les données ont été traitées sur un ordinateurordinateur portable équipé d'un processeurprocesseur Intel Core i5 cadencé à 2,5 GHz.


Dans cette vidéo de démonstration, Hearbo exécute des commandes vocales tout en effectuant une analyse en temps réel des sons qu’il entend. Il est capable de détecter le tempo de la musique et de s’y caler pour danser en rythme. Lorsque l’opérateur lui demande de changer de morceau ou de style de musique, Hearbo s’adapte en une dizaine de secondes. Si besoin, il peut baisser le volume de la musique pour mieux entendre ce qu’on lui dit. © HRI-JP

Pour démontrer les capacités de Hearbo, les chercheurs l'ont soumis simultanément à la sonnerie d'un réveil, à de la musique et à une personne qui lui parlait. Par un jeu de lumièreslumières à la surface de son casque, Hearbo indiquait quelle source sonore retenait son attention (vert pour la sonnerie du réveil, bleu pour la musique et rouge pour la voix humaine) et tournait la tête dans sa direction. Dans une autre mise en situation, Hearbo répondait à des commandes vocales prononcées sur un fond musical. Il était capable de donner le titre du morceau, de mesurer le tempotempo en temps réel et de danser en rythme tout en exécutant les ordres. Et lorsqu'il n'entendait pas correctement la commande, Hearbo baissait le volumevolume de la musique et demandait à l'opérateur de bien vouloir répéter sa phrase.

« En utilisant Hark, nous pouvons enregistrer et visualiser, en temps réel, qui a parlé et où dans une pièce. En faisant évoluer cette technologie, nous pourrions distinguer les voix de personnes spécifiques dans un endroit très peuplé ou saisir des extraits d'une réunion pour déterminer qui a parlé », assure le professeur Nakadai. Le chercheur se dit convaincu que ces travaux serviront de fondation aux futurs systèmes intelligents en leur donnant la capacité de comprendre et d'interpréter des mots ou des situations.