Tech

Le système artificiel : des dispositifs nerveux sensorimoteurs

Dossier - Langage : des robots pour comprendre l'origine de la parole
DossierClassé sous :robotique , technologie , origine de la parole

Il y a très longtemps, les humains ne produisaient que des grognements inarticulés. La question de savoir comment ils en sont venus à parler est l'une des interrogations les plus difficiles qui soient posées à la science. La robotique peut nous aider à mieux comprendre le langage et les origines de la parole. Un voyage fascinant.

  
DossiersLangage : des robots pour comprendre l'origine de la parole
 

Techniquement, le système artificiel est basé sur le couplage de dispositifs nerveux sensorimoteurs génériques qui sont câblés aléatoirement au départ et implémentés dans la tête des agents artificiels.

Les différents dispositifs nerveux sensorimoteurs. © Vitstudio, Shutterstock

Les dispositifs nerveux sensorimoteurs

Les agents disposent d'une oreille artificielle, capable de transformer un signal acoustique en impulsions nerveuses qui stimulent les neurones d'une carte de neurones artificiels perceptuels. Les agents disposent aussi d'une carte de neurones moteurs dont l'activation produit des mouvements d'un modèle du conduit vocal, qui lui-même produit une onde acoustique. Les cartes nerveuses (perceptuelle et motrice) sont totalement connectées entre elles. Les neurones s'adaptent aux stimuli par sensibilisation : leur dynamique est telle que si un stimulus S est perçu, alors ils sont modifiés de telle manière que si l'on présente le même stimulus S juste après ils répondront encore plus.

Les connexions entre les deux cartes de neurones évoluent de manière hebbienne : celles qui connectent des neurones qui sont souvent activées en même temps deviennent plus fortes, et celles qui connectent des neurones dont l'activité n'est pas corrélée deviennent plus faibles. Ces connexions sont aléatoires au début, et grâce au babillage des agents, elles s'organisent de telle manière que l'agent devient capable de trouver les commandes motrices correspondant à un son qu'il entend. Les connexions entre les deux cartes perceptuelles sont aussi telles que la distribution des sons codés par la carte perceptuelle (donc des sons perçus) reste à peu près la même que la distribution des sons codés par la carte motrice (donc des sons produits).

Autrement dit, l'architecture nerveuse de l'agent est telle qu'il a tendance à produire la même distribution de sons que celle qu'il entend. Par contre, il est important de noter que les agents ne reproduisent jamais un son qu'ils viennent d'entendre, et ne stockent pas explicitement un son qu'ils entendent pour le répéter plus tard : en bref, ils ne s'imitent pas. En fait, ils ne disposent d'aucun moyen de coordination sociale. Ils sont disposés dans un environnement virtuel dans lequel ils se baladent aléatoirement. À des moments aléatoires, ils activent aléatoirement des neurones de leurs cartes motrices, ce qui produit un son qui est entendu par eux-mêmes et par les agents qui sont à côté d'eux.

L'architecture d'un agent du système artificiel : les agents sont dotés d'une oreille artificielle, d'un conduit vocal artificiel, et d'un cerveau artificiel qui couple ces deux organes. Les agents sont eux-mêmes couplés par l'environnement commun dans lequel ils évoluent : ils perçoivent les vocalisations de leurs voisins. © DR

Apparition du codage phonémique

Tous les neurones des cartes motrice et perceptuelle sont initialement aléatoires et uniformes. Cela veut dire que leurs vocalisations sont holistiques et inarticulées : l'espace continu des configurations aléatoires est utilisé uniformément. Comme tous les agents produisent la même distribution de vocalisation, et d'après le mécanisme de couplage décrit dans le paragraphe précédent, cette situation initiale est un équilibre.

Seulement, si l'on fait tourner la simulation, on s'aperçoit que cet équilibre n'est pas stable. En effet, il y a du bruit, de la « stochasticité » qui fait que par hasard et de temps en temps, certains types de vocalisations vont être prononcés plus souvent que d'autres. Or, le mécanisme de couplage décrit plus haut introduit une boucle de rétroaction positive : ces déviations de la moyenne sont amplifiées si elles sont assez grandes, et la symétrie du système se casse.

Les cartes de neurones s'auto-organisent alors en « clusters » : des groupes de neurones se forment, codant pour des configurations acoustiques et articulatoires très précises dans l'espace des vocalisations. En bref, l'espace continu des vocalisations a été discrétisé. Les vocalisations que les agents produisent ne sont plus holistiques, mais digitales : elles sont systématiquement construites par la mise en séquence de quelques configurations clés, que l'on peut alors appeler phonème. C'est l'apparition du codage phonémique. En outre, le « code phonémique » qui apparaît est le même chez tous les agents d'une même simulation. Il est par contre différent d'une simulation à l'autre. On observe donc la formation d'une convention culturelle, qui peut être diverse d'un groupe à l'autre.

Comparaison entre la distribution des systèmes de voyelles apparaissant dans le système artificiel et dans les langues humaines (d'après la base de données UPSID). © UPSID, Maddieson, 1984

Cependant, l'ensemble des systèmes formés est caractérisé par des régularités statistiques : par exemple, en utilisant un modèle réaliste de la production des voyelles, le système artificiel permet de prévoir quels sont les systèmes de voyelles les plus communs dans les langues humaines (voir Figure 7). De plus, on peut montrer comment ces systèmes font apparaître des règles phonotactiques et une organisation en patterns des combinaisons des phonèmes qui sont partagés par une même communauté d'agents et différentes dans des communautés différentes.