Tech

Robotique : la problématique de l'apprentissage

Dossier - Psikharpax, le robot-rat intelligent
DossierClassé sous :robotique , robot , humanoïde

Le Projet Psikharpax s'inclut dans une optique d'utilisation des robots pour nous aider à mieux comprendre le vivant. Ce robot-rat intègre les dernières technologies de la robotique.

  
DossiersPsikharpax, le robot-rat intelligent
 

Une des thématiques de recherche sur lesquelles se sont concentrés de nombreux travaux effectués à l'ISIR dans le cadre du projet Psikharpax est la problématique de l'apprentissage.

Le problème de l'apprentissage. © Gellinger, Pixabay, DP

Comment font les animaux pour apprendre à agir d'une certaine manière dans certains environnements, et d'une autre dans d'autres circonstances ? Comment apprennent-ils que certaines actions produisent des effets particuliers, par exemple agrandir un petit trou déjà présent dans le sol peut permettre de trouver des insectes ? Comment s'adaptent-ils lorsque les changements de l'environnement (comme l'épuisement d'une ressource en nourriture) changent les effets des actions habituellement effectuées (il n'est plus utile de creuser ici, mieux vaut chercher ailleurs) ?

 Comment se développe l'apprentissage chez les animaux ? Peut-on le reproduire sur des robots ? © komrod

L'apprentissage par le mécanisme d'erreur de prédiction

Les neurobiologistes ont découvert que les processus nerveux régissant cet apprentissage se basaient sur un mécanisme d'erreur de prédiction. C'est-à-dire que l'animal apprend à effectuer une action lorsque celle-ci donne des résultats mieux que prévus (erreur de prédiction positive) ; par exemple, l'animal appuie sur un levier et se rend compte que cela fait tomber de la nourriture dans son réservoir. Après un certain temps d'apprentissage, lorsque la réalisation d'une action donne exactement le même résultat que ce que l'on s'attend à obtenir (erreur de prédiction nulle), c'est qu'il n'y a plus besoin d'apprendre. Enfin, lorsque l'environnement change, une action dont on pense qu'elle va produire un certain résultat peut tout à coup ne plus avoir d'effet (par exemple appuyer sur le levier ne procure plus de nourriture). Il y a alors une erreur de prédiction négative qui permet de désapprendre cette action, ou d'apprendre à ne plus l'effectuer dans ce contexte.

Les travaux de psychologie du conditionnement animal ont montré que ces apprentissages s'accompagnaient de phénomènes d'anticipation de la récompense, comme dans l'expérience du chien de Pavlov qui, après apprentissage, anticipe l'arrivée de la nourriture dès qu'il entend la cloche sonner (stimulus conditionné permettant de prédire l'arrivée de récompense). Les apports de la neurophysiologie moderne ont été de pouvoir mesurer l'activité unitaire de neurones dopaminergiques dans le cerveau (neurones qui sécrètent un neuromédiateur appelé dopamine au niveau de leurs connexions avec d'autres neurones) et de montrer que l'activité de ces neurones suivait l'équation mathématique de l'erreur de prédiction (Schultz et al., 1997). Or on sait justement que le système dopaminergique est intimement lié aux ganglions de la base, que ce système est dégénéré dans la maladie de Parkinson, et que les patients parkinsoniens ont des difficultés à apprendre de leurs erreurs (Frank et al., 2007).

L'apprentissage du robot-rat. © Khamassi, Guillot, Lachèze, Girard/Animatlab 

Le mécanisme d'erreur de prédiction pour Psikharpax

Une partie des travaux à laquelle Mehdi Khamassi a particulièrement contribué dans le cadre du Projet Psikharpax, a consisté à doter la partie ganglions de la base du « cerveau artificiel » du robot de mécanismes d'apprentissage basés sur l'erreur de prédiction. Dans ce travail, il a été appliqué notamment ces mécanismes dans une expérience du labyrinthe en croix (voir paragraphe précédent) pour savoir s'ils permettaient au robot de montrer la même dynamique d'apprentissage que les rats de laboratoire. Or, comme souvent dans ce type de démarche, cela ne fonctionne pas du premier coup.

C'est là tout l'intérêt de la validation d'un modèle, c'est-à-dire de la confrontation des résultats simulés avec les données biologiques. Les chercheurs ont dû apporter des modifications à l'algorithme d'apprentissage du robot, qui impliquaient notamment qu'une sous-partie des ganglions de la base appelée le striatum ventral devait montrer des activités d'anticipation de la récompense. Ils sont ensuite retournés discuter avec leurs collaborateurs expérimentalistes neurobiologistes pour leur demander si ces modifications du modèle leur permettaient de mieux expliquer certaines de leurs mesures d'activités dans le cerveau. Ceci s'est avéré fructueux et a permis d'identifier certaines activités du striatum ventral chez le rat, comme des anticipations de la récompense mises en place au cours de l'apprentissage suivant un algorithme d'erreur de prédiction (Khamassi et al., 2005, 2008).