Des chercheurs d’OpenAI ont réussi à apprendre à une IA à jouer à Minecraft grâce à des vidéos trouvées sur le Web. Pour arriver à un tel exploit, ils ont utilisé l’apprentissage par imitation et ont dû développer des algorithmes pour annoter automatiquement de milliers d’heures de vidéos enregistrées dans le jeu.


au sommaire


    L'intelligence artificielle a connu un développement extrêmement important ces dernières années, grâce à l'apprentissage profondapprentissage profond, et surtout grâce à l'apprentissage par renforcement. Avec cette méthode, l’IA effectue des actions aléatoires jusqu'à atteindre un but et obtenir une récompense, une méthode qui lui permet par exemple de battre les humains dans les jeux vidéo. Toutefois, la prochaine grande évolution de l'IA pourrait venir d'une autre méthode, l'apprentissage par imitation.

    Avec cette technique, l'ordinateur apprend en imitant les humains. À l'heure actuelle, l'un des meilleurs environnements pour ce type d'apprentissage est le jeu MinecraftMinecraft, où les joueurs évoluent dans un monde ouvert sans avoir un but spécifique. C'est ce qu'a fait OpenAI, qui a donc eu besoin de nombreuses heures de vidéos d'humains qui jouent à ce jeu.

    Pour créer une pioche en diamant dans Minecraft, les joueurs doivent passer par de nombreuses étapes. © OpenAI
    Pour créer une pioche en diamant dans Minecraft, les joueurs doivent passer par de nombreuses étapes. © OpenAI

    Une IA pour annoter automatiquement 70 000 heures de jeu

    Pour fonctionner correctement, l'apprentissage par imitation a besoin que les vidéos soient annotées afin de comprendre ce qui se passe. Les chercheurs d’OpenAI ont engagé des êtres humains pour créer des vidéos tout en enregistrant toutes les actions au clavier et à la souris. Ils ont ainsi obtenu 2 000 heures de vidéos. Ils ont ensuite entraîné une IA pour créer un modèle de dynamique inverse (IDM). En analysant les actions au clavier et à la souris, ainsi que le résultat produit à l'écran, il est capable d'annoter automatiquement les vidéos.

    Il s'agit de la première étape d'une méthode d'apprentissage par imitation semi-supervisée que les chercheurs ont appelé « pré-entraînement vidéo » (VPT). Les algorithmes obtenus par IDM sont ensuite utilisés sur des vidéos trouvées sur le Web. Minecraft étant l'un des jeux les plus populaires, il existe beaucoup de vidéos réalisées dans le jeu par les fans. L'équipe a ainsi pu collecter 70 000 heures de vidéos, qui ont été annotées par l'IDM.

    Avec l’apprentissage par imitation seul, l’IA a besoin de visionner un très grand nombre d’heures de jeu pour atteindre les outils en pierre. © OpenAI
    Avec l’apprentissage par imitation seul, l’IA a besoin de visionner un très grand nombre d’heures de jeu pour atteindre les outils en pierre. © OpenAI

    L’apprentissage par imitation combiné à l’apprentissage par renforcement

    L'IA apprend ainsi à couper des arbresarbres, transformer les bûches en planches, puis fabriquer un établi. Pour un joueur confirmé, cette séquence nécessite 960 actions et 48 secondes. Les chercheurs ont poussé le modèle plus loin en combinant leur méthode avec l’apprentissage par renforcement pour l'inciter à créer des outils en diamantdiamant. L'IA reçoit une récompense à chaque étape (obtenir des bûches, créer des planches, créer un établi, créer une pioche en boisbois, etc.). Il parvient à créer une pioche en diamant dans 2,5 % des sessions de 10 minutes de jeu, activité qui pour un humain nécessite en moyenne 20 minutes et 24 000 actions. Les chercheurs ont également comparé à une IA qui utilise uniquement l'apprentissage par renforcement. Elle n'est parvenue à ramasser que quelques bâtons, mais jamais de bûches et n'a donc pas pu progresser plus loin.

    Les chercheurs ont aussi démontré que malgré le traitement automatique, l'entraînement effectué sur les 70 000 heures de vidéos annotées avec l'IDM était bien plus efficace que celle effectuée uniquement sur les 2 000 heures de vidéos où ils ont pu enregistrer les actions au clavier et à la souris. Ils souhaitent ensuite collecter un million d'heures de vidéos pour améliorer leur modèle. Ils pensent également que cette technique peut être généralisée à d'autres actions, comme naviguer sur des sites Web, utiliser Photoshop ou encore réserver des vols.