Après le jeu de go et les échecs, DeepMind concentre ses travaux en intelligence artificielle sur les jeux vidéo de stratégie. © Quinlity, Fotolia

Tech

L'IA de Google DeepMind apprend le travail d'équipe en jouant à Quake III Arena

ActualitéClassé sous :intelligence artificielle , apprentissage par renforcement , reinforcement learning

DeepMind a enseigné à plusieurs IA à collaborer aussi bien entre elles qu'avec des humains en jouant au célèbre jeu vidéo Quake III Arena grâce à une technique d'apprentissage renforcé.

Les jeux vidéo multijoueur de tir à la première personne représentent un défi à la fois considérable et extrêmement bénéfique pour le développement d'une intelligence artificielle. Pourquoi ? Parce qu'ils sont à l'image des sociétés humaines, où chacun poursuit ses objectifs personnels tout en étant immergé dans un réseau collaboratif par le travail, les loisirs, les sports...

Apprendre à une IA à être à la fois autonome et capable d'utiliser son expérience pour collaborer efficacement avec un autre programme, voire un humain : voilà précisément ce qu'a réussi DeepMind. La filiale de Google spécialisée en intelligence artificielle vient de présenter ses derniers travaux sur ses « agents coopératifs complexes » formés à l'aide du jeu Quake III Arena.

Ce jeu vidéo culte propose un mode de jeu type capture de drapeau. Deux équipes s'affrontent avec un objectif simple : capturer le drapeau de l'adversaire tout en protégeant le sien. Les stratégies à mettre en œuvre sont illimitées. Pour une IA, les qualités requises sont multiples : savoir coopérer tout en affrontant l'équipe adverse et s'adapter en permanence au style de jeu qu'on lui oppose. DeepMind a ajouté une complication en changeant la disposition de la carte du jeu à chaque partie afin de forcer ses IA à développer des stratégies généralistes plutôt que de mémoriser la carte. 

Dans cette vidéo de DeepMind, quatre IA s’affrontent dans une partie de capture de drapeau sur Quake III Arena. © DeepMind

450.000 parties de Quake III Arena

Pour parvenir à ce résultat, DeepMind a eu recours à l'apprentissage par renforcement (en anglais reinforcement learning) qui est une forme d'apprentissage automatique inspirée par le comportementalisme. Cette technique permet une prise de décision à partir d'informations dynamiques changeantes. L'équipe DeepMind a créé un algorithme d'apprentissage par renforcement nommé For the Win qui a servi à entraîner en parallèle plusieurs IA en jouant 450.000 parties de Quake III Arena.

Le logiciel n'avait pas une connaissance préalable des règles du jeu. D'une partie à l'autre, les IA ne recevaient qu'un seul signal pour renforcer leur apprentissage : si leur équipe avait gagné ou non. Chaque agent intègre son propre système de récompense qui lui permet de définir ses objectifs dans le jeu. 

Lors d'un tournoi organisé contre 40 joueurs humains, les équipes constituées uniquement d'IA ont systématiquement battu les équipes 100 % humaines et affichaient un taux de victoire de 95 % face à des équipes mixtes Hommes-IA. Par ailleurs, DeepMind indique que les participants humains interrogés sur leur expérience ont estimé que les intelligences artificielles étaient plus collaboratives que leurs semblables.

Ce dernier point est très important dans une perspective future où les Hommes et les IA seront amenés à travailler ensemble. Reste que l'environnement dans lequel DeepMind a mené son expérimentation est évidemment beaucoup moins complexe que le monde réel. Nous n'en sommes qu'aux prémices de ce rapprochement Hommes-machines, inéluctable...

  • L’apprentissage par renforcement est l’un des axes de développement d’avenir pour l’intelligence artificielle.
  • DeepMind a entraîné plusieurs IA afin qu’elles soient à la fois capables d’atteindre des objectifs individuels et de collaborer entre elles ou avec des humains.
Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour.

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !

Cela vous intéressera aussi