Développée par Facebook et l'université de Carnegie Mellon, Pluribus est la première intelligence artificielle capable de battre les meilleurs humains au Hold'em no-limit à six joueurs, le format de poker le plus joué au monde. C'est la première fois que l'IA domine les meilleurs joueurs dans un jeu comprenant plus de deux joueurs ou deux équipes.


au sommaire


    L'intelligence artificielle a connu de grandes évolutions ces dernières années, notamment grâce au deep learning, qui permet à l'IA d'apprendre seul, sans la moindre information préalable. Les jeux constituent un exercice d'entraînement particulièrement intéressant, en proposant des situations complexes et variées. Depuis la victoire aux échecs de DeepBlue en 1996, l'intelligence artificielle ne cesse de battre de nouveaux records comme, par exemple, AlphaStar qui est parvenu à maîtriser le jeu StarCraftStarCraft.

    Des chercheurs de chez Facebook et l’université Carnegie-Mellon sont parvenus à créer une intelligence artificielle capable de battre en même temps cinq joueurs de poker professionnels au jeu Texas Hold'em, dans une version à six joueurs, sans limite. Tuomas Sandholm, l'un des chercheurs de l'université Carnegie-Mellon, travaille sur l'intelligence artificielle et le poker depuis 16 ans. Il avait déjà créé en 2015 une IA baptisée Claudico; elle était capable de rivaliser en un contre un, sans pour autant obtenir une victoire nette, contrairement à Cepheus, une autre IA développée par d'autres chercheurs la même année. Une mise à jour de Claudico en 2017, baptisé cette fois Libratus, avait eu beaucoup plus de succès.

    Une première mondiale dans une partie à six joueurs

    Ces précédentes intelligences artificielles ne pouvaient cependant rivaliser qu'en un contre un, et une partie à six joueurs représente un défi beaucoup plus complexe. Contrairement aux jeux comme les échecs ou le jeu de Go où toutes les pièces sont visibles, le poker comporte beaucoup d'inconnues avec les cartes en main des autres joueurs, mais également des informations trompeusesinformations trompeuses lorsque ses adversaires bluffent.

    L'équipe a créé l'intelligence artificielle Pluribus en se basant sur les précédents travaux avec Claudico et Libratus, avec quelques nouvelles innovations, comme la capacité à évaluer uniquement quelques actions à venir plutôt que d'analyser toutes les possibilités jusqu'en fin de partie. Cela permet notamment de changer plus facilement de stratégie face à des joueurs imprévisibles et l'impossibilité de connaître toutes les cartes. Pour réduire la complexité du jeu, ils ont également utilisé un processus appelé abstraction, où certaines actions sont ignorées, tandis que d'autres sont regroupées et considérées comme identiques.

    Les cartes sont retournées pour permettre de comprendre la stratégie de Pluribus. © Carnegie Mellon University

    Une IA très peu coûteuse à entraîner

    Les chercheurs ont affronté leur IA à cinq joueurs professionnels, choisis au hasard parmi 12 des meilleurs joueurs mondiaux, chacun ayant déjà remporté plus d'un million de dollars. Ils ont joué au total 10.000 parties sur 12 jours. Trois des joueurs humains ont également joué 5.000 parties chacun contre cinq copies indépendantes de Pluribus. L'IA a non seulement donné une idée de la manière optimale de joueur, étant capable par exemple d'utiliser des stratégies de manière réellement aléatoire, mais a également fait appel à des stratégies inconnues des professionnels.

    Grâce à l'efficacité des algorithmes utilisés, l'entraînement de l'IA a été particulièrement économe en puissance de calcul. Les chercheurs estiment un coût aux alentours de 150 dollars, à comparer aux millions généralement dépensés pour l'entraînement d'autres intelligences artificielles. Une telle IA, qui nécessite aussi peu d'entraînement, pourrait révolutionner des domaines comme la recherche de médicaments ou la cybersécurité.