Analyse du jeu de Pluribus, l'IA "invincible" de Facebook

Analyse du jeu de Pluribus, l'IA

A travers une étude de mains, Freudinou vous propose une analyse détaillée de la rencontre disputée entre la nouvelle IA de Facebook, et des joueurs pros de poker. Devons-nous rééllement craindre la nouvelle machine ?

 

Introduction

C’est l’information qui agite le monde du poker cet été : une intelligence artificielle développée par Facebook aurait battue les humains en table 6-max. Les faits sont graves mes amis.

Je vais donc vous demander d’être très attentifs aux détails. Pluribus – c’est son nom - a joué 10 000 mains contre 5 humains (5H + 1AI) et 10 000 mains avec 5 copies de lui-même contre 1 humain (1H + 5AI). Si mes sources sont fiables (et elles le sont car elles sont en anglais), Pluribus ne s’adapte pas spécifiquement à ce qu’il observe chez ses adversaires mais pour simplifier les choses, chaque fois qu’il joue, il se demande s’il aurait pu faire mieux. Apparemment, les humains se sont pris une rouste. Il faut un master en maths pour déchiffrer le résultat, mais étant naïf de nature, je vais croire celui qui nous est communiqué. 


Les adversaires de Pluribus en 5H + 1AI étaient Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, Greg Merson, Nicholas Petrangelo, Sean Ruane, Trevor Savage, et Jacob Toole. Ils sont présentés comme l’élite du poker. En un humain contre Terminator, nous avions Chris « Devil » Ferguson et Darren Elias. 13 joueurs, 10 000 mains jouées. En vérité, sachez que je devrais arrêter mon article ici en concluant « hâte de voir la suite de ce challenge ! », n’importe quel joueur un minimum au fait de ce qu’on appelle la variance comprendra pourquoi mais de vous à moi, je suis payé une certaine somme pour l’écrire alors si je m’arrête, je risque d’avoir des problèmes...Et puis il semblerait qu’il existe un régulateur de variance AIVAT qui rend plus crédible ces résultats alors on va continuer.


La rémunération proposée au regard du palmarès annoncé de ces joueurs ne me semblait pas exceptionnelle. Cela devrait nous garantir que c’est plus le challenge que l’argent qui a motivé ces derniers, néanmoins, je me dois de spoil un minimum et de renommer de suite ces joueurs en accusés… La victoire de Pluribus est selon moi intéressante aussi bien au niveau technique que psychologique.

 

Le style de Pluribus

Ce qui qualifie le mieux à mon sens le style de l’IA est : solide avec des éclairs de créativité postflop. Le programme n’ouvre pas de mains marginales et n’opère pas de défenses qui pourraient paraître légères. Son style préflop fait penser a du poker old school. Il n’essaye pas de défendre ses blinds outrageusement et ne se prive pas de faire des calls en SB. Il adopte également une stratégie de raise ou limp en SB contre la BB. Il mixe ses sizings de relance.

Concernant le jeu postflop, il utilise de multiples sizings mais semble avoir des préférences pour les ¼ pot, ½ pot, pot et overbet 2x le pot.  Pour parler un peu stats, il est 27/18 avec 7 % de 3bet, un agression factor à 2,3 et un agression frequency de 52 %. Pour les non initiés, ces stats sont tout à fait normales et pourraient même faire penser à un joueur régulier d’un niveau douteux sur les tables.  On constate que le logiciel ne cherche pas l’exploitation des tendances. Par exemple, il ne tente pas des stratégies de continuation bet excessives ou miser outrageusement quand les joueurs check et semble privilégier des lignes qui ne vont laisser aucune place à l’exploitation.

Ceci étant, une tendance générale au slow play semble se dessiner, en tout cas c’est la perception que pourrait avoir un observateur. Je sais d’expérience que ce style de jeu va donner le sentiment que l’adversaire a toujours touché et que le moindre check de notre part laisse ce dernier toucher ses outs. Nul doute que cela a été assez désagréable pour ses opposants.

 

Le jeu des humains

En préambule, je me dois de préciser que la position de commentateur est plus que confortable : je suis assis tranquillement en voyant toutes les cartes et si nécessaire, je peux m’aider de mon ami le solver. Etant donné que je m’apprête à dézinguer des joueurs qui me feraient probablement tous la misère sur les tables, je me devais de préciser cela.

J’ai regardé les 10 000 mains les unes après les autres de l’expérience 5 joueurs contre Pluribus afin de mieux comprendre les dynamiques et de juger au mieux de l’aspect variance. Bien entendu, j’espérais voir aussi quelques lignes de jeu intéressantes à intégrer dans mon propre jeu. J’étais particulièrement curieux de voir les lignes employées dans les pots mutliway. Venons-en aux faits. Je pense clairement que les joueurs n’ont pas saisi la dimension de l’enjeu.

En revoyant les coups, on se demande même si certains ont déjà utilisé un solver. Le field donne l’impression d’observer l’ordinateur pour pouvoir s’adapter ensuite. Lourde erreur à mon sens, cette stratégie était vouée à l’échec en 10 000 mains. On le voit par exemple sur les overbets au flop où les joueurs vont folder des mains moyennes comme on attendrait d’en savoir un peu plus contre un adversaire qui nous fait ce move pour la première fois.

 

Un coup qui m’a posé question par exemple :

  • Chargement de la main 0%

 

 

Le call avec cette main est loin d’être agréable au flop, c’est certain. Néanmoins, un joueur travaillant avec des solvers sait qu’un overbet au flop est une ligne de jeu tout à fait classique et on s’attend donc à voir plus de résistance dans ce genre de spot. Ici PIO Solver paiera ce Kd 3d à la place de notre représentant humain.  

La créativité dans les lignes de jeu se limite à quelques overbets turns et parfois à la river…Ils semblent également de plus en plus slow play les gros jeux au fur et à mesure que le match avance, ce qu’a fait l’IA dès le début. Globalement, ils ont joué solides comme on dit et à ce jeu là, Pluribus est le meilleur. Je pense qu’il aurait été intéressant de justement appuyer sur le côté variance.

Par exemple aucun joueur n’a tenté de faire un all-in river avec les nuts dans un pot relativement petit, se contentant de mettre des sizings classiques. C’est pour moi incompréhensible de ne pas avoir vu plus de créativité dans les lignes de jeu de la part des humains qui se sont contentés de jouer leur stratégie du quotidien. Je viens du monde des échecs, un milieu dans lequel la préparation est centrale.

On pouvait s’attendre à ce que plusieurs joueurs amènent des « nouveautés théoriques » spécifiquement préparées contre l’ordinateur, qu’ils jouent un peu plus sur le « bug » du logiciel. C’est un match qu’il faut remporter, on n’est pas là pour savoir si notre jeu va tenir sur 1 million de mains. Il n’en a rien été selon moi.

 

Tout juste ai-je eu de l’espoir en visionnant ce coup :

  • Chargement de la main 0%

 

 

Mais au final, cette mise d’1 bb à la turn me fait plus penser à un missclick qu’une véritable volonté de faire « buger » le logiciel. Globalement, j’ai eu le sentiment d’assister à ce qu’on appelle le « bystander effect » en psychologie ou effet du témoin. Chacun semble attendre qu’un autre joueur commence à prendre des lignes créatives et voir les réactions pour commencer à faire de même.

En bref : que quelqu’un prenne ses responsabilités. Ce qui n’arrivera quasiment jamais dans le challenge que j’ai observé, à l’exception d’un joueur : un certain Mr Blue. Comment décrire le style de Mr Blue ?

Et bien…ça ressemble à ça :

 

C’est très certainement celui qui aura fait le plus n’importe quoi contre le logiciel (de mon point de vue) mais également celui qui l’aura mis le plus en « difficulté ». En résumé, ce n’est pas parce qu’il faisait n’importe quoi que cela signifiait que c’était n’importe quoi de le faire…vous me suivez ?

Quand on regarde une à une les mains, on se rend compte que cela n’a aucun sens de juger d’une victoire sur 10 000 mains au regard de la variance et on pourrait donc conclure que le résultat n’a pas de sens. Peut-être que les joueurs auraient fini par mieux s’adapter sur un plus gros échantillon. Néanmoins, une chose est sûre, sur ce panel, la supériorité de Pluribus est sans conteste et surtout incontestée.
 

Un match pris à la légère pour une défaite potentiellement lourde de conséquences 

Aux yeux du grand public et de nombreux amateurs de poker, la conclusion est simple : l’ordinateur bat désormais l’humain au poker. Certes, il n’y a aucun doute que cela finisse par arriver mais aujourd’hui mon sentiment est que Pluribus a gagné par forfait. Même dans la communication des résultats.

Ce petit panel de joueur est devenu la représentation de la communauté poker, qu’elle le veuille ou non avec les éventuelles conséquences que cela peut avoir dans l’imaginaire collectif. Ce qui s’est passé est finalement révélateur de notre milieu. Ces joueurs ont joué pour eux-mêmes, ils ne verront sûrement pas au nom de quoi ils portaient une responsabilité et ils auront raison car nous n’avons aucune institution établie, aucun classement unanime, comme c’est le cas dans les autres disciplines, qui régulent notre petit monde. 

A présent, je vous propose une sélection de mains de ce match classées par thème.

 

Pluribus commence par expliquer à ses adversaire que quand il mise ou relance, on fold (7 mains)

  • Chargement de la session 0%

 

 

Et si ça ne suffit pas, il sortira le bluff de la mort (4 mains)

  • Chargement de la session 0%

 

 

 

…qui ne marche pas toujours ceci dit (3 mains)

  • Chargement de la session 0%

 

 

 

Note : oui depuis toutes ces années vos bluffs qui ne passent jamais sont corrects, ils sont GTO ! C’est juste que vos adversaires ne sont pas assez bons pour les comprendre…

Autre variante : le smoothie bluff

  • Chargement de la main 0%

 

 

 

Bluffer n’est pas tout au poker, encore faut-il savoir attraper les bluffs de ses adversaires et dans ce rayon, on voit que Pluri n’a (presque) rien à m’envier :

  • Chargement de la main 0%

 

 

 

Les humains tentent une révolte (enfin ils se réveillent…) (3 mains)

  • Chargement de la session 0%

 

 

 

Pluri est un bot, mais ce n’est pas pour autant qu’il n’aime pas être taquin avec ses slow plays (2 mains)

  • Chargement de la session 0%

 

 

 

Tu t’appelles Linus ? Ba moi je vais te mettre sous l’abribus (oui je fatigue un peu après 10 000 mains…)

  • Chargement de la main 0%

 

 

 

En dernier recours, Pluribus se transforme en maître de la variance

  • Chargement de la main 0%

 

 

 

Pour finir, le match dans le match MrBlue vs Pluribus (10 mains)

  • Chargement de la session 0%

 

 

Comme vous le savez, je viens du monde des échecs. Les joueurs de ma génération gardent en tête la victoire de Deep Blue contre Kasparov, symbole du triomphe de la machine sur l’Homme.

L’histoire semble se répéter, on a le sentiment que l’Homme a perdu ce match emporté par ses émotions et ses défauts, plus que par un manque de capacités et de technique. Il sera sûrement intéressant de voir s’il utilisera sa création comme moteur pour se dépasser et en tirer des leçons aussi bien techniques que mentales.

 

Annexes

Les stats de pluribus

 

 

Les ranges d'open par position

 

UTG

 

HIGHJACK

 

CUT-OFF

 

BOUTON

 

SMALL BLIND

 

RANGE D'OPEN LIMP EN SMALL BLIND

 

 

Poker Management System

Présentation de Freudinou


Joueur de poker professionnel et coach sur Poker Académie depuis 2013, Freudinou a coaché à ce jour plus de 150 joueurs dont certains sont aujourd’hui professionnels. Il peut coacher des joueurs jusqu’en NL 30, son approche se veut construite et organisée. Psychologue de formation, l’aspect mental du jeu, encore bien souvent négligé, fait partie intégrante de ses coachings. Il a également une bonne maîtrise des logiciels poker (Trackers, Flopzilla, PIO Solver…). Pour plus d'informations, cliquer sur sa fiche coach.

 

SA FICHE COACH relatif_id_4



 

Statut premium Poker Académie

Devenez membre premium

 

  Vidéos en illimité : Accès illimité à nos 1600 vidéos pédagogiques

  Diffusion continue : 2 vidéos premium par semaine d'un top coach

  Contenus techniques : Accès illimité à l’ensemble de nos e-book, quizz et articles

  Tickets à gagner : Tournois privés, 400€ distribués chaque mois

  Rakeback boosté : Un programme de fidélité boosté sur nos rooms partenaires

 

JE DEVIENS PREMIUM

 PA  33 2675   63 Commentaires