Analyse du jeu de Pluribus, l'IA "invincible" de Facebook

Barth_Gury · Août 13, 2019, 3:27

A travers une étude de mains, Freudinou vous propose une analyse détaillée de la rencontre disputée entre la nouvelle IA de Facebook, et des joueurs pros de poker. Devons-nous rééllement craindre la nouvelle machine ?"

LIRE L’ANALYSE

yvan161 · Août 13, 2019, 4:36

Superbe article @Freudinou

phit · Août 13, 2019, 7:04

Merci pour cette article @Freudinou

trunkcorp500 · Août 13, 2019, 8:10

J’aime ce bot, quelle cyber créativité !
On m’aurait dit que la créativité dans ce jeu allait réapparaître avec un bot je l’aurais pas cru.

Freudinou · Août 13, 2019, 9:16

Et PIO Solver kangourou, ça sert à quoi ?

On a eu un petit souci technique, vous aurez également les stats détaillées du logiciel et ses ranges d’open raise demain à priori.

Lacerta_max · Août 14, 2019, 6:35

Merci pour l’article. Vraiment intéressant.

Le bluff catch avec 33 est assez incroyable quand même. Je ne le comprends pas.

Renard9 · Août 14, 2019, 7:32

Si j’ai bien compris, l’objectif était de développer une nouvelle forme de IA. En simplifiant, historiquement, les IA de poker sont basées sur pio et vont donc chercher le meilleurs coups. Aujourd’hui encore, la combinatoire est trop importante pour jouer en temps réel ( = l’ordinateur fait des raccourcis) et l’ordinateur fait trop d’erreurs.
Dans cette nouvelle forme de IA, on a donné simplement les règles du poker et quelques lignes de jeux (il me semble que les sizing en faisaient parti). Ensuite, l’ordinateur a simplement joué contre lui-même (probablement, en ajoutant “volontairement” des erreurs à son jeu) pour affiner son jeu.
En seulement 10 000 mains, il a atteint un niveau que je trouve remarquable (même en ayant une variance exceptionnellement positive, je ne crois pas que l’un d’entre nous, reussirai à battre les humains sur ce nombre de mains).
Si l’ordinateur avait eu 100 fois plus de mains, pour s’entraîner aurait il développé des lignes plus étranges ?
Si ses adversaires avaient développé des lignes étranges (éventuellement, avec une nouvelle phase d’apprentissage), aurait il intégré ses lignes ?

trunkcorp500 · Août 14, 2019, 7:38

Je sais pas à quoi sert pio, j’utilise équilab.

Freudinou · Août 14, 2019, 7:47

Des questions (très) intéressantes qui hélas, n’auront probablement pas de réponse car c’est peu probable qu’il y ait un match revanche.

Freudinou · Août 14, 2019, 7:47

Lacerta_max · Août 14, 2019, 7:58

La question que je me pose, c’est qu’est-ce qu’apporte Pluribus par rapport à Snowie. Si j’ai bien compris ils ont la même forme d’apprentissage ? Ils jouent contre eux-même puis contre des humains, et apprennent par “tâtonnement”.

D’ailleurs que devient Snowie dans ses rencontres vs humains ?

J’aimerais bien savoir ce que donnerait un match Pluribus-Snowie …

Renard9 · Août 14, 2019, 10:13

Pluribus est surtout révolutionnaire dans son apprentissage. 10 000 mains est un échantillon très très petit pour apprendre (c’est aussi pour cela qu’il y a eu des raccourcis). Il préfigure plutôt une nouvelle génération de IA peu coûteuse, mais cependant performante.

Je n’ai pas trouvé beaucoup d’informations sur snowies. Globalement, il semble fonctionner sur des réseaux de neurones (= programmes d apprentissage des années 90) et de la GTO (= des math pour déterminer le meilleur coup ? ). Dans tous les cas, cela demande une puissance de calcul et cela a donc un coup important.

Désolé donc, mais je ne crois pas que la différence soit à chercher dans l’utilisation pratique du logiciel, mais plus dans la façon de fabriquer le logiciel

yvan161 · Août 14, 2019, 12:30

Sauf que non. Pluribus a joué des milliards de mains contre lui-même avant la rencontre et qu’il n’a pas appris des 10 000 mains jouées contre les humains.

grosrobert · Août 14, 2019, 2:10

Salut @Freudinou,
Tu as des infos sur le fait que Linus serait MrPink ou c’est juste une supposition personnelle de ta part ?

Freudinou · Août 14, 2019, 4:49

Voici ce que j’ai relevé au détour de divers articles (par contre j’ai fait la bourde de ne pas sauvegarder les sources des extraits mais je peux retrouver les articles originaux) :

By playing trillions of hands of poker against itself, Pluribus created a basic strategy that it draws on in matches. At each decision point, it compares the state of the game with its blueprint and searches a few moves ahead to see how the action played out. It then decides whether it can improve on it. And because it taught itself to play without human input, the AI settled on a few strategies that human players tend not to use.

Pluribus plays a fixed strategy that does not adapt to the observed tendencies of the opponents

Pluribus’s self play produces a strategy for the entire game offline, which we refer to as the blueprint strategy. Then during actual play against opponents, Pluribus improves upon the blueprint strategy by searching for a better strategy in real time for the situations it finds itself in during the game. In subsections below, we discuss both of those phases in detail, but first we discuss abstraction, forms of which are used in both phases to make them scalable.

Action abstraction reduces the number of different actions the AI needs to consider. No-limit Texas hold’em normally allows any whole-dollar bet between $100 and $10,000. However, in practice there is little difference between betting $200 and betting $201. To reduce the complexity of forming a strategy, Pluribus only considers a few different bet sizes at any given decision point. The exact number of bets it considers varies between one and 14 depending on the situation. Although Pluribus can limit itself to only betting one of a few different sizes between $100 and $10,000, when actually playing no-limit poker, the opponents are not constrained to those few options. What happens if an opponent bets $150 while Pluribus has only been trained to consider bets of $100 or $200? Generally, Pluribus will rely on its search algorithm, described in a later section, to compute a response in real time to such “off-tree” actions.

Because Pluribus’s strategy was determined entirely from self-play without any human data, it also provides an outside perspective on what optimal play should look like in multiplayer no-limit Texas hold’em. Pluribus confirms the conventional human wisdom that limping (calling the “big blind” rather than folding or raising) is suboptimal for any player except the “small blind” player who already has half the big blind in the pot by the rules, and thus has to invest only half as much as the other players to call. While Pluribus initially experimented with limping when computing its blueprint strategy offline through self play, it gradually discarded this action from its strategy as self play continued. However, Pluribus disagrees with the folk wisdom that “donk betting” (starting a round by betting when one ended the previous betting round with a call) is a mistake; Pluribus does this far more often than professional humans do.

A noter que c’est peut-être mon niveau d’anglais qui est insuffisant mais je trouve que dans la manière de présenter les choses de la part de Facebook dans leur communication grand public (cf leur sélection de mains), on peut avoir l’impression que Pluribus s’adapte au field et fait “volontairement” des moves que les humains ne savent pas gérer. Enfin ce n’est que mon interprétation bien subjective.

Freudinou · Août 14, 2019, 4:52

Sur les forums américains, certains pensent que c’est lui sous ce pseudo (mais bon, il y a diverses spéculations). Le problème, c’est que je ne sais pas qui est derrière les pseudos américains…Je n’ai vu cette théorie qu’après avoir visionné les mains, donc je n’ai pas été particulièrement attentif au style de M.Pink, je peux simplement dire qu’il m’est apparut comme étant solide effectivement.

grosrobert · Août 14, 2019, 6:10

Ok.
Forums américains, j’imagine que tu fais référence à 2+2 ?
Je suis tombé sur une vidéo (proposition youtube) où le mec pensait que Linus était MrOrange mais pareil je ne sais pas qui est ce mec ni ce qu’il vaut au poker.
(pour la petite histoire d’ailleurs, il a eu ce commentaire à propos de MrBlue : “seems to be an extraordinary strong player” )

yvan161 · Août 14, 2019, 10:31

Voici les liens issus des échanges précédents sur le sujet

L’article initial des auteurs n’est plus accessible publiquement

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

La communication FB si

Pas du tout : au contraire Pluribus ne s’adapte pas aux humains.

Ni avant le match ni pendant.

Il a ‹ juste › joué contre lui de très nombreuses fois pour trouver les lignes les plus rentables qui peuvent battre les meilleurs joueurs d’après eux (en moins de vingt heures de calcul et en moins de 7 heures pour le commun des joueurs de poker).

A noter qu’il pourrait même les battre en limpant apparemment d’après le graphe et qu’il ne peut quasiment plus progresser.

A noter aussi qu’il n’implémente pas la recherche d’un équilibre de Nash (impossible à plus de deux) et donc il est abusif de parler de GTO et ça ne sert à rien de comparer ses résultats à des solvers à mon avis.

Il est même peut-être abusif de parler d’IA puisque la machine n’apprend pas en jouant contre les humains et donc ne s’adaptera pas contre différents profils pour optimiser ses gains par exemple (ce qu’n reg de micro sait faire au passage).

Peut-être que la force brute de jouer contre lui-même est suffisante pour surclasser les humains (mais ça ne nous apprend pas grand-chose pour progresser si on ne comprend pas le pourquoi des lignes).

En tout cas comme tu l’as dit, la bataille de la communication est gagnée (par FB) au vu de tous les articles que l’on trouve désormais même s’ils utilisent quelques raccourcis

Je n’ai pas l’information sur la taille des participants

Y’a qu’à mettre des degen un peu plus bluffeurs ou des CS pour voir

Ah ben non, pas de code source, pas de possibilité de jouer contre Pluribus, … fermer le ban.

yvan161 · Août 14, 2019, 10:49

@Freudinou

Vraiment ?
Dans l’échantillon que tu nous présentes, Pluribus size x2 ou x2,25 (excepté une fois à x2,5). Ce sont plutôt les humains qui ont varié leur sizing PF dans les mains présentées.

As-tu constaté ce qui est avancé par Seth David, j’ai pas l’impression que vous ayez la même analyse ?

J’ai quand même pas l’impression que ce soit la stratégie PF qui ait pu déstabiliser à ce point les pros (surtout si mixer c’est faire entre x2 et x2,5).

Remarque : à noter le limp UTG (JJ mains 3 de “Et si ça ne suffit pas, il sortira le bluff de la mort (4 mains)”) alors qu’il est censé avoir évacué le limp hors SB (il bluffe même ces concepteurs ?).

Freudinou · Août 15, 2019, 8:00

Super, merci @yvan161 !

Oui j’ai vu que l’article le plus complet n’est plus disponible publiquement, c’est bien dommage…

Et oui mais dans la com, je trouve que c’est parfois un peu flou…enfin bon, disons que c’est un détail d’appréciation.

Sur 2+2 j’ai lu que les développeurs ne mettaient pas le code source à disposition pour éviter qu’il ne tombe entre de mauvaises mains et nous protéger nous humains. Mais paraît-il qu’il a déjà été partagé avec certains membres de leur université et sera donc fatalement partagé par les personnes capables de le trouver dans sa cachette du net. Ainsi la pulsion épistémophilique de ces individus sera assouvie…

Si son principal challenge c’était de s’adapter aux petites variations de sizings préflop, tu m’étonnes “qu’on” (nous les humains) s’est fait défoncé…Non sérieusement, il troll ? Ca me rappelle une vieille vidéo de Zugzwang en NL 200 où il expliquait qu’il variait ses sizings à 2,5x/3x sans aucune raison mais que ça le faisait marrer que ses adversaires cherchent pourquoi. Le logiciel aurait commencé à open 5x bouton je dis pas mais là…

Concernant le limp en dehors de la SB, sincèrement, ça a été des très rares exceptions, je n’ai pas le chiffre en tête mais je dirais pas plus de 3.