Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max!

Thuumbs_Up · Juillet 14, 2019, 6:04

Yes mais je trouve ça étrange ces graph je comprends pas vraiment, si tu win rate baisse tes chips montent moins vite qu’avant la c’est presque le contraire.

Enfin il y a encore beaucoup à lire j’ai du passer seulement sur un quart du doc mais l’explication des résultats pourraient facilement être plus claire quand même je trouve ça dommage pour ce qui est sensé une nouvelle grande avancé dans ce milieu.

yvan161 · Juillet 14, 2019, 9:27

C’est juste un exemple proche du debut de la courbe pour expliquer que le winrate moyen peut diminuer mais que les gains continuent d’augmenter.
L’exemple est implicitement sans changement de limite bien sûr.
On peut supposer que la confrontation se deroule sur une même ‘limite’ sinon ça serait vraiment n’importe quoi

yvan161 · Juillet 14, 2019, 9:44

Ben la cohérence des deux courbes me semble ok. Quels segments te semblent incohérents ?

Oui je trouve dommage que l’ont ne puisse pas savoir exactement de quelle avancée il s’agit.
Les articles de vulgarisation sont trop géneralistes avec parfois des contre-sens et reprennent la conclusion des auteurs sans esprit critique.

L’article des auteurs est bien sûr plus détaillé mais manque parfois de précision (par exemple standard error n’est pas vraiment défini. Ils ne reprennent pas les notions habituelles comme standard deviation ici alors c’est plus dur à comprendre/vérifier).

Ca devrait normalement être à la portée de grindeurs comme nous et certains points restent obscurs.

Je me demande si ce type d’article est vraiment revu et challengé par des paires.

Elrix · Juillet 14, 2019, 10:45

C’est pas plus mal puisqu’il n’y a pas grand monde dans le poker qui semble s’être rendu compte que, par exemple, les trackers ne savent pas la calculer.

On peut chipoter sur le nombre de mains et tout ce qu’on veut mais c’est passer à coté de l’essentiel.
La puissance de calcul du bot est ridicule, les systèmes d’auto-apprentissage ou “l’IA” apprend à jouer contre elle-même sont redoutables.

S’ils veulent rendre leur bot plus efficace, ils doivent avoir pas mal d’idées d’amélioration.
Et plus le bot jouera contre de vrais joueurs, plus il deviendra difficile à battre.

yvan161 · Juillet 14, 2019, 12:44

J’utilise « std Dev bb » de HM2 et les valeurs me paraissent correctes.

OK les concepteurs ont réduit la puissance nécessaire pour mettre au point la stratégie de Pluribus par rapport à celle de Libratus mais il faut être prudent sur la capacité actuel des programmes à être invincibles en NLHE hors HU.

Jetons un œil au principe retenu pour l’auto-apprentissage de Libratus et Pluribus (CFR/CFR+) :

Pour Libratus, en plus de l’auto-apprentissage, il y avait adaptation aux adversaires du tournoi.

Remarque : est-ce vraiment l’IA qui continuait son apprentissage sur un échantillon ridicule par rapport aux calculs d’entraînements ? Du coup, est-ce la recherche du jeu parfait type GTO ou exploitant ou un mixte ?

Ca ne semble pas avoir été l’approche pour Pluribus.

Je ne doute pas que les programmes vont s’améliorer et devenir supérieurs aux être humains dans la plupart des variantes classiques.

La question de l’échantillonnage est quand même une vraie question au poker.

Pour les échecs, on a plus de recul, la valeur d’un être humain est plus facile à déterminer, les parties peuvent être revues … : d’ailleurs ici point de mains pour illustrer la force de la stratégie du programme …

Si le logiciel donkbet à haute fréquence, choisi des sizings inhabituels (comme indiqué dans les témoignages des adversaires) … il peut empêcher les humains de s’adapter sur aussi peu de mains.
Difficile de savoir, s’il choisi une stratégie proche de l’équilibre du coup (ça serait intéressant de faire jouer le bot contre 5 clones de lui-même pour voir s’il est 6 fois EV0 sur 10k mains ).
Et ensuite il faut voir s’il est capable de mixer stratégie exploitante et inexploitable comme un humain sait le faire.

En fait si j’interviens ici c’est bien parce que le sujet m’intéresse et que je ne suis pas un anti-IA.

Mais je pense que pour le poker, on est à l’ère de Deeper Blue où l’on a considéré que l’IA avait battu le meilleur joueur du monde alors qu’il est fort probable que ça soit simplement dû à un bug, que les concepteurs faisaient aussi probablement des ajustements d’algorithmes pour s’adapter vs le joueur et que ce n’était pas de l’AI (plutôt de la puissance de calcul).

A suivre pour les logiciels de poker.

Barth_Gury · Juillet 15, 2019, 3:01

Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max !

« Pendant de nombreuses années, le poker a représenté un défi quasiment insurmontable pour les chercheurs en intelligence artificielle. Ce temps est révolu puisqu’un nouvel algorithme baptisé Pluribus est maintenant capable de battre les tous meilleurs, et plus uniquement en head’s up ! »

LIRE LA SUITE

Elrix · Juillet 15, 2019, 4:32

C’est déjà ce qu’ils font pour l’apprentissage, il se combat lui-même donc j’imagine qu’il doit s’équilibrer.
De toutes manières quand on fait des simulations PIO on voit bien que les changements de stratégie ne changent pas nécessairement l’ev (ou de manière quasi infime) donc contre un humain même très fort en GTO, un système n’aura pas nécessairement besoin de tendre vers la GTO.

Je pense au contraire qu’on n’est bien plus loin que ça
La recherche et les techniques en IA ont tellement évolué depuis cette époque que la situation est totalement différente.
Rien que les systèmes d’apprentissage en jouant contre “soit-même” semblent avoir fait évoluer énormément de choses.

Tout ça pour dire que de la même manière que l’IA de Google qui a battu pour la première fois le champion du monde de Go a fini par évoluer de manière exponentielle, ce sera pareil pour le poker s’ils continuent leur étude.

yvan161 · Juillet 15, 2019, 5:13

Merci pour l’article nettement plus précis (et conforme à la source) que ce que j’ai pu lire jusqu’ici.

Merci aussi pour les mains : je vais jeter un œil.

Précision:

Situation dans laquelle on est sûr de ne pas être perdant

En fait c’est la partie “AVIAT” que j’aurais bien aimé voir explicitée.

Parce que -2,3bb/100 sur 5K mains pour trois joueurs (sachant que c’est une moyenne en plus), je ne sais pas si on peut vraiment arriver à la conclusion que le logiciel surclasse déjà les meilleurs joueurs de 6-max.

Barth_Gury · Juillet 15, 2019, 6:01

Rectifié, merci

De ce que j’ai compris, a été mis en place un système de pondération permettant de limiter la variance, et multiplier le résultat de mains disputées par 10.

Donc dans l’exemple, les résultats prendraient compte de 50.000 mains plutôt que 5000

yvan161 · Juillet 15, 2019, 6:09

Oui pour trouver la même stratégie, le logiciel s’est entraîné contre lui-même sur énormément de situations et donc probablement EV0 au final face à 5 clones de lui-même.

Mais ma remarque était de connaitre le résultat sur 10K mains pour monter qu’il y a trop de variance.

Par exemple dans le format 1H vs 5 AI

(remarque : LlinusLlove n’était pas dans ce format contrairement à ce qu’affirme l’article P.A.).

Ies résultats sont donnés pour les deux joueurs

Mais pas pour chaque instance de Pluribus (plutôt en général)

Remarque : l’article P.A. indique 2,3 comme winrate alors qu’il s’agit plutôt de 3,2 dans l’article d’origine.

Je ne vois pas comment les 5 instances de Pluribus pourraient être à 3,2bb/100 de moyenne face à un seul humain qui perd à peu près la même chose.

Sans compter que la marge d’erreur semble être du même type que celles des instituts de sondage quand ils commentent des variations d’intention de vote de 1% avec une marge d’erreur supérieure

Pour ma comparaison avec les échecs, je ne parlais pas technologie mais de communication. Non seulement ce n’était pas de l’IA mais la main de l’homme intervenait probablement sur au moins le paramétrage. Sans compter que le logiciel pouvait s’appuyer sur des bases de données pour les ouvertures, les finales … Ce n’est plus uniquement de l’intelligence mais de la mémoire.

Pour l’IA de Google et le Go, je ne connais pas. Je vais me renseigner. Mais je pense que le GO, c’est comme les échecs (jeu à information complète) et le poker est différent.

Encore une fois, je trouve le sujet passionnant mais on devrait aussi challenger le discours qui contient aussi une part de marketing et d’intérêts qui vont au-delà de l’amour de la théorie des jeux

yvan161 · Juillet 15, 2019, 6:22

Alors oui c’est ce que j’ai cru comprendre de ce que je donnais en lien

Admettons que le winrate sur 10K mains vaut un winrate sur 100K mains avec AIVAT.

La source n’est pas très cohérente parce qu’elle dit que ce n’est pas applicable pour le format 5H+1AI (mais je ne vois pas pourquoi du coup)

Et ensuite elle donne des winrates pour le format 1H+5AI (alors il s’agirait là des winrates bruts ?).

Mais du coup si on compare le winrate Pluribus ajusté par AIVAT au winrate brut des humains, on compare un peu des choux et des carottes.

Je trouve que c’est la partie faible de leur article : pas facile à décrypter et de vérifier la pertinence de la conclusion du coup.

Sinon as-tu vu les deux coquilles que je pense avoir relevé sur l’article P.A. par rapport à la source ?

‘LlinusLlove’ n’était pas dans l’expérience 1H+5AI
le winrate de Pluribus semble être plutôt 3,2 que 2,3 dans l’expérience 1H+5AI

grosrobert · Juillet 15, 2019, 10:02

Test

grosrobert · Juillet 15, 2019, 10:11

Salut,
Bon je ne sais tjs pas poster un replayer sur ce site mais sinon pour ceux que ça intéresse vous pouvez regarder les mains jouées par notre ami Pluribus en cliquant sur les liens que je vais poster par la suite.

grosrobert · Juillet 15, 2019, 10:19

J’arrête là, j’avais pas vu qu’il y en avait autant.
Pour aller plus loin : Let's analyze Pluribus's Hands!

edit :
Brefs commentaires après survol des mains postées :

preflop :

sérieux et discipliné, pas de folies, plutôt « standard » pour autant que ça veuille dire quelquechose
range de flat SB vs any position (ATsvsBTN, TTvsBTN, du Axs vs early de mémoire, KQsvsCO, 99vsCO, etc…)
OR : de min raise à 2.5x, je crois pas avoir plus gros sauf une fois
sizing 3B du côté big de la force, 3.6x BTNvsCO, 4x BB vs early, 5.9x SBvsMP w/ AKo mais aussi 3x « only » IP w/ AA
bizarrerie : fold 22 IP vs open alors que call 33 SBvsMP (probablement moins gros risque de squeeze…)

postflop :

des plays « typiques » de bot pour le peu que je connais de snowie, parfois tricky, souvent « intelligent ».
c bet 2X pot MPvsBB SRP w/ AQo on 36Tr…
sizing 1/2 pot remis au goût du jour, très usité par Pluribus.

edit

Salut,
Encore beaucoup de points nébuleux mais concernant ce point précis j’ai eu le fin mot de l’histoire :
La participation de llinuslove est intervenue après la rédaction de l’article de « science ». Mais il a bien participé à l’exp 1H+5AI et a fait -0.5bb/100.

yvan161 · Juillet 18, 2019, 9:26

Merci pour le lien vers ce blog.

Du coup, ça explique aussi le -2,3bb/100 de moyenne final sur le format 1H+5AI.
Soit +0,46bb/100 par instance d’IA : même si l’on admet la pertinence de l’AIVIAT pour ramener les 5K à l’équivalent de 50K, c’est pas ce que j’appelle crush sa limite

Bizarrement dans ce format c’est la relative contre-performance humaine qui est mise en avant alors que dans le format 5H+1AI, c’est le winrate du bot qui est mis en avant.

Soit, dans ce format, 5bb/100 sur ‘équivalent’ 100K mains, semble un bon résultat mais la conclusion …

… me semble exagérée et de nouveau ils comparent des choux et des carottes.

Exagérée parce que il faut avoir conscience que les winrates que l’on a en tête comprennent l’impact du rake (qu’il n’y avait pas ici dans l’expérience évidemment).

La comparaison serait intéressante effectivement si l’on avait eu des tables aussi avec d’autres types de profils (par exemple des CS qui peuvent mettre à mal la stratégie de bluff du bot).

Je pense que le logiciel a effectivement posé des problèmes aux humains et ouvert la voie à des questions sur la stratégie mais c’est un peu tôt vu l’échantillon pour dire que le bot crush l’humanité

En tout cas, ton analyse qualitative est intéressante car c’est surtout cette partie qui peut aider à faire évoluer la théorie.

Par exemple ,aujourd’hui la tendance est à une range full ‘3bet or fold’ de défense de SB alors que le bot a choisi une stratégie contenant une range de flat.

A suivre

Nico · Juillet 18, 2019, 9:54

Même si les résultats sont optimistes par rapport au niveau du bot réel, ça sent pas bon…
Le bot continue de progresser à l’heure où l’on parle, et dans quelques mois sa supériorité sera unanime.

Pour AlphaGo c’était pareil, il faisait plein d’erreurs à jouer contre le champion européen et qu’il réussira jamais à battre l’un des meilleurs mondiaux, même en quelques mois il pourra pas réparer toutes ses énormes erreurs… et puis au final l’humain a été totalement dominé.

Et les programmeurs qui disent que c’est une surprise, qu’ils ne savent pas comment c’est possible : mon cul. Ils prendraient pas le risque de jouer si ils étaient pas un minimum sûr de la qualité de leur AI.

grosrobert · Juillet 18, 2019, 10:08

Salut,

Alors concernant les 10K hands que nous avons à disposition, j’ai fait une ou deux recherches à droite à gauche et sauf erreur (si qq’un a l’info contradictoire, merci de l’indiquer ici) elles correspondent à l’exp 1AI+5H. Il n’y a donc qu’une IA à table. Pour les 5 humains, malheureusement on ne sait pas qui se cache derrière les pseudos, et ça a une certaine importance de mon point de vue car il n’y a pas que des champions de CG 6 max parmi les 13 choisis pour affronter Pluribus…
Un pote a téléchargé les 10K hands dans PT4, voici quelques stats plus fiables que mes observations initiales :
Stats de Pluribus : 27/18
3bet SB vs BTN : 11.5%
BB vs BTN : 10.8 %
BB vs SB : 17.1 %

Cbet overall 49 %
OOP : 31% IP : 56 %
Bet vs missed cbet flop : 33 %

Fold to cbet oop : 49%
Fold to cbet ip : 34 %

BB vs SB : Fold 36 % Flat 47 %
BB vs BTN : Fold 42 % Flat 47 %

Stab turn 28% continue river 46 %

RFI UTG 18% UTG1 24% CO 31 % BTN 42% SB 33%

A noter que certaines stats preflop sont très différentes des ranges preflop solve par les solvers, par exemple le 33% RFI SB, il faut savoir que Pluribus a une stratégie de limp depuis cette position.
Pour le postflop, pas souvenir d’avoir vu Pluribus c bet 1/3 pot en SRP, c’est plutôt 1/2 pot.
Si n’a pas c bet, une de ses lignes préférentielles est de delay 25% pot turn.

To be continued…

Kouchto · Juillet 18, 2019, 11:07

C’est super intéressant comme infos ça (ce n’est pas du tout ironique quand je dis ça)

Barth_Gury · Juillet 18, 2019, 11:15

Petit teaser, Freudinou est entrain de nous préparer un super article : On va reprendre toutes les mains “intéressantes” (gros pots) du bot, et en tirer une analyse technique.

On va bientôt savoir comment on jouera ds 2 ans

yvan161 · Juillet 18, 2019, 1:10

Oui, je ne dis pas que l’ordinateur ne sera jamais plus fort que les humains au poker (je suis convaincu du contraire). Peut-être que ça sera très rapidement, peut-être un peu plus long.

Ici les conditions de confrontations étaient quand même peu favorables aux humains : tables incognito, pas de tracker je suppose, probablement pas de préparation … mais surtout pas vraiment le temps de pouvoir trouver des stratégies en temps réel pour contrer le bot.

Pour les échecs (idem pour le GO je suppose), c’est plus clair pour être sûr que le programme bat le meilleur du monde.

A la fois parce que le niveau est codifié de façon fiable et parce que le résultat (gain ou perte) n’est pas soumis à la variance.

Ca sera toujours plus dur au poker d’avoir les certitudes sur ces points.

Mais à nouveau, je suis d’accord que ça ne sent pas bon pour la supériorité des humains sur la machine en 6max

En tout cas, les premiers éléments communiqués par @grosrobert sont vraiment intéressants alors des mains analysées par un coach, ça sera le top

Non le top ça sera le second article de @freudinou : « Comment battre Pluribus par une stratégie de pot/pot/pot »