Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max!

Barth_Gury · Juillet 15, 2019, 3:01

Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max !

« Pendant de nombreuses années, le poker a représenté un défi quasiment insurmontable pour les chercheurs en intelligence artificielle. Ce temps est révolu puisqu’un nouvel algorithme baptisé Pluribus est maintenant capable de battre les tous meilleurs, et plus uniquement en head’s up ! »

LIRE LA SUITE

Elrix · Juillet 15, 2019, 4:32

C’est déjà ce qu’ils font pour l’apprentissage, il se combat lui-même donc j’imagine qu’il doit s’équilibrer.
De toutes manières quand on fait des simulations PIO on voit bien que les changements de stratégie ne changent pas nécessairement l’ev (ou de manière quasi infime) donc contre un humain même très fort en GTO, un système n’aura pas nécessairement besoin de tendre vers la GTO.

Je pense au contraire qu’on n’est bien plus loin que ça
La recherche et les techniques en IA ont tellement évolué depuis cette époque que la situation est totalement différente.
Rien que les systèmes d’apprentissage en jouant contre « soit-même » semblent avoir fait évoluer énormément de choses.

Tout ça pour dire que de la même manière que l’IA de Google qui a battu pour la première fois le champion du monde de Go a fini par évoluer de manière exponentielle, ce sera pareil pour le poker s’ils continuent leur étude.

yvan161 · Juillet 15, 2019, 5:13

Merci pour l’article nettement plus précis (et conforme à la source) que ce que j’ai pu lire jusqu’ici.

Merci aussi pour les mains : je vais jeter un œil.

Précision:

Situation dans laquelle on est sûr de ne pas être perdant

En fait c’est la partie « AVIAT » que j’aurais bien aimé voir explicitée.

Parce que -2,3bb/100 sur 5K mains pour trois joueurs (sachant que c’est une moyenne en plus), je ne sais pas si on peut vraiment arriver à la conclusion que le logiciel surclasse déjà les meilleurs joueurs de 6-max.

Barth_Gury · Juillet 15, 2019, 6:01

Rectifié, merci

De ce que j’ai compris, a été mis en place un système de pondération permettant de limiter la variance, et multiplier le résultat de mains disputées par 10.

Donc dans l’exemple, les résultats prendraient compte de 50.000 mains plutôt que 5000

yvan161 · Juillet 15, 2019, 6:09

Oui pour trouver la même stratégie, le logiciel s’est entraîné contre lui-même sur énormément de situations et donc probablement EV0 au final face à 5 clones de lui-même.

Mais ma remarque était de connaitre le résultat sur 10K mains pour monter qu’il y a trop de variance.

Par exemple dans le format 1H vs 5 AI

(remarque : LlinusLlove n’était pas dans ce format contrairement à ce qu’affirme l’article P.A.).

Ies résultats sont donnés pour les deux joueurs

Mais pas pour chaque instance de Pluribus (plutôt en général)

Remarque : l’article P.A. indique 2,3 comme winrate alors qu’il s’agit plutôt de 3,2 dans l’article d’origine.

Je ne vois pas comment les 5 instances de Pluribus pourraient être à 3,2bb/100 de moyenne face à un seul humain qui perd à peu près la même chose.

Sans compter que la marge d’erreur semble être du même type que celles des instituts de sondage quand ils commentent des variations d’intention de vote de 1% avec une marge d’erreur supérieure

Pour ma comparaison avec les échecs, je ne parlais pas technologie mais de communication. Non seulement ce n’était pas de l’IA mais la main de l’homme intervenait probablement sur au moins le paramétrage. Sans compter que le logiciel pouvait s’appuyer sur des bases de données pour les ouvertures, les finales … Ce n’est plus uniquement de l’intelligence mais de la mémoire.

Pour l’IA de Google et le Go, je ne connais pas. Je vais me renseigner. Mais je pense que le GO, c’est comme les échecs (jeu à information complète) et le poker est différent.

Encore une fois, je trouve le sujet passionnant mais on devrait aussi challenger le discours qui contient aussi une part de marketing et d’intérêts qui vont au-delà de l’amour de la théorie des jeux

yvan161 · Juillet 15, 2019, 6:22

Alors oui c’est ce que j’ai cru comprendre de ce que je donnais en lien

Admettons que le winrate sur 10K mains vaut un winrate sur 100K mains avec AIVAT.

La source n’est pas très cohérente parce qu’elle dit que ce n’est pas applicable pour le format 5H+1AI (mais je ne vois pas pourquoi du coup)

Et ensuite elle donne des winrates pour le format 1H+5AI (alors il s’agirait là des winrates bruts ?).

Mais du coup si on compare le winrate Pluribus ajusté par AIVAT au winrate brut des humains, on compare un peu des choux et des carottes.

Je trouve que c’est la partie faible de leur article : pas facile à décrypter et de vérifier la pertinence de la conclusion du coup.

Sinon as-tu vu les deux coquilles que je pense avoir relevé sur l’article P.A. par rapport à la source ?

‘LlinusLlove’ n’était pas dans l’expérience 1H+5AI
le winrate de Pluribus semble être plutôt 3,2 que 2,3 dans l’expérience 1H+5AI

grosrobert · Juillet 15, 2019, 10:02

Test

[replayer=10002183]

grosrobert · Juillet 15, 2019, 10:11

Salut,
Bon je ne sais tjs pas poster un replayer sur ce site mais sinon pour ceux que ça intéresse vous pouvez regarder les mains jouées par notre ami Pluribus en cliquant sur les liens que je vais poster par la suite.

[replayer=10002263]
https://www.poker-academie.com/replayer/session/10002263
https://www.poker-academie.com/replayer/session/10002336
https://www.poker-academie.com/replayer/session/10002431

grosrobert · Juillet 15, 2019, 10:19

https://www.poker-academie.com/replayer/session/10002519
https://www.poker-academie.com/replayer/session/10002599
https://www.poker-academie.com/replayer/session/10002671
https://www.poker-academie.com/replayer/session/10002792
https://www.poker-academie.com/replayer/session/10002903
https://www.poker-academie.com/replayer/session/10003017

J’arrête là, j’avais pas vu qu’il y en avait autant.
Pour aller plus loin : http://kevinwang.us/lets-analyze-pluribuss-hands/

edit :
Brefs commentaires après survol des mains postées :

preflop :

sérieux et discipliné, pas de folies, plutôt « standard » pour autant que ça veuille dire quelquechose
range de flat SB vs any position (ATsvsBTN, TTvsBTN, du Axs vs early de mémoire, KQsvsCO, 99vsCO, etc…)
OR : de min raise à 2.5x, je crois pas avoir plus gros sauf une fois
sizing 3B du côté big de la force, 3.6x BTNvsCO, 4x BB vs early, 5.9x SBvsMP w/ AKo mais aussi 3x « only » IP w/ AA
bizarrerie : fold 22 IP vs open alors que call 33 SBvsMP (probablement moins gros risque de squeeze…)

postflop :

des plays « typiques » de bot pour le peu que je connais de snowie, parfois tricky, souvent « intelligent ».
c bet 2X pot MPvsBB SRP w/ AQo on 36Tr…
sizing 1/2 pot remis au goût du jour, très usité par Pluribus.

edit

Salut,
Encore beaucoup de points nébuleux mais concernant ce point précis j’ai eu le fin mot de l’histoire :
La participation de llinuslove est intervenue après la rédaction de l’article de « science ». Mais il a bien participé à l’exp 1H+5AI et a fait -0.5bb/100.
https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

yvan161 · Juillet 18, 2019, 9:26

Merci pour le lien vers ce blog.

Du coup, ça explique aussi le -2,3bb/100 de moyenne final sur le format 1H+5AI.
Soit +0,46bb/100 par instance d’IA : même si l’on admet la pertinence de l’AIVIAT pour ramener les 5K à l’équivalent de 50K, c’est pas ce que j’appelle crush sa limite

Bizarrement dans ce format c’est la relative contre-performance humaine qui est mise en avant alors que dans le format 5H+1AI, c’est le winrate du bot qui est mis en avant.

Soit, dans ce format, 5bb/100 sur ‘équivalent’ 100K mains, semble un bon résultat mais la conclusion …

… me semble exagérée et de nouveau ils comparent des choux et des carottes.

Exagérée parce que il faut avoir conscience que les winrates que l’on a en tête comprennent l’impact du rake (qu’il n’y avait pas ici dans l’expérience évidemment).

La comparaison serait intéressante effectivement si l’on avait eu des tables aussi avec d’autres types de profils (par exemple des CS qui peuvent mettre à mal la stratégie de bluff du bot).

Je pense que le logiciel a effectivement posé des problèmes aux humains et ouvert la voie à des questions sur la stratégie mais c’est un peu tôt vu l’échantillon pour dire que le bot crush l’humanité

En tout cas, ton analyse qualitative est intéressante car c’est surtout cette partie qui peut aider à faire évoluer la théorie.

Par exemple ,aujourd’hui la tendance est à une range full ‘3bet or fold’ de défense de SB alors que le bot a choisi une stratégie contenant une range de flat.

A suivre

Nico · Juillet 18, 2019, 9:54

Même si les résultats sont optimistes par rapport au niveau du bot réel, ça sent pas bon…
Le bot continue de progresser à l’heure où l’on parle, et dans quelques mois sa supériorité sera unanime.

Pour AlphaGo c’était pareil, il faisait plein d’erreurs à jouer contre le champion européen et qu’il réussira jamais à battre l’un des meilleurs mondiaux, même en quelques mois il pourra pas réparer toutes ses énormes erreurs… et puis au final l’humain a été totalement dominé.

Et les programmeurs qui disent que c’est une surprise, qu’ils ne savent pas comment c’est possible : mon cul. Ils prendraient pas le risque de jouer si ils étaient pas un minimum sûr de la qualité de leur AI.

grosrobert · Juillet 18, 2019, 10:08

Salut,

Alors concernant les 10K hands que nous avons à disposition, j’ai fait une ou deux recherches à droite à gauche et sauf erreur (si qq’un a l’info contradictoire, merci de l’indiquer ici) elles correspondent à l’exp 1AI+5H. Il n’y a donc qu’une IA à table. Pour les 5 humains, malheureusement on ne sait pas qui se cache derrière les pseudos, et ça a une certaine importance de mon point de vue car il n’y a pas que des champions de CG 6 max parmi les 13 choisis pour affronter Pluribus…
Un pote a téléchargé les 10K hands dans PT4, voici quelques stats plus fiables que mes observations initiales :
Stats de Pluribus : 27/18
3bet SB vs BTN : 11.5%
BB vs BTN : 10.8 %
BB vs SB : 17.1 %

Cbet overall 49 %
OOP : 31% IP : 56 %
Bet vs missed cbet flop : 33 %

Fold to cbet oop : 49%
Fold to cbet ip : 34 %

BB vs SB : Fold 36 % Flat 47 %
BB vs BTN : Fold 42 % Flat 47 %

Stab turn 28% continue river 46 %

RFI UTG 18% UTG1 24% CO 31 % BTN 42% SB 33%

A noter que certaines stats preflop sont très différentes des ranges preflop solve par les solvers, par exemple le 33% RFI SB, il faut savoir que Pluribus a une stratégie de limp depuis cette position.
Pour le postflop, pas souvenir d’avoir vu Pluribus c bet 1/3 pot en SRP, c’est plutôt 1/2 pot.
Si n’a pas c bet, une de ses lignes préférentielles est de delay 25% pot turn.

To be continued…

Kouchto · Juillet 18, 2019, 11:07

C’est super intéressant comme infos ça (ce n’est pas du tout ironique quand je dis ça)

Barth_Gury · Juillet 18, 2019, 11:15

Petit teaser, Freudinou est entrain de nous préparer un super article : On va reprendre toutes les mains “intéressantes” (gros pots) du bot, et en tirer une analyse technique.

On va bientôt savoir comment on jouera ds 2 ans

yvan161 · Juillet 18, 2019, 1:10

Oui, je ne dis pas que l’ordinateur ne sera jamais plus fort que les humains au poker (je suis convaincu du contraire). Peut-être que ça sera très rapidement, peut-être un peu plus long.

Ici les conditions de confrontations étaient quand même peu favorables aux humains : tables incognito, pas de tracker je suppose, probablement pas de préparation … mais surtout pas vraiment le temps de pouvoir trouver des stratégies en temps réel pour contrer le bot.

Pour les échecs (idem pour le GO je suppose), c’est plus clair pour être sûr que le programme bat le meilleur du monde.

A la fois parce que le niveau est codifié de façon fiable et parce que le résultat (gain ou perte) n’est pas soumis à la variance.

Ca sera toujours plus dur au poker d’avoir les certitudes sur ces points.

Mais à nouveau, je suis d’accord que ça ne sent pas bon pour la supériorité des humains sur la machine en 6max

En tout cas, les premiers éléments communiqués par @grosrobert sont vraiment intéressants alors des mains analysées par un coach, ça sera le top

Non le top ça sera le second article de @freudinou : « Comment battre Pluribus par une stratégie de pot/pot/pot »

Freudinou · Juillet 18, 2019, 9:50

Pfff la pression, je vais me syndiquer moi !

Kouchto · Juillet 19, 2019, 1:16

Il fallait au moins ça comme suite après l’épisode d’attente pour GTO+

PetScotNiel · Juillet 19, 2019, 7:13

Merci. t as les stat de BTN vs CO et vs EP ?
++

Balla · Juillet 19, 2019, 9:38

Here’s Pluribus’ favorite hands to raise with preflop:

and its favorite hands to 3bet preflop:
Nothing too crazy here… looks like it 3bets AA, KK, AKs 100% of the time.

Here’s what it preflop raises as button or cutoff:

Il a même un combo de main fétiche au vu des stats ci-dessus et c’est confirmé dans cette vidéo

Balla · Juillet 19, 2019, 9:57

@grosrobert
Salut,
Peux tu me confirmer que toutes les HH sont jouées en play money et surtout qu’il aurait run à -7bb/100 sur 10k hands

PokerStars Hand #118018: Hold’em No Limit (50/100) - 2019/07/12 08:46:58 ET
Table ‹ Pluribus Session 118 › 6-max (Play Money) Seat #6 is the button
Seat 1: MrOrange (10000 in chips)
Seat 2: MrPink (10000 in chips)
Seat 3: MrBlue (10000 in chips)
Seat 4: Joe (10000 in chips)
Seat 5: Bill (10000 in chips)
Seat 6: Pluribus (10000 in chips)
MrOrange: posts small blind 50
MrPink: posts big blind 100
*** HOLE CARDS ***
Dealt to MrOrange [2h Kc]
Dealt to MrPink [Ad 2d]
Dealt to MrBlue [Tc 6h]
Dealt to Joe [5h Ac]
Dealt to Bill [3s Qc]
Dealt to Pluribus [9s As]
MrBlue: folds
Joe: folds
Bill: folds
Pluribus: raises 125 to 225
MrOrange: folds
MrPink: calls 125
*** FLOP *** [4h 4c Th]
MrPink: checks
Pluribus: checks
*** TURN *** [4h 4c Th] [9h]
MrPink: checks
Pluribus: checks
*** RIVER *** [4h 4c Th] [9h] [Ts]
MrPink: checks
Pluribus: bets 375
MrPink: calls 375
*** SHOWDOWN ***
Pluribus: shows [9s As]
Pluribus collected 1250.0 from pot
*** SUMMARY ***
Total pot 1250 | Rake 0
Board [4h 4c Th 9h Ts]
Seat 2: MrPink showed [Ad 2d] and lost
Seat 6: Pluribus showed [9s As] and won (1250.0)