[article technique] GTO (PLO): La théorie du jeu optimal au poker


#1

GTO (PLO): La théorie du jeu optimal au poker


#2

Article complet et super intéressant! Merci Yeepaa :slight_smile:


#3

Euh j'allais lire (et je vais le lire) l'article mais je m'arrête tout de suite au chapeau :

Si l'adversaire est GTO, les deux maximisent leur espérance de gain. Pour un pot = P, P1 aura une EV = x/P et P2 une EV = P - (x /P).

Je pense qu'il y a un problème de formulation ici. Vrai ou pas ?

"ne peut trouver une stratégie qui lui assure une espérance gain supérieure"


#4

plop

un énorme +1 !

en effet la formulation est mauvaise :cry:

pas besoin d'illustrer (merci malgré tout de l'avoir fait;) )

mais en effet 2 joueurs peuvent avoir une espérance positive dans un cas GTO

je vais demander la modif de ma boulette ^^

°+°


#5

plop

merci [color=#bb0000]patricksun[/color] pour la correction et merci [color=#bb0000]Jan6[/color] -encore plus- pour l'avoir relevé :wink:

°+°


#6

?!?

Le GTO n'est pas une stratégie qui, justement, ne permet pas à l'adversaire d'avoir une EV positive (et non supérieure) ??? D'où le terme d'inexploitable ?


#7

J'en ai discuté vite fait et de ce que j'ai compris ça dépend de quel point de vue on se place : dans le cadre d'un spot précis avec un pot déjà créé (exemple le jeu river dans un pot de 100€) si les 2 jouent GTO ils maximisent leur EV (50€) et on parle d'EV "supérieure" car on est dans un cas à espérance positive (avec le pot déjà créé). Dans le cas du jeu global (jeu a espérance nul, soit le poker (hors rake)) on parlera d'EV positive puisque un joueur ne pourra etre EV+ contre un Joueur GTO ; mais le terme "supérieur" convient aussi.


#8

plop

merci [color=#bb0000]Skill++[/color]

Je suis on ne peut plus ok avec ton propos, maintenant dans la mesure où c'est un contenu "d'introduction" il vaut mieux faire simple pour ne pas brouiller le truc.

pour être franc, c'est un article rédigé de "longue date" et j'aurais [strike]surement [/strike]probablement eu un argument à apporter pour le terme sur le moment mais là j'ai pas relu mon propre article sur sa parution -(shame on me)- et de ce fait j'adhère au propos de Jan6 pour ce qui est d'utiliser supérieure plutôt que positive :wink:

°+°


#9

Merci Yeepa pour ce contenu de haute voltige!!


#10

J'ai pas réussi a retrouvé le passage exacte mais dans le livres poker math sup il définie le principe inexploitable tres simplement : etre inexploitable c'est rendre les options stratégiques de ton adversaire égal entre elles.

Ce qui semble logique , si vilain n'a pas d'options stratégique prédominante en terme d'ev , sa insinue qu'il n’existe pas de stratégie potentiel pour vilain qui lui assure une meilleur ev contre la stratégie de hero ,qui est donc inexploitable.

j'ai l’impression que cette définition qui est très rarement utilisé , éclaircie énormément le concept.

Donc la notion de supérieure semble être la bonne dans le sens a partir du moment ou héro joue GTO on pourrait dire qu'il cape l'ev maximum potentiel de vilain parmi toutes les stratégie qu'il peut vouloir adopté.

Sinon good article , même si je pige rien au plo.


#11

plop

pour le point inexploitable ou pas.

GTO => O pour optimale

donc en fait c'est ce qui maximise le gain par rapport à une autre stratégie.

je peux avoir 2 options sur une street - des sizgins différents par exemple - et elles vont me donner des résultats différents.

l'optimal sera de prendre l'option supérieure à l'autre

on parle de stratégie dominante (celle qui domine toutes les autres) lorsque l'on a une stratégie qui donc va produire un meilleur gain que n'importe quel autre

il peut y avoir plusieurs stratégies dominantes -2 qui seront équivalentes - et on parlera en ce cas de stratégie faiblement dominante alors que dans le cas précité - une qui domine TOUTES les autres - on parle de stratégie strictement dominante.

il faut voir - mais là c'es un peu plus avancé comme concept - que le meilleur gain possible ne sera pas non plus toujours la stratégie dominante - ça contredit ce qui est au dessus non ? :smiley: - et pourtant en fait si pour prendre un exemple à la con :

2 joueurs A & B

A a une stratégie (Aa) qui va lui donner un gain de 100, une (Ab)qui va lui donner un gain de 80 et une (Ac) de 40

si B est un joueur qui lui aussi joue une stratégie GTO et que si sa stratégie (Ba) donne 70 contre (Aa) mais 80 contre (Ab) etc....

il faut bien comprendre que le choix (les actions/moves - pour coller à notre jeu) va impacter l'espérance de l'autre.

la sélection de la stratégie optimale sera celle qui génère le plus gros gain et ce PEU importe les actions adverses.

ex : River on a les nuts et on est OOP
le pot fait 100 avec 100 restant en stack effectif

a - on check, vilain check : on gagne 100
b - on mise, vilain fold : on gagne 100
c - on mise, vilain call : on gagne 200

miser donne 1/2 +100 et 1/2 + 200
ce qui est supérieur au fait de check qui ne donne que 100

vous me direz, oui mais s'il bet quand on check => on est dans le domaine exploitant ici et non pas optimal.

je vais pas faire un article à la suite de l'article mais en gros les idées sont là :wink:

°+°


#12

Je pense qu'on confond par abus de langage EV et winrate. Vilain non-GTO aura un winrate négatif, mais pour un coup donné, son payoff ne peut être négatif.

Hero GTO maximise son EV conte un joueur non-GTO tout en restant inexploitable, c à d que quels que soient les changements de vilain (même s'il se met à jouer GTO), son EV ne passera pas en-dessous de ce seuil minimal.
Hero pourrait gagner plus contre vilain en jouant "exploitable", mais comme il s'écarterait de la stratégie GTO inexploitable, vilain cette fois pourrait améliorer son EV en changeant de stratégie, c à d en exploitant à son tour les leaks de hero devenu non-GTO pour exploiter les leaks de vilain.

Tous ces concepts sont développés sur le blog de GTORB : http://blog.gtorangebuilder.com/

Sauf que le type va plus loin et part à la recherche d'une stratégie GTO exploitante, ç a d qui profite au maximum des leaks de vilain non-GTO tout en restant inexploitable. C'est une stratégie moins exploitante que la stratégie la plus exploitante possible, mais elle a le mérite de faire mieux que la GTO "normale" tout en restant GTO. Alors que la stratégie la plus exploitante possible développe de tels leaks en retour que si vilain n'est pas trop bête et s'adapte correctement, la stratégie la plus exploitante possible peut finalement devenir perdante au long terme.
Dans tous les cas, la stratégie GTO non exploitante ne peut pas être perdante au long terme, mais elle peut tendre à être juste break even, ce qui est problématique à cause du rake.
Il est intéressant de noter aussi que dans le cadre de parties à 3 joueurs (ou plus), la seule présence d'un fish qui ne joue pas GTO peut diminuer l'EV d'un des deux joueurs GTO par rapport à la stratégie GTO attendue pour trois players, au profit d'un des deux joueurs GTO.


#13

plop

Nash est l'angulaire de l'équilibre, c'est grâce à ses travaux -pour la plus grande partie, même si d'autres ont bossé aussi obv- que la GTO a pu naitre.

toutefois aujourd'hui, même si les Nash Eq ne sont pas du tout à remettre en cause, beaucoup d'ajouts ont été fait par pas mal de monde - Bayes par exemple -

ensuite, on différencie les jeux répétés ou non - l'exemple du dilemne du prisonnier est une parfaite illustration de ce qu'est une stratégie dominante => on devrait la fermer, ce qui donnerait le meilleur résultat possible - on serait libéré - mais si vilain parle lui, bah on prend le max.

on voit ici, que le meilleur résultat possible pour nous n'est pourtant pas la stratégie dominante.

etc...

en jeu répété, il y a tout un tas d'assertions supplémentaires qui vont entrer en ligne et pouvoir rendre le fait de la fermer comme la stratégie dominante.

blablabla :smiley:

pour ceux qui sont intéressés par la théorie des jeux et ce que ça peut couvrir

[video width=425 height=344 type=youtube]nr7grXbMJ8s[/video]

°+°


#14

Je pense qu'il y a un probleme de formulation sur le faite de dire que le but c'est de maximisé notre Ev , un encadrement de poker math sup :"certaines stratégies particulières sont appelées stratégies optimal.ces stratégies n'extraient pas toujours le maximum de valeur de notre adversaire,mais l'adversaire ne peut les exploiter , même s'il savait avant le coup quelle stratégie nous jouions"

En faite jan6 a très bien résumé , il faudrais d’après moi modifié le passage en gras en rajoutant : "ce qui compte c'est que notre gain soit maximiser Tout en restant inexploitable.

dans le sens il peut existé pour héro une stratégie exploitante plus ev que de joué Gto mais dans ce cas héro devient exploitable.
Edit : voir Gto exploitante .. mais la je vais devoir allez taffé l'anglais

Sinon la video nécéssairement en anglais ?


#15

edit : oui dsl je connais pas de sources sur le sujet en frenchy

plop

m'en veux pas mais j'ai l'impression que soit tu as pas tout lu, soit il y a un souci d'interprétation....

si tu relis le passage sur le dilemme du prisonnier, il me semble bien que ce que je dis rejoins parfaitement ton propos...

fin, bref, comme dit plus haut, je vais pas refaire un article complet pour étayer l'article -qui était une intro quand même, et de ce fait n'a pas vocation à aller "trop loin" de base :wink: -

et je quote mon post précédent celui que tu as cité :

je dis bien que c'est la maximisation du résultat et ce peu importe l'action adverse, donc ça ne sera pas forcemment la stratégie qui donnerait le meilleur résultat dans un cas précis - vs une stratégie donnée adverse -

°+°


#16

"la sélection de la stratégie optimale sera celle qui génère le plus gros gain et ce PEU importe les actions adverses."

Effectivement,la formulation est différente mais sa revient a dire la même chose , j'ai pas percu sa comme voulant dire, que la stratégie optimal était celle qui avait le plus gros gain tout en restant inexploitable , mais plutot comme celle qui a le plus gros gain tous court , et en secondaire en plus on est inexploitable , my bad.

PS : "m'en veux pas mais j'ai l'impression que soit tu as pas tout lu, soit il y a un souci d'interprétation...."
Ne m'en veux pas non plus pour avoir mal compris l'intégralité de ton post
on aura mis les formes cette fois ^^


#17

Merci pour ce nouvel article [color=#ff0000]Yeepaa[/color]. Tellement occupé cette semaine j'étais passé à côté.


#18

plop

l'essentiel étant qu'on arrive à comprendre ce que nous disons l'un et l'autre, pour soit être d'accord, soit lever les sources de doutes d'un coté ou de l'autre :wink:

On résume souvent les utilités de chacun dans ce tableau appelé "Matrice des utilités" :
(pour nous on va parler de gains ou EV - mais cela rest une utilité)

au cas ou - ou pour d'autres, le dilemme du prisonnier c'est :
on a fait une connerie et on s'est fait chopé.
on risque 10 ans de taule mais les flics n'ont pas de preuves, pas suffisantes pour nous charger pour 10 ans quoi.

donc :
ils proposent un deal à chacun - on est séparé obv -
si tu balances ton pote, tu prendras rien et lui 10 ans, sauf s'il te balance aussi, auquel cas vous aurez une remise de peine et ferez 5 ans chacun.

donc si on se tait tous les 2 : on fait 6 mois (absence de preuves et on se fera later pour un délit mineur)
si je te balance et que tu te tais : je suis libre et tu prends 10 ans
et inversement si tu me balance et que je la ferme
si on se balance mutuellement on fait 5 ans chacun.

dire que la stratégie optimale est celle qui maximise l'utilité reviendrait à dire qu'il faut qu'on se taise tous les 2.
oui, mais... si tu me balance je prends 10 ans, alors que si je te balance au pire je ferais 5 ans.
le fait de se taire devient une stratégie dominé -alors qu'elle donne dans un cas le meilleur résultat possible (la liberté dans notre cas précis).

Snap2_2015-05-02.png

Snap3_2015-05-02.png

espérant que ça étaye plus que des phrases ^^

°+°


#19

Yep très limpide , même si j'ai l’impression que sa complexifie la notion pour quelqu'un qui commence a s’intéresser a la gto.

donc reprend moi si tu est pas d'accord , mais ce qu'illustre cette allégorie c'est tous ce qu'on a mis au dessus a savoir , que il existes 2 options stratégiques aux deux prisonnier , ici se taire ou non.

En terme d'utilité (ou d'ev) la stratégie qui prédomine serait de se taire.
Mais cette stratégie peut etre exploité par un des 2 prisonniers en faisant l'opportuniste (pas moi obv jss droit dans mes bottes !) , réduisant donc l'ev a -10ans.

De ce faite , a moins d'avoir un complice vraiment droit dans ces bottes , la stratégie qui prédomine est une stratégie inexploitable du faite du manque d'information sur le complice.


#20

plop

en gros c'est ça !

le fait est :
une stratégie dominante domine TOUTES les autres !

ici se taire est dominée par le fait que l'autre balance !

c'est d'ailleurs un très bon point de départ pour des théories qui vont un peu plus loin que le "simple équilibre" et on rentre en plein dans une vision, jeu répété ou non etc..

si on utilise les matrices qui représentent les différentes stratégies, on élimine une à une celle qui sont dominées par une autre pour arriver à la dominante. ici c'est de balancer !

et dis toi que de toute façon, je t'aurais balancé :evil: :whistle: :blink: :blush:

°+°