Les maths au poker : La GTO à la river (Partie mathématique)

Tu me perds aussi ^^ parce que je ne vois pas le rapport entre l’ordre des groupes (‹ fold/bluff ›, ‹ fold/check ›, ‹ raise-bluff/check ›) de la région (fold, raise-bluff) de Y avec celles que tu cites.

image

Ça c’est la question des seuils x2* et y2.

la stat xa ya est bonne, la strat xa yb est mauvaise, et la dernière est bonne.

my bad j’ai inverser les position.

Ta strat xa yb est mauvais quand OOP check, car tu va bluff des mains avec de la showdown value, sinn ta start de raise est bonne

1 « J'aime »

par contre dans le chapitre j’arrive pas à retrouver le alpha2 = 1/(P+3)

on est d’accord que le raise bluffeur risque 2 unités pour gagner P+1

du coup pour x = frequence de fold :
-2(1-x)+(P+1)(x) = 0
x = alpha2 = 2/(P+3) :confused:

Ca fait longtemps que j’ai pas relue le livre donc je me souviens plus de tout en détail, mais il me semblais qu’il risquer 1 pour gagner p + 2 de mémoire (à vérifier).

Ouf j’avais peur de ne plus rien comprendre :slight_smile:

Pas d’accord et c’est tout l’objet de la question d’OP et du chapitre.

La stratégie Y-A utilise les meilleures mains (donc avec le plus de SDV) pour raise-bluff vs un check de X.

Si la stratégie Y-B est dominée (et sous-optimale je pense donc strictement dominée) c’est pour la raison suivante.

Je pense la même chose pour Y-C : Y-A > Y-C > Y-B

Donc je n’arrive pas à trouver de stratégie Y-D co-optimale dominée : Y-A >= Y-D.

Peut-être parce qu’il n’y en a pas (en tout cas dans l’ordre des groupes d’action de cette région).

Mon niveau de compréhension est le suivant :

Formulé autrement :

alpha = s/(1+s) revient à

Risk/Reward = FE min. nécessaire (pour profit immédiat) = (Taille de mise / Taille du pot) / (1 + (Taille de mise / Taille du pot)) = alpha avec s = Taille de mise / Taille du pot.

Donc là nous sommes à l’aise pour calculer le MDF et la FE nécessaire … sur un scénario 1 bet.

C’est le raisonnement que l’on fait par « Joueur machin risque … pour gagner … » quand il s’agit d’une situation à 1 bet.

Mais là nous sommes dans un scénario à 2 bets (X bet 1 unit, Y raise 2 units soit 3 units en plus dans le pot après la séquence : je rappelle que le contexte ici est du limit) et on ne peut pas raisonner ainsi.

Prenons un scénario simple où le pot initial (P) = 1

Scénario A à 1 bet : X check, Y bet 1 alors alpha1 = 50%. X doit défendre 50% de sa range. Y peut bluff s’il trouve 50% de FE.

Scénario B à 2 bets : X bet 1 , Y bet 2 alors alpha2 = 25%. X doit défendre 25% de sa range. Y peut bluff s’il trouve 75% de FE.

Ce scénario B à 2 bets est équivalent à un scénario C à 1 bet où X check, Y bet 3 où alpha1 vaut 25%

Si tu veux raisonner « Joueur machin risque … pour gagner … » comme dans un scénario 1 bet alors il faut faire comme si c’était un seul joueur qui mettait le bet + le raise dans le pot d’où :

alpha2 = 1 / (P + 3) et par extension alphan= 1 / (P + (2n - 1))

Remarque : ça confirme la règle contre-intuitive que l’on doit bluffer peu dans un gros pot.

On peut raisonner par « l’argent que l’on a mis dans le pot ne nous appartient plus » pour aider à concevoir que quand X doit prendre sa décision face au raise, c’est comme si l’argent qu’il a mis dans le pot lors du premier bet appartient au pot (et donc lui donne une meilleure cote de pot = il a besoin de gagner moins souvent).

On peut raisonner ainsi pour n bets également.

1 « J'aime »

Tu devrais relire le chapitre 17.2 car depuis le début, j’ai l’impression que tu me réponds comme si on étais dans un scénario à 1 bet.

On ne peut pas raise vs un check

notre stratégie de raise n’impacte pas notre stratégie dans la line XX.

La stratégie est bien inexploitable

imagine on intervertie c’est deux seuils, en gardant les bonne proportion
image

Comment x pourrait exploiter y ?
Il ne peux pas.

Je t’ai mis un exemple

Range OOP : AcAh,KcKh,QcQh,JcJh,TcTh,9c9h,8c8h,7c7h,6c6h,5c5h
Range IP : AsAd,KsKd,QsQd,JsJd,TsTd,9s9d,8s8d,7s7d,6s6d,5s5d

F 2s2d2c
T 3s
R 3d

Arbre du jeu river

Stratégie de OOP :

Stratégie de IP vs un bet de OOP :

Si dessous j’ai node lock la stratégie de IP vs bet, en lui faisant fold c’est meilleur raise en bluff, et à la place je lui ai donné 55 en bluff (sa plus nul mains)

Et voici la stratégie de OOP

Il va bluff 100 % de 55, mais sont EV reste ici la même 18.8 (le solver est très sensible à la river, et quand on node lock les fréquence on est limité au dixième près.

Mais on voit ici que le solver ne trouve pas d’exploit.

1 « J'aime »

d’ou le risque de 1 pour gagner P+2 que je comprenais pas sans ton exemple ou faut transposé au scénario à 1 bet
j’avoue que c’est assez tricky (comme pleins de trucs dans le livre d’ailleurs… ou l’auteur omet de préciser pleins de choses complexe comme si c’était d’une évidence pour tout le monde, en fait j’ai l’impression qu’ils ont écrit ce livre pour eux…pour ensuite se dire bon autant le publier et puis good luck ^^)

du coup avec F frequence de fold du defenseur:

-risk(1-F)+reward(F) > 0
-1(1-F)+(P+2)(F)>0
F> 1/(P+3)

(et du coup on offre au defenseur un call BE avec ses bluffcatchers ce qui est l’objectif )

Oui je voulais écrire « vs un bet » évidemment : my bad.

Tu veux dire intervertir les groupes de main ?

Oui ça c’est la stratégie Y-C.

Donc il faut comprendre Y-A >= Y-C > Y-B ?

Le toy game avec GTO+ est une bonne idée, je vais faire ça.

Par contre, tu es plus dur à décrypter que l’AES …

Ça simule la stratégie Y-B ?

oui

oui

non, ca simule Y-C

Les raise en bluff je l’ai est tous passé en fold, pour à la place les donner à 55.

Ce qui ne va pas dans Y-B c’est dans la line ou OOP check, si on reprend par exemple l’exemple sur le solver, quand OOP check, le solver va bluff c’est pire mains, donc 55 puis 66 …, la dans la strat B c’est comme si tu checker 55 - 66 pour bluff 77.

1 « J'aime »

Ben ça pour moi c’est (presque) la stratégie Y-B puisque 55, qui est la pire main, est dans le groupe de mains ‹ fold/bluff › dans la stratégie Y-A, dans le groupe de mains ‹ raise-bluff/check › dans la stratégie Y-B et dans le groupe de mains ‹ fold/bluff › dans la stratégie Y-C.

Si tu lock node 55 pour du raise-bluff vs bet, c’est la stratégie B. Et en plus il faudrait aussi lock node la stratégie de Y dans la branche où X check pour vérifier l’adaptation possible non ?

Remarque : pas évident de voir le contenu de tes captures d’écran.

Question : pour tu choisis des combos précises pour les ranges de départ et pas AA-55 pour les deux joueurs ?

Bon j’ai essayé avec les paramétrages suivants :

  • AA-55 pour les deux joueurs.

Et j’ai élagué l’arbre pour correspondre au game#10

image

C’est bien la paire de stratégie (X-A,Y-A) qui ressort de la simulation

Pour X :

  • 55 est bet puis fold vs raise (groupe bluff-fold)
  • 66 est dans check-fold
  • QQ est dans check-call
  • KK est dans bet-fold
  • AA est dans bet-call

Les groupes de main sont clairs (même s’il y a des mains fréquencées et donc dans 2 groupes)

Pour Y :

  • 55 est fold (vs bet) et bluff (vs check) donc dans fold/bluff
  • KK-QQ est dans call/bet
  • AA est raise

Pour le reste, c’est pas évident car JJ-66 est fréquencé entre le raise, call, fold vs bet de X.

vs un check de X, JJ-77 sont call et 66 fréquencé entre le call et le raise.

Autrement dit toutes ces mains se retrouvent dans les régions (fold/check, raise-bluff/check, call/check).

Partant de là, je ne sais pas comment simuler les stratégies B et C (en conservent les bonnes fréquences) par des nodes locks pour vérifier si elles sont co-optimales ou pas.

Oui faut s’accrocher.

J’ai aussi noté qu’il y a avait pas mal d’erreurs malgré tout et parfois on doute de notre bonne compréhension quand il y a des erreurs sur un ouvrage très matheux.

Mais le principal obstacle est effectivement qu’on décroche parfois d’une ligne à l’autre parce que l’on ne comprends pas une notion implicite et évidente pour les auteurs.

Tu as essayé de simuler leur toy games avec un solver ?

Ça aide pas mal à comprendre, je trouve.

Même si là je suis bloqué sur les lock nodes, au moins ça m’a permis de matérialiser le contenu du chapitre de façon plus concrète.

Pour les seuils et groupes de mains, j’ai un peu de mal à passer des valeurs [0,1] aux mains de poker :slight_smile:

Mais sinon pour celui qui étudie sérieusement la théorie et les solvers, le livre est une mine d’or … qui prend du temps à être miner pour moi.

En fait j’en suis au chapitre 13 P138 :slight_smile: ) et j’ai passé énormément de temps sur le game#10 dont on parle ici (et j’ai pas encore tout compris !).

J’ai choisi des combos spécifique pour supprimer tout effet des blocker

La stratégie Y-B va bluff des mains plus forte et check back avec des mains plus faible, c’est une stratégie dominé.

Donc ce n’est pas la stratégie Y-B, car quand OOP check, IP va bluff 55 en priorité.

C’est donc la stratégie B dans la branche ou OOP bet, mais pas dans celle où il check.

Sinn pour la simulation, j’ai nood lock tout l’arbre, de IP, donc le check aussi, et l’EV reste bien la même.

Oui mois aussi c’est la simulation A qui ressort, mais quand je force IP à jouer la strat C, alors le solver ne trouve pas d’exploit.

Pour nood lock les bonne fréquence compte le nombre de combo bluff, ensuite merge les en fold, et tu les transmets à 55, tu auras la bonne fréquence au dixième près.

Sinn tu peut node lock en copie colle le petit carrer en bas dans Excel, ou un autre logiciel, pour le modifier, et tu peux le coller à nouveau dans le petit carrer.

1 « J'aime »

et du coup (dans la même logique que pour IP ou c’est optimal de prendre n’importe quel main en raise bluff dans son segment de fold tant qu’il a la bonne frequence) OOP ira prendre n’importe quel main en check/raise bluff dans son segment de check/fold nan ? (si oui du coup on peut noter la symétrie )

pour les toy game AKQ ouai

C’est pas vraiment transposable pour oop car quand il part pour un xr il a des chance d’aller au showdown alors que ip non

C’est transposable une fois que l’on a x les bonne mains et que ip bet.

1 « J'aime »

Oui je vois mais mon problème est le suivant.

Donc c’est pas évident de savoir comment « transférer » des combos / actions d’un groupe de mains à l’autre pour simuler la stratégie B puis la stratégie C.

Pour chaque main, tu gardes les checks tels quels ?

image

Par exemple, pour 99, tu met le raise à 0, augmente le fold de 0,003 combo et transfère 0,003 combos en raise pour 55 ?

Si tu transfères les raise-bluff/check vers les fold/bluff (donc 55 qui est la pire main) et inversement, c’est bien la stratégie B non ?

La stratégie C serait de transférer les raise-bluff/check vers fold/check et inversement.
Par exemple mettre 0 raise-bluff pour JJ-99 et transférer ces raises vers 88-66 ?

Pas sûr de comprendre le raisonnement. Des blockers ? Tu veux dire pour les flushs par exemple ?

Sur le board, il y a 2 carreaux et 2 piques pour 1 trèfle, ce qui pourrait même favoriser IP sur certaines ranges construites ainsi, mais il n’y a pas de couleur possible ici et il n’y a pas de 3x ou 2x dans les ranges donc je ne comprends pas.

Simplement

OOP : AA-55
IP : AA-55

F 2s2d2c
T 3s
R 3d

Il n’y a aucun effet blocker non ?

du coup moi aussi j’ai run la sim avec les mêmes input que vous mais j’y reviendrai plus tard, j’vais retourner sur le AKQ
en tout cas on s’amuse bien (ou pas ça dépend), l’impression d’être un développeur python qui découvre l’assembleur xD