Théorie des jeux - Un exemple "simple"

Je vous propose d’étudier un jeu de poker simplifié afin d’illustrer un certain nombre de concepts fondamentaux du poker. Mon texte est basé sur une vidéo DC intitulée « Maths applied ».

Jeu de cartes: uniquement les piques donc 13 cartes
Chaque joueur reçoit une carte, 1 tour de mises et la carte la plus élevée gagne au showdown.

Pot: $10 (« dead money »)
Stacks effectifs: 10€
Villain est OOP et il check 100% de sa range, donc il ne joue jamais un OPR.
Hero joue toujours IP et il n’a que 2 options: soit check behind, soit push all-in.
Si hero push all-in, villain call avec {A, K, Q, J, T} et fold {9, 8, 7, 6, 5, 4, 3, 2}

Les données « fixes » en résumé:
Unknown cards: 12
Pot initial: 10,00 €
Villain OOP check
Hero IP soit check, soit push 10€
Villain fold {9, 8, 7, 6, 5, 4, 3, 2} et call le shove avec {A, K, Q, J, T}
Final stack hero

[ul]Hero bets - Villain folds and Hero wins 20,00 €
Hero bets - Villain calls and Hero wins 30,00 €
Hero bets - Villain calls and Hero loses 0 €
Hero checks behind and wins 20,00 €
Hero checks behind and loses 10,00 € [/ul]
Sachant que hero connaît la stratégie de son opposant, quel est son range check/push optimal?

Pour résoudre ce problème, il faut comparer EV(bet)à EV(check). Je vous conseille d’utiliser un tableur si vous voulez reproduire les calculs. A titre d’exemple, voici les calculs à faire si hero touche le 9

Calcul EV « hero bets 9 »
Pr(villain folds) * stack final hero = 7/12 * 20 = 11,67 €
Pr(villain calls, hero wins) * stack final hero = 0/12 * 30 = 0 €
Pr(villain calls, hero loses) * stack final hero = 5/12 * 0 = 0 €
EV (bet 9) = 11,67 + 0 + 0 – 10 = 1,67 €
càd, en moyenne, le stack du hero va passer de 10 € à 11,67 €

Calcul EV « check behind 9 »
Pr(hero wins) * stack final hero = 7/12 * 20 = 11,67$
Pr(hero loses) * stack final hero = 5/12 * 10 = 4,17$
EV(check behind 9) = 11,67 + 4,17 – 10 = 5,83$

donc si hero touché un 9, sa meilleure stratégie consiste à check behind car EV(check) > EV (bet).

Tableau récapitulatif:

Conclusion 1

La plus grosse erreur que hero puisse commettre ne consiste pas à check behind avec les nuts, mais à bet le 9 !!
La raison est « simple »: si hero bet le 9 alors villain fold toutes ses cartes perdantes et il call avec toutes ses cartes gagnantes ! Ce sont ces erreurs « cachées » qui expliquent pourquoi les mauvais joueurs se font écraser au NLHE alors que les sharks accumulent les $ …

Conclusion 2

Pour maximiser son EV, hero doit polariser sa range donc bet for bluff avec le bas de sa range et bet for value avec le top de sa range ! Comme les cartes 4 et Q sont neutres (EV check = EV call) hero peut balancer sa range en misant avec {A, K, Q, 3, 2} et en checkant {4, 5, 6, 7, 8, 9, T, J}.

Conclusion 3

Si villain n’ajuste pas sa range [« static range »] alors il ne va pas exploiter la stratégie du hero. Ceci est notamment le cas lorsque villain est un mauvais multitableur, un joueur inattentif ou quelqu’un qui ne sait pas comment ajuster son range.

Conclusion 4

La stratégie de Hero est exploitable et un bon joueur va l’exploiter.
Supposons villain a identifié la stratégie du hero qui consiste à bet un range polarisé {A, K, Q, 3, 2}.
Si hero shove all-in il offre une cote de 10/30 = 33%
Si villain call avec un 4 alors il va gagner 2 fois sur 5 soit une equity de 40% donc il va adapter sa range et jouer des bluffs catcher avec un range call {A, K, …, 5, 4} et fold {3, 2}. Si on refait maintenant les calculs on se rend compte que hero perd environ 7% en value.

Conclusion 5

Hero doit s’adapter à la nouvelle range du villain en mergeant la sienne c’est-à-dire check {6, 5, 4, 3, 2} et bet {7+} respectivement check {7, 6, 5, 4, 3, 2} et bet {8+} le 7 étant neutre (EV check = EV bet}. Ce nouvel ajustement de sa statégie va considérablement améliorer son EV (+33%).

Conclusion 6

On peut constater qu’on assiste à un jeu d’ajustements:

  • Hero joue un range polarisé pour exploiter la stratégie du villain
  • Villain ajuste et commence à jouer des bluffs catchers
  • Hero ajuste et merge sa range
  • Villain ajuste en resserrant sa range p.ex. call {A-J} fold {T-2}
  • Hero ajuste de nouveau en polarisant sa range
  • ….
    On assiste donc à du « leveling », un domaine dans lequel les sharks du HU écrasent leurs opposants.

C’est intéressant, je comprends mieux maintenant l’intérêt de la polarisation. N’hésite pas à faire d’autres articles de vulgarisation, ça ne sera pas perdu.

Excellent !!!

Intéressant. Ca ressemble un peu à l’exemple de Jeean dans sa dernière vidéo sur l’équilibre de Nash, mais pris complètement par l’autre bout.

Si on poursuit le jeu des adaptations et contre-adaptations que tu esquisses à la fin on devrait (si j’ai bien compris) tomber sur l’équilibre de Nash qu’indique Jeean dans la vidéo et qui devrait être à peu près :

Hero pousse en value bet avec A, K, Q et en bluff avec 2 et une fois sur deux avec 3. Vilain call avec A, K, Q, J, T, 9 et fold avec 8, 7, 6, 5, 4, 3, 2.

Si je ne me suis pas trompé, dans ton exemple, vilain n’est pas loin de l’équilibre de Nash.

Jadupsky wrote:

John T. Chance wrote:

[quote]Intéressant. Ca ressemble un peu à l’exemple de Jeean dans sa dernière vidéo sur l’équilibre de Nash, mais pris complètement par l’autre bout.

Si on poursuit le jeu des adaptations et contre-adaptations que tu esquisses à la fin on devrait (si j’ai bien compris) tomber sur l’équilibre de Nash qu’indique Jeean dans la vidéo et qui devrait être à peu près :

Hero pousse en value bet avec A, K, Q et en bluff avec 2 et une fois sur deux avec 3. Vilain call avec A, K, Q, J, T, 9 et fold avec 8, 7, 6, 5, 4, 3, 2.

Si je ne me suis pas trompé, dans ton exemple, vilain n’est pas loin de l’équilibre de Nash.[/quote]

Puisque le joueur 2 doit miser 10 pour gagner 20, si j’ai bien compris l’équilibre de Nash, il faut que le joueur1 mise pour valeur 2 fois plus de cartes que ce qu’il mise pour bluff afin de rendre indifférent le joueur2 à suivre, non ?
Ce qui donnerait un range de value bet : [A,K,Q,J] et range de bluff : [2,3].
J’ai l’impression qu’on est a l’équilibre car aucun mouvement stratégique des deux joueurs ne peux unilatéralement augmenter son EV.

oui, c’est dans la 1e vidéo de ma série “poker et théorie des jeux” ; là il y a des effets de bords vu qu’il n’y a que 13 mains, mais sinon hero vbette les meilleurs 2/9 de son range, bluffe les moins bons 1/9, et Villain calle les meilleurs 4/9. Tu pars de mauvaises stratégies pour chacun des joueurs, et tu ajustes petit à petit les stratégies : tu vas converger vers l’équilibre de Nash. Y’a pas de levelling à mon sens, c’est juste les 2 joueurs qui font transitoirement n’importe quoi en attendant d’arriver vers l’équilibre Nash :slight_smile: (ou alors il n’y arriveront pas, s’ils jouent purement la stratégie exploitive contre la stratégie actuelle de l’adversaire, ils vont tourner en rond en faisant n’imp).

C’est pour ça que j’ai dit value bet avec A, K, Q (trois cartes) et bluff avec 2 et une fois sur deux avec 3 (1 carte et demi). Ca correspond à ce que dit Jeean dans une situation similaire : bluff 1 fois sur 9, value bet 2 fois sur 9 et vilain call 4 fois sur 9.

Si tu values J+ et bluff 3-, tu as la bonne proportion pour que vilain soit indifférent à bluff catch, mais en somme tu retrouverais encore la même proportion si tu values 7+ et bluff 5-.

Je pense que ça ne marche pas parce que pour être sur l’équilibre de Nash il faut calculer la stratégie des deux joueurs.

John T. Chance wrote:

C’est pour ça que j’ai dit value bet avec A, K, Q (trois cartes) et bluff avec 2 et une fois sur deux avec 3 (1 carte et demi). Ca correspond à ce que dit Jeean dans une situation similaire : bluff 1 fois sur 9, value bet 2 fois sur 9 et vilain call 4 fois sur 9.

Si tu values J+ et bluff 3-, tu as la bonne proportion pour que vilain soit indifférent à bluff catch, mais en somme tu retrouverais encore la même proportion si tu values 7+ et bluff 5-.

Je pense que ça ne marche pas parce que pour être sur l’équilibre de Nash il faut calculer la stratégie des deux joueurs.[/quote]

Au temps pour moi, j’avais mal lu le “une fois sur 2”, tu as tout à fait raison.

Jeaan wrote:

C’est bien ce que je pensais, ça me rassure.

A vrai dire, je ne sais pas si ça marche de faire certaines mains une fois sur deux.

@Jeaan: où peut-on trouver tes vidéos sur la théorie des jeux?

[Edit] Mais je suis c… il y a les liens en bas de page.

tlax wrote:

[quote]@Jeaan: où peut-on trouver tes vidéos sur la théorie des jeux?

[Edit] Mais je suis c… il y a les liens en bas de page.[/quote]

Membre premium il me semble :wink:

Oui, c’est logique car hero offre au villain une cote 2-1 donc 33% de sa range devraient être des bluffs s’il veut jouer de façon non exploitable. Pour bet le 3 une fois sur deux, on revient à Harrington et sa fameuse montre (check 0-30, bet 31-60) :slight_smile:

Il est intéressant de noter qu’on pourrait aussi obtenir les 33% en bluffs en élargissant le top de sa range càd bet A, K, Q, J et bet en bluff 2 et 3. Cependant cet exemple de poker simplifié montre que cette stratégie serait mauvaise parce que si l’on refait les calculs on va constater que le “average EV” va passer à 5,45€ pour la ligne “élargir top range” au lieu de 5,54€ pour la ligne “50% bet 3, 50% check 3”. De nouveau, la raison est que si l’on décide à bet un J alors on bet avec une main où trop souvent “worse hands fold and better hands call” …

Jeaan wrote:

Pourquoi hero vbet 2/9 de son range et non pas 2/13 ?

Dans mon exemple, ils font un peu “n’importe quoi” càd ils testent différentes stratégies en fonction de ce qu’ils pensent ce que l’opposant pense; respectivement en fonction d’un read non fiable … c’est ce que j’ai qualifié, peut-être à tord, de “levelling”. Bien entendu, ça ne mène pas nécessairement à un équilibre …

Merci pour cette exemple de plus.

Je n’avais pas lu la remarque d’Arlequin concernant le range {A, K, Q, J, 2} vs {A, K, Q, 2, 50% bet 3 - 50% check 3}. Ci-dessous les calculs, l’option 2 étant {A, K, Q, J, 2}; on perd de valeur par rapport à l’option 1 {A, K, Q, 2, 50% bet 3 - 50% check 3} parce qu’on bet avec le J alors qu’on ferait mieux de bet le 3 50% du temps (le J a de la showdown value contrairement au 3).

[url]