(Enfin) tout comprendre à la GTO, en no limit !

(Enfin) tout comprendre à la GTO, en no limit !

GTO, Game Theoretical Optimum, jeu optimal, jeu parfait, stratégie non exploitable, la GTO fait fantasmer, mais avouons-le, peu d’entre nous y comprennent quoi que ce soit. Grâce à une version simplifiée de poker no limit, vous allez enfin tout comprendre à la GTO.


Le NL flip

Je vous présente le dernier jeu de mon invention, plus compliqué qu’il en a l’air : le NL flip.

2 joueurs, ayant chacun un stack de 10 unités
Blinds de 1 unité chacun.
On distribue une carte à joueur 1 et c’est tout. (0 carte pour le joueur 2)
Joueur 1 peut soit abandonner le pot de 2 unités soit miser autant qu’il veut, avec un minimum de 1 unité.
Ensuite, joueur 2 peut soit payer soit se coucher.
En cas de showdown, si la carte est rouge, joueur 1 gagne ; si la carte est noire, joueur 2 gagne.

Vous l’aurez compris, au lieu de regarder la couleur d’une carte, on peut tout aussi bien faire un pile ou face.
Et vous l’aurez compris aussi, le NL flip simule un spot d’overbet river face à une range capée qui aurait check.
Pour pokeriser ce jeu dans la suite de l’article, on remplacera rouge / noir par nuts / air.
 

Testez votre intuition

En GTO,
joueur 1 doit parfois se coucher avec les nuts.
joueur 1 doit toujours miser avec les nuts.

Si les deux joueurs jouent GTO,
le jeu est Ev0
le jeu est Ev+ pour le joueur 1
le jeu est EV+ pour le joueur 2

Pour être équilibré,
plus joueur 1 raise cher, plus souvent il doit bluffer.
plus joueur 1 raise cher, moins souvent il doit bluffer.
joueur 1 doit toujours bluffer le même pourcentage, peut importe le montant de sa mise.

Pour être équilibré, plus la mise de joueur 1 est chère, plus joueur 2 doit payer.
plus le raise de joueur 1 est cher, moins joueur 2 doit payer.
peu importe le raise de joueur 1, joueur 2 doit payer le même pourcentage.

Si Joueur 1 joue GTO,
joueur 2 aura la même Ev qu’il joue GTO ou pas.
le mieux pour joueur 2 est de jouer GTO.

Si joueur 2 joue GTO,
joueur 1 aura la même Ev, qu’il joue GTO ou pas.
le mieux pour jouer 1 est de jouer GTO.

En GTO,
joueur 1 doit avoir un seul montant de mise : le maximum.
joueur 1 doit avoir un seul montant de mise : le minimum.
joueur 1 doit varier le montant de ses mises.
le montant de sa mise n’importe pas.


La résolution du NL flip

Commençons par la première question qui est aussi la plus facile : joueur 1 doit évidemment toujours raiser avec les nuts. Se coucher ici reviendrait à fold (ou checkback) les nuts au poker.

Joueur 1 doit donc choisir entre deux stratégies : fold / raise signifiant fold air et raise nuts et raise / raise signifiant raise les deux air et nuts.
Joueur 2 doit lui aussi choisir entre deux stratégies : call ou fold.
On peut donc résumer le jeu à ce tableau avec les espérances indiquées du point de vue de joueur 1.
x est le montant du raise.

 

Fold

Call

Fold / Raise

0

x/2

Raise / Raise

1

0

Si joueur 1 choisit Fold / Raise et joueur 2 Fold, alors chaque joueur gagne les blinds une fois sur deux. Leur Ev est donc 0.
Si joueur 1 choisit Fold / Raise et joueur 2 Call, alors joueur 1 gagne x+1 une fois sur deux et perd 1 une fois sur 2. L’Ev de joueur 1 est donc x/2.
Si joueur 1 choisit Raise / Raise et joueur 2 fold, alors joueur 1 gagne toujours 1.
SI joueur 1 choisit Raise / Raise et joueur 2 call, alors chaque joueur gagne x+1 une fois sur deux. Leur Ev est donc 0.

On comprend tout de suite qu’aucune stratégie pure ne peut être GTO : si on Fold / Raise 100%, alors joueur 2 va fold à chaque fois qu’on raise et notre Ev sera 0. Si on Raise / Raise 100% alors joueur 2 va call à chaque fois qu’on raise et notre Ev sera 0 là encore. Il nous faut donc une stratégie mixte. Autrement dit quand on a air, on ne peut pas miser x 0 ou 100% du temps, il faut miser x un pourcentage précis entre ces deux extrêmes.

Je vous épargne le calcul, on trouve que joueur 1 doit bluffer x/(x+2) avec air.
Par exemple, quand il mise 2€ dans le pot de 2€, il mise toutes ses nuts et bluffe 2/(2+2) soit 50% de ses airs. Son range comporte donc ⅔ value pour ⅓ bluff.
Joueur 2 doit mettre 2€ pour en gagner 4. Il a donc une cote de 1:2. Comme il gagne 1 fois sur 3, il est indifférent à payer ou fold.
x/(x+2) tend vers 1 quand x augmente, donc plus joueur 1 mise cher, plus il doit avoir de bluff dans sa range.

Réciproquement, en GTO joueur 2 doit call exactement 2/(x+2) pourcent du temps afin que joueur 1 soit indifférent à bluffer ou non ses airs.
Par exemple pour x = 1, joueur 2 doit call 2 fois sur 3.
Ainsi, quand joueur 1 a air, s’il fold, il perd 1, s’il mise, 1 fois sur 3 il gagne 1 et 2 fois sur 3 il perd 2 et donc au final il perd 1 qu’il fold ou raise.
2.(x+2) tend vers 0 quand x augmente, donc plus joueur 1 mise cher, moins joueur 2 doit payer.

Quand un des deux joueurs joue GTO, l’autre est indifférent à son choix. Autrement dit, si l’un des deux joue GTO l’autre n’a pas de mauvais coup et son Ev ne varie pas en fonction de son play.

Quel est l’Ev de joueur 1 quand il mise x et un des deux joue GTO ? Comme on vient de dire qu’elle ne varie pas en fonction du play de l’autre joueur, prenons le cas le plus simple où joueur 1 joue GTO et joueur 2 fold 100%.
La moitié du temps, joueur 1 a les nuts et gagne 1 (le pot fait 2 donc sur l’ensemble du coup il gagne 1).
L'autre moitié du temps joueur 1 a air et
a) x/(x+2) il mise et gagne 1
b) 1-x/(x+2) il fold et perd 1.
En calculant, on trouve que quand un des deux joue GTO et joueur 1 mise x, joueur 1 gagne x/(x+2)
Autrement dit, plus joueur 1 mise cher, plus son Ev augmente. Quand sa mise tend vers l’infini, son Ev tend vers 1, c’est à dire qu’il gagne la blind de joueur 2. Cela peut surprendre de prime abord, mais après réflexion ce résultat se comprend aisément.
Imaginez que je vous mette 1 milliard dans le pot de 2. Si vous payez trop souvent ne serait-ce que 1% du temps, je ne vais miser que en value et vous prendre régulièrement 1 milliard. Du coup vous devez fold 100% ou presque (il faut payer 2/1000000002). Et donc si je mise tout le temps, je gagne à chaque fois le pot et donc vos 1€. Et sur les très rares fois où vous payez, j’ai les nuts 1 fois sur 2 donc ce n’est pas un souci pour moi.

Vous noterez qu'on a procédé ainsi :
1. joueur 1 décide du montant de sa mise.
2. s'il a nuts, il mise 100% ; s'il a air, il mise un certain %.
Il ne peut donc jamais avoir plus de 50% de bluffs dans son range après avoir misé. 

Mise

Bluff joueur 1 quand air

% de air dans range de mise

Call joueur 2 face à mise

Ev Joueur 1

1

33,33%

25,00%

66,67%

0,33

2

50,00%

33,33%

50,00%

0,50

3

60,00%

37,50%

40,00%

0,60

4

66,67%

40,00%

33,33%

0,67

5

71,43%

41,67%

28,57%

0,71

6

75,00%

42,86%

25,00%

0,75

7

77,78%

43,75%

22,22%

0,78

8

80,00%

44,44%

20,00%

0,80

9

81,82%

45,00%

18,18%

0,82

Pour que ça soit bien clair, détaillons la première ligne :
Avant de parler joueur 1 a 50% nuts, 50% air.
Il décide de miser à 1.
Pour être équilibré, il doit miser100% de ses nuts et 33.33% de ses airs.
Son range de mise 1 sera donc constitué à 25% de bluff et 75% de nuts

Voici le graph montrant le % de bluff de joueur 1 quand il a air et le % de call de joueur 2 face à un raise, en fonction du montant du raise.

.


Résumé et conclusion pour le poker

Le NL flip simule un spot d’overbet typique river, quand un joueur a soit nuts soit air et que son adversaire est capé.
Dans ce jeu comme dans le spot équivalent au poker, le joueur polarisé a un avantage sur le joueur capé, même s’il a exactement 50% de nuts et 50% d’air, car il sait s’il a la meilleure main.
Quand joueur 1 mise x dans le pot de 2, pour être équilibré, il doit bluffer x/(x+2) quand il a air. Ainsi, plus la mise augmente, plus joueur 1 doit avoir de bluff.
Face à une mise de x, joueur 2 doit payer 2/(x+2) pour être équilibré. Ainsi, plus la mise augmente, moins joueur 2 doit payer.
Quand un des deux joueurs joue de manière équilibrée, la décision de l’autre joueur ne change pas l’Ev.
Quand un des deux joueurs joue de manière équilibrée, l’EV de joueur 1 est de x/(x+2). Ainsi, plus la mise augmente, plus le jeu est favorable au joueur 1, son Ev tendant vers 1.

Jouer parfaitement au NL flip avec un stack de 10€ et des blinds de 1 se résume à :
En tant que joueur 1,
faire boîte à 9€ 100% du temps avec les nuts.
faire boîte à 9€ 83.33% du temps avec air.
En tant que joueur 2, payer 2/(x+2) quand joueur 1 mise.

Il est donc abusif de parler de GTO (optimum) pour un joueur 1 qui miserait moins que 9, même si son range est équilibré.
Au poker, cela signifie que dans un tel spot river, la “vraie GTO” consiste non seulement à overtbet de manière équilibrée, mais overbet le plus cher possible et donc all-in.
Mais attention, il s'agit bien d'un spot où vilain est capé, or au poker il ne l'est jamais à 100%. Si vous commencez à régulièrement overbet river 5 ou 10 fois le pot, Vilain va s'adapter pour avoir des nuts dans sa range en arrivant river (autrement dit, slowplay les nuts et attendre votre shove). Cela dit, l'overbet est globalement  un move trop peu joué et pas assez cher quand il est joué, c'est d'ailleurs une des leçons de Libratus, l'IA la plus proche du jeu GTO en heads-up.