[Article PA] petite introduction à la GTO

Yeepaa · Mai 15, 2014, 12:05

plop

Ayant l’impression que la GTO est dans l’air, je vais tenter de débuter un petit thread sur le sujet.
j’ai la sensation que tout et n’importe quoi se dit sur cette approche et même si je ne m’estime pas un expert et loin s’en faut, je pense que lancer une discussion dédiée peut être une bonne chose.

je dis et maintiens qu’avant de vouloir penser GTO il faut déjà savoir penser correctement son jeu tout simplement.
Il est toutefois certain que se ‹ débarrasser › purement et simplement de la GTO est une erreur, et de cela je conviens tout à fait. Partons donc de ce qui de base préoccupe la majorité de ceux qui s’intéressent à la GTO => le bluff et le bluff catching.

Théorie et bluff. (Largement inspiré de chapitres de « The Theory of Poker » de David Sklansky
(même si ce livre peut apparaitre comme « daté », je pense sincèrement que pour un « premier jet/première approche » son contenu est simple et pérenne.)

Il faut déjà comprendre une chose qui me parait importante. La « Game Theory » est une branche des mathématiques concernant les décisions et le niveau de réflexions dans celles ci.

on peut la définir concernant le poker comme : La GTO détermine une stratégie optimale contre laquelle l’adversaire, malgré ses adaptations, ne peut trouver une stratégie qui lui assure une espérance de gain positive.

Bien qu’appliqué aux jeux, cela concerne aussi bien l’économie, les relations internationales que les sciences sociales ou militaires.

En ce qui concerne les jeux, cela revient à dire qu’on essai de trouver/définir mathématiquement les meilleures stratégies contre quelqu’un qui utilise lui même a meilleure stratégie. On arrive dans ce qu’on appelle l’optimale. D’ou le nom de GTO, « Game Theoretical Optimum» ou Jeu optimale théorique.

Contre un adversaire qui nous pense plus faible que nous ne le sommes, nous nous baserons plus sur notre analyse personnelle que sur la GTO.

Par contre, si la perception de l’adversaire nous fait penser qu’il est meilleur que nous ou si nous ignorons son niveau, une application GTO va nous permettre de prendre le dessus et de contrebalancer la compétence supérieure de notre adversaire.

Pour comprendre cela nous allons prendre un exemple basé sur un jeu d’enfant.

Les 2 joueurs doivent choisir entre 1 ou 2 doigts (allumettes ou tout ce qu’on veut). Si le total est pair un des joueurs gagne, si le total est impair l’autre gagne.

D’un point de vue mathématique c’est un jeu à somme nulle et avec une parité de chances pour l’un comme pour l’autre. Toutefois, sur un gros échantillon il sera possible à l’un ou à l’autre de trouver une façon de gagner plus et de surpasser le facteur aléatoire.

Il pourra décider de choisir un ou deux selon la fréquence et l’alternance qu’il aura décelé chez son opposant. En comprenant le pattern adverse et en s’y ajustant il va réaliser un profit.

Si on part de l’idée que quelqu’un nous défi à ce jeu. Il se sent capable de nous battre en s’ajustant à notre fréquence et nous propose 101/100 à ce jeu.

Nous estimons que réellement il va être meilleur que nous à ce petit jeu et nous devrions donc refuser. Pourtant en utilisant la GTO, nous pourrons dire oui et réaliser un profit intéressant.

Il suffira de trouver un modèle aléatoire pour décider quand choisir un ou deux doigt et non plus se baser sur notre envie du moment. Que ce soit en lançant une pièce et pour pile prendre un doigt et face deux, ou bien en utilisant n’importe quel système générateur aléatoire et utilisant un modèle prédéterminé pour choisir entre 1 et 2.

On aura de ce fait complètement contrecarré la compétence adverse en utilisant un système qui ne lui permet pas d’anticiper notre choix de jeu. La probabilité de choisir 1 ou 2 est de 50/50 et il n’y a plus de possibilité de perception par l’adversaire et d’anticipation.

De part la nature même de l’enjeu où nous avons un rapport 101/100 nous nous assurons un gain de 50cts ou 50% d’ev (1010,5-100,05=>50,5-50=0,5) qui ne sera pas compensable par l’adversaire quelque soit la stratégie adopté par l’adversaire en ayant ajusté notre jeu rendant impossible l’utilisation d’une compétence quel qu’elle soit.

Bluffer grâce à la GTO :

Ce qui nous intéresse pour le moment est de déterminer via la GTO comment bluff ou démasquer un bluff. Pour cela nous allons parler de stratégie mixte, une stratégie au sein de laquelle nous allons faire un play particulier, spécifiquement bluffer ou payer face à un possible bluff une portion du temps prédéterminée.

Nous allons toutefois amener un facteur aléatoire qui fait que notre opposant ne pourra savoir à quel moment nous allons faire ce move ou non.

Un joueur qui bluff trop comme un joueur qui ne bluff jamais sont tous deux largement désavantagés face à un joueur qui bluff correctement. Pour illustrer cela et comprendre comment prendre la décision de bluffer de façon correcte nous allons partir d’un exemple au jeu de lowball draw.

Nous avons une situation de pat :

Hero : ##9c ##8s ##3h ##2d ##Ah
Vilain : ##Kh ##4d ##3s ##2h ##Ac

Hero pat donc au draw et vilain tire une carte. Si celui ci touche n’importe quelle carte du 5 au 9, il trouvera un meilleur jeu que Hero, sur toutes les autres cartes Hero gagne.
Il reste 42 cartes dans le paquet et Vilain à donc 18 outs qui lui donne le gain de la main et 24 contre lui. Cela revient donc à 24 contre 18 ou 4 contre 3.

C’est un jeu avec ante ou les 2 joueurs ont posté 100€ avant la distribution. Vilain pourra miser 100€ après avoir draw 1 carte.

Partons du principe qu’avec la qualité de son tirage, vilain va miser 100% du temps après son tirage à une carte.

Si on part du principe que Hero devrait payer à 100% du temps dans la mesure où il est favori et va gagner 24 fois pour perdre 18 (20024-18200=4800-3600=1200€) et va donc réaliser un profit de 1200€.

Supposons maintenant que Vilain ne bluff jamais et qu’il ne va bet que lorsqu’il a touché un de ses 18 outs. Il va donc jeter 24 fois et miser 18 fois. Hero va donc jeter à chaque fois que vilain bet.

24 fois Hero va gagner 100 et 18 fois perdre 100 => 24100-18100=2400-1800=600.

Soit un gain de 600€, dans la mesure où Hero va gagner ou perdre 100€ par main mais à un rapport de 4 contre 3. Donc dans ces deux postulats, Hero va dégager un profit « facile ».

Si on module un peu la situation et que Vilain va bluffer une fois, c’est à dire qu’i va en plus de ses 18 outs « choisir » une carte sur laquelle il va bluffer. Il prédétermine le roi de pique. Le bluff n’aura aucune fréquence prédéterminé et sera de ce fait impossible à identifier.

Si Hero à garder la stratégie de toujours jeter lorsque Vilain mise, on va avoir une situation où vilain mise 19 fois pour remporter la main et Hero gagne le coup maintenant 23 fois, ce léger ajustement va impacter la stratégie de Vilain mais pas celle de Hero et en cela Vilain va réduire le désavantage qu’il a au tirage.

L’ajustement est « impossible » pour Hero dans la mesure où je répète que la fréquence de bluff est indéterminable puisque non pré établi par Vilain mais basé sur un facteur aléatoire : le fait de hit le Roi de pique.

Si bluffer pour Vilain avec seulement une carte laisse Vilain toujours en retard à 23 contre 19 mais s’il ajoute une seconde carte sur laquelle il va bluffer, comme le valet de pique. Le retard va tomber à 22 contre 20. Le jeu correct de Hero reste le fold même si il connait la stratégie adverse dans la mesure où il lui est impossible de savoir quand vilain bluff. Et avec la fréquence de 2 pour 20 soit 10% de bluff, Hero n’a pas une capacité à démasquer le bluff suffisamment souvent pour rentabiliser le démasquage.

Si maintenant on part d’une situation sur laquelle Vilain bluff sur 5 outs. Le roi de pique et tous les valets. Il va donc miser maintenant 23 fois pour 18 fois avec la meilleure main et 5 fois avec un bluff. Nous avons donc une fréquence de bluff de 5/23*100=21,7%.

La situation est ici mauvaise pour Hero avec son 89 en pat car il doit deviner quand Vilain bluff par une mise. Même si vilain expose sa stratégie à Hero, celui ci ne pourra pas trouver de contre stratégie fiable.

Que se passe-t-il concrètement ici ?

=>Vilain a donc 18 cartes qui lui donne la victoire et qu’il va miser.
=> Vilain va bluff 5 cartes du paquet qu’il a prédéterminé.
==> en cela il se donne une cote bluff/value de 18 contre 5 soit 3.6 contre 1.

Avec les 200€ d’ante et sa mise de 100€, le pot fait 300€. Hero à un call à 3 contre 1. Il ne peut donc payer profitablement face à la cote gain/perte de 3.6 contre 1 vu qu’il ne va remporter le coup qu’à 3 contre 1.

Cela donne une situation sur laquelle Vilain va remporter le coup 23 fois sur 42 et Hero 19 fois sur 42.

Le paramètre aléatoire rendant impossible à démasquer le bluff fait que Vilain va réaliser un profit de 400€ en ayant fait changer la situation défavorable de 24 contre 18 à une situation favorable à 23 contre 19.

Si Hero veut ajuster, il peut décider de payer 100% du temps mais cette situation mais cela va donner une situation qui est celle ci :

5 fois il va gagner 200€ (100 d’ante et 100 de mise) les fois où Vilain est en situation de bluff.
19 fois il va gagner les 100€ d’ante lorsque vilain jette sa main.
Il va perdre 18 fois 200€ lorsque Vilain à trouver un de ses outs.
 1000+1900-3600=-700
 Il va donc réaliser une perte nette de 700 €, ce qui est plus défavorable que de jeter 100% du temps face à un bet de vilain.

Ce qu’il faut entrevoir dans la stratégie de vilain, c’est que tant qu’il respectera un point « d’équilibre » dans sa stratégie de sélection de facteurs bluffs (des outs fantômes) il va réaliser un profit mais si il dépasse un certain seuil => trop de bluff, la stratégie de payer 100% du temps pour Hero redeviendra profitable.

C’est en cela qu’il faut bien comprendre où se situent les bonnes stratégies et quelles en sont les limites. L’optimale étant de déterminer combien d’outs on va ajouter à notre équité réelle en maximisant le profit quelque soit la stratégie choisie par l’adversaire => tout payer ou tout folder.

Un exemple annexe (nous reviendrons aux cartes après) qui illustre bien le biais de « trop » en faire.

Prenons 2 vendeurs de Chichis sur la plage => Boobaa et Yeepaa.

Ils ont tous les deux une patente pour vendre légalement leurs gateries sur un tronçon de plage de 600 mètres d’amplitude.

Sans se concerter, ils savent tous deux qu’en se mettant de façon équidistante des extrémités de leur bout de plage ils optimisent leurs profits sans se marcher dessus et sans instaurer de concurrence sur la qualité de leurs biens.

En ayant choisi une situation équilibré, ils couvrent tous les 2 la même portion de plage, ils se répartissent donc justement les clients qui n’ont qu’à déterminer leur point de vente par la distance qui les sépare du vendeur.

Boobaa réalisant cela après quelques jours se dit qu’il pourrait prendre une part du gâteau plus importante sans forcément que Yeepaa s’en rende compte (il va chercher une situation exploitante en déviant de la stratégie dite optimale qui était une situation d’équilibre).

Il se décale donc d’une dizaine de mètre et commence à gagner légèrement plus mais de ce fait Yeepaa perd un peu et s’en rend compte après 3 jours continue de manque à gagner théorique. Le temps d’ajustement peut être mit sur le compte d’une estimation d’une fréquentation moindre par exemple et la validation sur plusieurs jours semble cohérente.

Yeepaa va ajuster lui aussi et grignoter 10 mètres de plus ce qui va donner une situation de 210 mètres des extrémités à chacun et plus que 180 mètres entre les 2.

S’il décide de non pas se déplacer de 10 mais de 20 mètres en disant « ok tu as voulu me carotter, pas de soucis à mon tour ». Booba va à son tour adapter sa stratégie et se déplacer.

Jusqu’à un point où ils auront tellement dévié de la stratégie optimale qu’ils seront tous deux perdants.
Le client qui se trouve à l’extrémité, n’a plus qu’à aller à la concurrence sur le tronçon voisin en économisant quelques mètres de labeur ce qui va faire perdre in fine de l’argent à nos deux lascars.

Si on voit qu’une stratégie optimale et équilibrée était rentable pour les 2 on s’aperçoit que la volonté de trop en dévier pour exploiter son « adversaire » peut au contraire faire perdre de l’argent.

C’est un parallèle assez simpliste mais qui fait bien prendre en compte les ajustements et leurs dangers.
Pour revenir à la situation de bluff avec notre de situation de lowball.

Le seul ajustement que pourra faire Hero pour déjouer la stratégie de bluff de Vilain va être lui aussi de trouver un élément aléatoire pour intégrer une fréquence de call en se basant sur les fréquences et la réalisation probabilistique adverse.

En cela si Hero estime le ratio value/bluff adverse à hauteur de 4 contre 1, il va devoir lui même trouver un call une fois sur 20% des bets adverses => 4 folds pour 1 call.

De façon purement aléatoire, il pourrait prendre un dé à 5 faces (style dé de jeu de rôle) et dire que dès qu’il fait un chiffre sur ces 5 il paye.

Il faut comprendre que contrairement à un jeu « paritaire » 1 chance sur 2 sur lequel la compétence adverse va pouvoir lui donner un avantage. Le fait de trouver un système de bluff catching ne va pas rendre une situation défavorable en situation favorable et qu’il faudra peut être dans le cas qui illustre tout ce propos choisir un ajustement qui pourra être de draw de temps à autre le même type de main pour aller trouver une meilleure main et contrecarrer la stratégie de l’adversaire.

Quand l’adversaire va utiliser une stratégie optimale pour bluffer, la théorie fait qu’il est impossible de le battre à ce jeu. On pourra trouver une situation d’équilibre mais pas de profit.

Cela peut paraitre étrange mais pour revenir à l’exemple de la plage, vouloir à tout prix exploiter son adversaire ou contre ajuster à outrance peut générer une situation pire encore.

Il faut aussi comprendre que cet exemple n’est qu’un exemple sur une variante bien précise et dans une situation donnée. Dans les faits, on ne touchera pas toujours la même main ni l’adversaire non plus et une somme de facteurs impacteront les stratégies réciproques. Toutefois, avoir une vision GTO de certaines situations et à fortiori quand on fait face à un adversaire soit plus fort soit encore indéterminé sera une belle source de gains.

Pour en conclure sur cette « légère » approche de la GTO, il faut garder à l’esprit que la Game Théory ne remplacera jamais un bon thinking process et un jugement rationnel quant aux profils, situations, images et tout le toutim. On va palier un différentiel d’edge en notre défaveur par cela. C’est toute la différence entre la GTO et l’exploitation :

=> Pour exploiter il faut être meilleur que son adversaire.
=>Pour jouer GTO, il faut en maitriser les concepts et stratégies.
Dans un contexte exploitant, la GTO restera très intéressante et ce notamment pour maximiser nos espérances financières et de taux de réussite aussi bien de bluff que de démasquage de bluff.

L’illustration du thinking process ou plutôt du fait de ne pas « bon la GTO induit fréquence, ici je vais call ou bluff ! »
 Si on prend un spot où notre adversaire fait all in river pour 50€ dans un pot de 100€.
 Il lui faut remporter le coup 50/150=33% du temps, ce qui fait que nous même nous devrions call le haut de notre range de bluff catch => 100/150=0,66%.

Ce qui est important, c’est que nous ne devrions call que les 2/3 de notre catching range et pas 2/3 de l’intégralité de notre range.

1 – il ne va pas bluff à 100% des coups
2 – si on n’a pas un bluff catcher, il est bien illusoire de vouloir remporter le coup à l’abattage et le call n’a donc aucun sens

Si on applique la GTO sur ce point. L’adversaire à un range polarisé => main forte/main faible.

Nous n’avons qu’un bluff catcher (et si ce n’est pas le cas, il n’y aucune modélisation mathématique ou théorique à faire, c’est une main de fold et c’est tout !

si l’adversaire bluff trop, nous aurons trop d’occasions pour dilapider de l’argent avec rien. Si l’adversaire ne bluff pas assez, nous n’avons aucun intérêt à payer de toute façon, si l’adversaire est équilibré dans ses bluffs, sa fréquence fait que nous pourrons attendre un meilleur spot pour bluff catch dans la mesure ou il ne bluff pas n’importe comment).

Donc à partir du moment ou nous avons un bluff catcher, nous pourrons payer dans cette situation avec la partie haute de notre range de bluff catch pour empêcher notre adversaire de pouvoir bluff profitablement et nous même réaliser du profit en le démasquant.

Je vous link ici un thread 2+2 qui est à mon sens intéressant sur pas mal de points similaires.

°+°

Barth_Gury · Mai 15, 2014, 12:29

Nice job Yeepaa ! Je lis ça ce soir une fois rentré chez moi !

juko25 · Mai 15, 2014, 3:22

très bon article, bien expliqué c’est simple en fait la GTO B)

Antho75 · Mai 15, 2014, 3:38

Tout d’abord merci Yeepa pour ce joli travail !

Un petit conseil qui n’engage que moi et les novices de mon espèce, je pense que tu devrais définir GTO dés le début, parce que perso, je savais pas ce que c’était et c’est dur de lire 15 lignes sans savoir de quoi on parle ! :laugh:

Allez je retourne lire la suite

jamesN · Mai 15, 2014, 3:41

Comme dab gros travail, merci pour cet article que je n’ai pas encore lu mais que je vais me taper sans doute ce soir dans le lit sur la tablette
je couche pas avec ma tablette hein tu as compris ! :laugh:

Yeepaa · Mai 15, 2014, 3:43

[quote=“Antho75, post:722400”]Tout d’abord merci Yeepa pour ce joli travail !

Un petit conseil qui n’engage que moi et les novices de mon espèce, je pense que tu devrais définir GTO dés le début, parce que perso, je savais pas ce que c’était et c’est dur de lire 15 lignes sans savoir de quoi on parle ! :laugh:

Allez je retourne lire la suite ;)[/quote]

plop

pas faux

je vais ajouter une tite ligne en intro

ty

°+°

trunkcorp500 · Mai 27, 2014, 8:38

Après avoir lu ton article je préfère le PPO, poker panache optimum :laugh: