GTO Poker : en route vers une façon de jouer au poker parfaite ?

Le célèbre mathématicien John Nash est mort en 2015. Il avait reçu en 94 un prix Nobel. C’est intéressant, mais…

Qu’est-ce que Nash et ses contributions ont à voir avec le poker ? Plein de choses. Vous avez peut-être entendu parler d’une stratégie de poker « inexploitable » : le GTO. Ce concept découle du travail de Nash. Pour expliquer la connexion, il est utile de commencer par un jeu beaucoup moins compliqué que le poker, quelque chose appelé « Le dilemme du prisonnier ».

Le dilemme du prisonnier

Voici comment cela fonctionne, comme l’explique un autre mathématicien, Albert W. Tucker, dont l’explication apparaît en anglais sur Wikipédia :

« Deux membres d’un gang criminel sont arrêtés et emprisonnés. Chaque prisonnier est à l’isolement et n’a aucun moyen de parler ou d’échanger des messages avec l’autre. Les procureurs n’ont pas assez de preuves pour condamner le duo pour l’accusation principale. Ils espèrent tous deux être condamnés à un an de prison pour une accusation moindre. Simultanément, les procureurs offrent un marché à chaque prisonnier. Chaque prisonnier a la possibilité soit de trahir l’autre en témoignant que l’autre a commis le crime, soit de coopérer avec l’autre en restant silencieux. Voici l’offre :

Si A et B se trahissent l’un l’autre, chacun d’eux purge 2 ans de prison.
Si A trahit B mais B reste silencieux, A sera libéré et B purgera 3 ans de prison (et vice-versa).
Si A et B se taisent tous les deux, ils ne purgeront qu’un an de prison (pour l’accusation la moins grave). »

Le choix de garder le silence peut aussi s’appeler « coopérer », tandis que la trahison peut aussi s’appeler « défaire ».

Supposons que vous êtes A. Que devriez-vous faire ? Cela dépend évidemment de ce que B choisira. Si B vous trahit, alors vous purgerez soit 2 ans si vous trahissez également, soit 3 ans si vous restez silencieux. Il est donc clair que si B choisit de trahir, il vaut mieux trahir aussi.

Et si B reste silencieux ? Ensuite, soit vous purgerez une peine d’un an en restant silencieux, soit vous serez libéré en trahissant B. Donc, si B reste silencieux, vous feriez mieux de le trahir.

Par conséquent, la trahison est votre meilleur choix, peu importe ce que B choisit de faire. Et, symétriquement, l’analyse que B fait de son meilleur choix en ressort de la même façon. C’est un exemple simple de ce qu’on appelle un « équilibre de Nash ».

Notez que le facteur clé n’est pas que les deux joueurs dans ce jeu obtiennent leur meilleur résultat possible. L’élément clé qui en fait un équilibre de Nash est que chacun a choisi une stratégie dans laquelle son résultat ne peut être aggravé par aucun choix fait par l’autre participant.

Stratégie GTO (Game Theory Optimal)

Le concept d’une stratégie inexploitable au poker découle directement de cela. Il s’agit d’une décision rendue dans une situation particulière pour laquelle un opposant ne peut pas faire une contre-offensive rentable. Un autre terme pour une telle stratégie est « théorie des jeux optimale » ou GTO.

Pour chaque décision que vous devez prendre au poker, il existe une solution GTO. Pour la plupart des situations, on ne peut généralement pas savoir quelle est cette solution, car le poker est un jeu si complexe que même les meilleurs ordinateurs exécutant les meilleurs algorithmes ne peuvent le calculer. Mais une décision optimale existe. Si vous deviez prendre toutes les décisions de poker selon ce modèle théorique, alors aucune stratégie qu’un adversaire pourrait choisir ne ferait de vous un perdant à long terme.

Bien sûr, personne ne joue comme ça. Les acteurs humains du monde réel s’écartent tout le temps de GTO, ce qui les ouvre à l’exploitation.

Pour prendre un exemple absurde et exagéré, si vous aviez un adversaire qui était si serré qu’il ne jouait que lorsqu’il avait des as de poche, et que vous le saviez, vous pourriez lui voler la vue. S’il mettait volontairement de l’argent dans le pot, vous sauriez qu’il a des as, et vous vous coucheriez. Sinon, vous relancez, il se couche sans les as, vous prenez le pot. En moyenne, il gagnerait une fois toutes les 221 mains, et vous gagneriez tout le reste.

Jouer chaque main dans cette situation très spécifique serait extrêmement profitable, car elle exploite un défaut terribledans le jeu de votre adversaire. Pour ce faire, vous devez vous écarter du jeu GTO, car il est clair que jouer chaque main n’est généralement pas une stratégie rentable à long terme.

La déviation que vous faites du jeu GTO vous rend exploitable. Si nous introduisons dans le jeu un troisième joueur qui a observé la dynamique du heads-up, vous ne pouvez évidemment pas continuer à jouer toutes les mains, car le troisième joueur peut maintenant profiter de votre jeu excessivement agressif en vous relançant sélectivement, et vous serez obligé de vous coucher avec vos mains les plus faibles.

Applications au poker

Existe-t-il des situations réelles de poker où l’idée de la stratégie d’équilibre de Nash s’applique qui ne sont pas aussi inventées que ces exemples ? Oui, il y en a.

Vous avez peut-être déjà vu des tableaux de stratégies « push or fold ». Il s’agit de tournois où vous avez peu de jetons (exemple, moins de dix grosses blindes), de sorte que les deux seuls choix rationnels sont de se coucher ou de faire all in, rien entre les deux. Parce que la situation est simple, il a été possible de déterminer mathématiquement quelles mains vous devez coucher et quelles mains vous devez pousser à tapis, de sorte que votre décision est inexploitable, c’est-à-dire que votre adversaire ne peut adopter aucune stratégie qui améliore son propre résultat à vos dépens.

Il y a quelques années, une première équipe universitaire a annoncé un algorithme informatique qui joue au poker GTO, mais seulement dans le cas précis du Texas Hold’em à limite fixe. Le mieux qu’un adversaire puisse espérer faire contre ce robot à long terme est d’atteindre le seuil de rentabilité. Le robot se base sur les probabilités et est meilleur que tous les joueurs humains. Impressionnante voire inquiétant, non ?

Cependant, comme de nombreux commentateurs l’ont rapidement fait remarquer, cela ne signifie pas que le logiciel serait particulièrement efficace contre un adversaire donné par rapport à ce qu’un joueur humain expert pourrait faire. C’est parce que la stratégie fixe de l’ordinateur – il a prédéterminé ce qu’il faut faire dans chaque situation possible – ne peut pas s’écarter de GTO pour exploiter les erreurs faites par un adversaire imparfait.

En d’autres termes, un joueur mauvais perdra certainement tout son argent contre l’ordinateur avec le temps. Mais un bon adversaire humain prendra l’argent du mauvais joueur humain encore plus vite, parce qu’il peut analyser les erreurs et ajuster son jeu pour profiter du joueur plus faible.

Dans notre exemple original, ni l’un ni l’autre ne peut exploiter avantageusement le choix d’un prisonnier. Mais ni l’un ni l’autre n’aboutit à un résultat optimal, qui serait d’être libre. De même, l’ordinateur de jeu GTO parfait est imbattable, mais il ne parvient pas non plus à maximiser ses profits en repérant et en exploitant les erreurs inévitables de ses adversaires. Le jeu GTO est essentiellement une stratégie défensive, et non la plus rentable.

Le poker réel n’implique jamais d’adversaires qui jouent une stratégie GTO. Chaque joueur fait des erreurs fréquentes. Le profit dans le jeu est d’être meilleur dans l’identification et l’exploitation de leurs erreurs que dans l’identification et l’exploitation des vôtres.

Conclusion

Pour en revenir à honorer l’homme dont le travail a inspiré cet article, si vos adversaires ne jouent pas au poker Nash-equilibrium – et ils ne le font jamais – alors vous ne devriez pas non plus. Trouvez leurs faiblesses et faites-les payer tout en veillant à ne pas laisser votre propre jeu s’écarter à ce point de l’optimum théorique que vous devenez facile à exploiter.

Les progressions en GTO sont impressionnantes ces dernières années et des robots gagnent beaucoup d’argent aux tables notamment sur les formats Spin et Go et Expresso. Si vous ne devez pas jouer comme un robot en étant humain, il est très important pour tout joueur souhaitant progresser de s’intéresser au GTO poker.

Je vous recommande notamment d’apprendre les ranges de mains à jouer préflop en tournoi selon votre stack, votre position, le nombre d’adversaires, l’avancée dans le tournoi… En vous intéressant à ces éventailes de mains, vous serez souvent surpris de découvrir que certaines de vos habitudes sont perdantes à long terme. De mon côté, mon éventail de mains où j’allais à tapis avec 7 à 12 blindes était bien trop large par rapport à ce que recommande un jeu GTO, j’ai donc corrigé le tir depuis.