GTO(均衡戦略)を学ぶ意味(ポーカー)
2020/6/26更新
昔の記事を読み返していると、もっと変えたほうがいいなと思ったところがたくさんあったので、公開停止にしました。
そのうち、更新して、公開したいと思います。
この記事はGTO(均衡戦略)を学ぶ意味を書き直したものです。
GTOを学ぶ意味は、最大限のエクスプロイトをするためです。
それについて今回は説明します。
目次
均衡について
まずは均衡という言葉について説明します。
わかりずらくなるのでここでは常にヘッズアップの状況を考えます。
IPはOOPの行うプレイに対して最大限搾取するプレイをします。
OOPもそれに対して最大限搾取するプレイをします。
このようにお互いがお互いを搾取しあうと、IP、OOPのどちらかが戦略を変えると、変えたほうが搾取プレイをされて利益を損失するという状態になります。
このようにお互いがプレイを変えることが不利益になる状態をゲーム理論の言葉で
「IPとOOPのプレイは均衡している」と言います。
最適プレイについて
IPとOOPのプレイが均衡しているときのIP、OOPのそれぞれのプレイをGTOと呼びます。またここで相手を最高に搾取するプレイを最適プレイと呼ぶことにします。
相手がGTOから外れていることが分かった場合は、それに合わせてGTOから外れたプレイをするのが最適プレイです。これをポーカー用語ではエクスプロイトといいます。
GTOを学ぶ意味
GTO通りにプレイできるプレイヤーはなかなかいないので、GTOを学ぶことは意味がないことなのでしょうか。
いえ、そうではありません。相手のプレイが100%わかっていたとしてもそれに応じた最適プレイを求めることは意外と難しいのです。
GTOクイズではとても狭いレンジでSPRも小さい状況を出題していますが、それほど正答率が高くありません。
実際のポーカーはさらに複雑です。
そのような複雑な状況で最適プレイが導出できなくては相手を最大限エクスプロイトすることはできません。よって、GTOは相手を最大限エクスプロイトするために必要な知識なのです。これがGTOを学ぶ意味です。
もちろん、GTOだけを勉強することは意味がありません。
例えば、ソルバーで導出できる解は相手のレンジやプレイを100%わかった状態で計算しています。
現実ではそのようなことはありません。
ハンドリーディングの能力を向上させて相手のプレイを見抜く必要があります。
つまり、GTOの知識とハンドリーディング能力の両方を兼ね備えたプレイヤーがとても強いプレイヤーということですね。
この記事を読んでGTOに興味を持ってくださる方が増えたら嬉しいです。