« 「XXL」フック部分アナリーゼ | トップページ | 大統領令「ジョン・スチュワートは番組を辞めてはいけない」 »

ライバルに勝つには 2.4142… 倍に賭けろ!

 確率論の概念の中でも、最も一般に有名でよく使われるのは「期待値」であろう。確かに、期待値がわかりやすく役に立つ概念であることは間違いない。しかし、便利すぎるせいか、過剰な信仰やドグマの対象になっていることも少なくない。そのことはこのブログでも折に触れて指摘してきた。

 期待値というのが、確率分布を表す最も重要な指標であることは間違いない。しかしどれほど重要な指標であっても、あくまで一つの指標にすぎず、確率分布を期待値に置き換えた時点で、多くの情報が失われるのもまた事実なのである。

 たとえば、意思決定の基準としても、期待値を最大化することを最善とする「期待値基準」だけが唯一の基準ではない。他にも、マックスミン基準、サベージ基準、マックスマックス基準などが意思決定論の学者たちによって考案されている(これらの基準については、数学者・経済学者の小島寛之氏のこのブログ記事などを参照)。これらはどれも、確率分布のうちの期待値以外の部分の情報に着目した基準だ。

 また、金融工学のポートフォリオ理論 CAPM では、期待値と標準偏差という2つの基準で投資の良し悪しを評価している。この指標を英語で言い換えものが、今や一般にもおなじみの言葉となった「リスクとリターン」だ。この考え方自体が、期待値だけでは評価基準として不十分、という認識の表れでもある。

 この記事では、期待値信仰を相対化するための思考実験として、「期待値一定の賭け」というものについて考えてみる。期待値が一定であれば、期待値だけを判断基準にすることは不可能だ。だから、それ以外の情報に着目せざるおえない。そこから導かれる結論は、期待値信仰に染まった人にとっては、多少意外に感じてもらえるのではないかと思う。

 この記事は長いので、あえて釣りっぽく先に予告しておこう。本稿の結論は、

  • 「ライバルに勝つには 2.4142…倍に賭けろ」、あるいは
  • 「勝つためには『白銀比』に賭けろ!」。
それでは、後の仕上げをごろうじろ。 (本稿の内容は、自分の知る範囲や検索した範囲では前例はなかった。しかし、徹底したサーベイをしたわけではないので、ひょっとしたら先行事例があるかもしれない。もしあったらごめんなさい。教えていただければ、しかるべき対応をすることを約束します。)

・どれに賭けても同じこと?

 実は、ギャンブルはほとんどが期待値一定だ。ギャンブルというのは基本的に、ギャンブラーが出した賭金の総額から、胴元がテラ銭をさっぴいて、その残りを勝者に与えるという仕組みだから、期待値が一定になるのは仕組み上当然なのである。

 話を簡単にするためテラ銭を捨象して考えると、ルーレットなら、赤・黒や奇数・偶数なら倍率 2 倍で確率は 1/2。1点賭けなら倍率 36 倍で確率は 1/36。競馬でも、オッズの低い馬は勝率が高く、オッズの高い馬は勝率が低い。だから、期待値だけを基準にして考えれば、どの選択肢に賭けても同じこと、ということになるはずだ。

(実は、競馬のような予想ギャンブルでは、オッズは不特定多数のギャンブラーの不正確な予想によって決まるので、これが神の目から見た「本当の勝率」と一致する保証はない。したがって、厳密には期待値が一定かどうかはわからない。もし期待値一定でない場合には、より正確な予想をできるギャンブラーが平均して勝ち越す可能性も出てくる。これは金融工学で言うとrころの、効率的市場仮説の成り立たない「アノマリー」と同じことである。先日、独自の競馬予想ソフトを使って大儲けをしていた人が、所得税法違反に訴えられるという事件があったが、この人はおそらく、そういう「アノマリー」を利用していたのではないかと思われる。が、この記事ではとりあえず、そういう問題は余談として言及するにとどめる。)

 しかし、ルーレットで倍率 2 倍に賭けるのも 36 倍に賭けるのも同じ、と言われると、素朴な実感として何か違和感を感じないだろうか。半端な知識のある人は、そう感じるの人間の直感の方が間違っている、と安易に断定するかもしれない。最近の流行に詳しい人は、行動経済学的・進化心理学的なバイアスだ、と言うかもしれない。もちろん、そういう面もある。しかし、先に言ったように、期待値が同じであっても違いを感じるという現象にも、立派に合理的な理由付けはできるのである。

 本稿では以後、このような期待値一定の賭けを、思考実験の道具として利用し、さまざまな例に当てはめることによって、期待値信仰の盲点を明らかにしていく。

・「期待値一定の賭け」のモデル化

 「期待値一定の賭け」と言っても、選択肢が赤だの黒だのオルフェーブルだのいろいろあって、対応する倍率もバラバラで、掛金も好きに選べるのでは、話が面倒になりすぎる。そこで、もっと議論に必要最小限の要素だけを残して単純化したモデルを考えよう。

 まず、選択肢は 0 より大きく 1 以下の実数ならなんでもよいことにする。この実数は、そのままその選択肢の確率を表す。期待値一定なので、倍率は自動的にその逆数になる。すなわち、確率 1/2 を選べば、倍率は 2 倍。確率 1/3 を選べば、倍率は 3 倍となる。それ以外には制限はないので、確率 1 で倍率 1 の元返しを選んでもいいし、確率 1 億分の 1 で倍率 1 億倍の大穴を狙ってもかまわない。つまり、ローリスク・ローリターンとハイリスク・ハイリターンの間を自由に選べる。掛け金は 1 に固定とする。つまり倍率と配当額は常に同じになる。

 もちろん、このモデルだけではたいして面白いことは言えない。ところが、これに少し条件をつけると、考慮に値するなかなか興味深い問題が出てくるのである。

 ・ハードルを越えろ

 まず、勝ったときの配当がそのままもらえるのではなく、それがあるハードルを越えたとき、初めて本当に勝ちになる、というゲームを考えてみよう。ゲーム中にもらえるのはポーカーチップやパチンコ玉みたいなもので、それがある量を越えると、初めて換金できる、と考えても良い。そして、勝負は 1 回きりとしよう。

 ハードルとなる量はいくらでもいいのだが、仮に 10 としようか。そうすると、誰でもすぐ気づくだろうが、倍率として元返しや 2 倍 3 倍を選択しても、まったく意味がない。当たっても絶対にハードルを越えないのだから。だから、最低でも 10 倍以上を選択する必要がある。

 では、10 倍以上だったらどれでもいいのか、と言えば、もちろん違う。期待値一定の賭けでは、倍率を大きくすればするほど確率が下がるのだから、ハードルを越えるという条件を満たす範囲では倍率は小さければ小さいほどよい。

 したがって、このようなゲームにおける最適な選択は、ハードルをギリギリ越える倍率(この場合は 10 倍)である、ということがすぐにわかる。これも極めて単純ではあるが、期待値が同じでも結果が同じにならない例である。

・ライバルに勝て

 次に、このゲームをもう少し複雑にしてみよう。今度は、プレーヤーがもう一人いて、二人の差し勝負とする。つまり、二人がそれぞれこの「期待値一定の賭け」をして、配当が多かった方が勝ち。勝った方が負けた方から一定の賞金を受け取る、というゲームだ。勝負はやはり 1 回きり。

 先のゲームでは、ハードルの高さが事前にわかっていた。だからこそ、そのギリギリ上を狙うことができた。今度は、ハードルの高さを決めるのは相手プレーヤーなので、その高さは事前にはわからない。でも、相手プレーヤーに越えられらないように自分のハードルを高目にすれば、自分が配当(チップ)を得られる確率自体も下がってしまい、相手に勝つ確率も必然的に下がってしまう。だから、選ぶ倍率は高すぎても低すぎてもダメ、というジレンマがある。

 イメージの湧かない人は、麻雀を想像するとよいかもしれない。麻雀にも、点数が安くて簡単な役と高くて難しい役があり、一局一局で作る役は自由に選べるが、最終的な勝利は一局の点数ではなく、トータルの順位で決まり、ウマとかオカとか呼ばれる大量の順位点がもらえる。

 したがって麻雀では、単純な得点以上に順位が重要で、順位に応じて安い役を狙ったり高い役を狙ったりする。しかし、この狙う役の選択自体がなかなか難しくて、麻雀のゲーム回しにおける高度な技術であることは、麻雀のお好きな人ならよくご存知だろう。

(ただし、このゲームと違って、麻雀の役の期待値は実際には一定ではないらしい。そのことは、たとえば「麻雀の常識を破る本」などにも書かれている。)

 この手のゲームの戦略は、結局は相手の心理を読んで裏をかくしかない、みたいな話になりやすい。ところが、数理的に考えると、このゲームにはもっと「合理的」な最適解がちゃんと存在するのである。今から、その最適解について説明する。実はここからが本題なので、気を入れ直して読んで欲しい。

・ゲーム理論の混合戦略を応用する

 実はこの問題は、ゲーム理論の枠組みを使うと、ゼロ和二人ゲームの変種として定式化できる。そして、ゲーム理論でよく使われる方法と似た方法で解けるのだ。

(以下の説明では、ゲーム理論の初歩的な知識を前提とする。でも、本当に初歩的な知識しか使ってないので、あまり心配する必要はない。ご存知でない方も、ネット上の情報なり参考文献なり適宜参照すれば、ついて来れる程度の話のはずである。)

プレーヤー2

戦略A

戦略B

プレーヤー1

戦略A

0

1

戦略B

2

0

 たとえば、このような利得行列で表される有限ゼロ和二人ゲームは、ジレンマ・ゲームであり、そのままでは安定した最適解は存在しない。ところが、このゲームに確率を導入し、プレーヤー1・プレーヤー2が、それぞれ一定の確率で戦略A、戦略Bを選ぶと考える。そうすると、期待値の意味(期待効用)では安定した最適解が存在する。これが有名なノイマン=モルゲンシュテルンのミニマックス定理であった。

 この場合、プレーヤー1・プレーヤー2が戦略Aを選ぶ確率 p1、p2 が、戦略A・戦略Bに代わる新たな戦略となる(戦略Bを選ぶ確率は、自動的に 1-p1、1-p2 となる)。このような確率的な戦略を「混合戦略」と呼ぶ。

 ここで先の「ライバルに勝て」のゲームを思い出そう。プレーヤー1・プレーヤー2が選択できる戦略が「確率」である、という点だけを見れば、実はこの混合戦略と同じであることに気づくだろう。「ライバルに勝て」において結果として当たりの目が出て配当を得る、ということが、このゲームにおいては確率的に戦略Aを選ぶことに対応しているわけだ。

 ただし、違う点もある。このゲームでは、p1、p2 にどんな確率を選んでも、利得行列自体は変わらないが、「ライバルに勝て」では、p1、p2 のどちらが大きいかによって、利得行列自体が変わってしまうということだ。

 p1 の方が小さいということは、プレーヤー1の方がプレーヤー2より倍率が高い、ということだから、プレーヤー1に当たりの目が出れば、プレーヤー2が当たろうが外れようが、必ず勝ちになる。プレーヤー2が勝つ可能性があるのは、プレーヤー1に外れの目が出たときだけだ。逆に p1 の方が大きいということは、プレーヤー1の方がプレーヤー2より倍率が低い、ということだから、プレーヤー2に当たりの目が出れば、プレーヤー1が当たろうが外れようが、必ず負けになる。プレーヤー1が勝つ可能性があるのは、プレーヤー2に外れの目が出たときだけだ。

 つまり、p1<p2 の場合と、p1>p2 の場合の、2 通りの利得行列が必要になるということだ。

利得行列1: p1<p2 の場合

プレーヤー2

当たり

はずれ

プレーヤー1

当たり

はずれ



利得行列2: p1>p2 の場合 

プレーヤー2

当たり

はずれ

プレーヤー1

当たり

はずれ



 完全情報有限ゼロ和二人ゲームの混合戦略の最適解の求め方は確立されていて、線形計画法で機械的に解けるのだが、この問題では、少し違う方法を工夫しなくてはならないことがわかる。

・数値計算と可視化で大雑把な解を求める

 そこでまず、数値計算と可視化で、大雑把な解の見当をつけてみよう。線形計画法自体は適用できなくても、マックスミニ基準の考え方自体は適用できるはずだから、p1、p2 に対する期待利得の関係を数値的に可視化すれば、どのへんにマックスミニ解があるか、だいたいの位置がわかるはずだ。

 なお、数値計算では具体的な数値が必要なので、以下の可視化では、プレーヤー1の勝ちの利得を 1、負けの利得を -1、引き分けの利得を 0 として計算している。

 まず、利得行列1の場合を可視化するとこうなる。

p1小なりp2の場合の期待利得.png

p1小なりp2の場合の期待利得3D.JPG

 ちなみに、上のグラフは、p1 を横軸に、利得を縦軸にとり、代表的な p2 の値を選んで二次元にプロットしたもの。下のグラフは、p1 を x 軸、p2 を y 軸、利得を z 軸にとって、三次元にプロットしたものである。

 そして、利得行列2の場合を可視化するとこうなる。

p1大なりp2の場合の期待利得.png

p1大なりp2の場合の期待利得3D.JPG

  実際の p1、p2 と利得の関係を可視化するのは、p1、p2 によって場合分けした上で、この両者を組み合わせなければならない。それをやると以下のようになる。

「ライバルに勝て」の期待利得.png

「ライバルに勝て」の期待利得3D.JPG

 さて、ゲーム理論におけるマックスミニ基準とは、相手が最善の戦略、つまり、自分にとって最悪の戦略を選んだときの、自分の利得を最大化するのが最善の戦略だ、という基準であった。

 この二次元のグラフで言えば、相手の戦略を示すさまざまな線のうちの、一番下にある線が相手にとっての最善の戦略だ。どの線が一番下に来るかは、自分のとる戦略、つまり横軸の位置によって異なるが、横軸を端から端まで眺めて、対応する最も低い線の高さが最も高くなっている位置が、マックスミニ基準による最適戦略を示す位置となる。大雑把に言えば、下側の線のもっとも盛り上がったところがマックスミニ解だということだ。

 この三次元のグラフは gnuplot でプロットしたものだが、gnuplot のようにインタラクティブにグラフを回転させる機能があれば、マウスでグリグリ回転させながらグラフを眺めるだけで、簡単にマックスミニ解やミニマックス解の大雑把な位置に見当をつけることができる。 要するに、下図のように「真横」から見ればいいのだ。

gnuplotマクシミン解はやわかり.JPG

gnuplotミニマックス解はやわかり.JPG

 さて、こうやって眺めると、だいたい p1 が 0.4 より少し大きいぐらいの位置に、マックスミニ解が存在するようだ。だから少なくとも、どの倍率を選んでも結果は同じ、ということにはならなそうだ。

 残る問題は、この 0.4 という数字に理論的にどんな意味があるのか、ということだ。最後の仕上げに、この解を理論的に解釈し直してみよう。

・解を理論的に解釈する

 このグラフを見て気づくのは、マックスミニ解を構成する山形の線が、左側の直線と右側の曲線の二本から構成されていることである。この左側の直線が何かは、多分ちょっと考えれば誰でもわかると思うのだが、これについては後で話そう。

 では、この右側の曲線はなんだろうか。これは、二次元のグラフを見た方が分かりやすいが、要するに、利得行列1の直線と利得行列2の直線との、つなぎ目の点から構成されているのである。つなぎ目の点というのは、両者が選択した倍率が同じときの点。だからこれは、p1=p2 のときの利得を表す点の集まりなのだ。

「ライバルに勝て」の「つなぎ目」図解.jpg

 二直線のつなぎ目はずれてるので、二つの接点が上下に対になって存在しているが、これはもちろん、p1 が p2 よりちょっとでも小さければプレーヤー1の勝ち、p1 が p2 よりちょっとでも大きければプレーヤー2の勝ち、と正反対の結果になることに対応している。

 先ほどの話を思い出して欲しい。一方の戦略がわかっていれば、もう一方の最適戦略は、それよりちょっとだけ倍率の大きい(確率の小さい)選択肢だ、と言っておいた。でも、その戦略をとったときに、実際にどのぐらいの利得が期待できるかについては、あえて何も言わなかった。

 このような「ギリギリ戦略」の場合、一方が選択すべき倍率自体がもう一方の選択によって変わる。だが、このときの期待利得は、どの倍率を選んでも同じというわけではないのだ。この期待利得自体が、倍率(つまり p1 および p2 の値)によって変わるのである。

 たとえば、両プレーヤーがともに、倍率 2 倍、確率 1/2 を選択した場合の期待利得を計算してみよう。両プレーヤーが当たりの目を出し、どちらも同じ倍率だった場合、本来の結果は引き分けだ。しかしここで求めたいのは、プレーヤー1にとって最悪の場合の利得(上の図で言えば、上下の「つなぎ目」のうちの下にある方の点)なので、同じ倍率だった場合は、プレーヤー2の倍率がちょっとだけ大きかったことにして、プレーヤー2の勝ちとしよう。すると期待利得はこうなる。

$$ \frac{1}{2} \times \left( 1- \frac{1}{2} \right) -\frac{1}{2}= -\frac{1}{4} $$

 同じように、両プレーヤーがともに、倍率 3 倍、確率 1/3 を選択した場合の期待利得はこうなる。

$$ \frac{1}{3} \times \left( 1- \frac{1}{3} \right) -\frac{1}{3}= -\frac{1}{9} $$

 このように、倍率を高くすればするほど、相手の倍率がそれよりほんのちょっとだけ高かった場合でも、実際に損害を蒙る確率が下がるので、トータルの期待利得は増える。つまり、選択する倍率を高くすると、最悪の場合の結果がだんだんよくなるのだ。

 では、倍率を高くすればするほといいかというと、さにあらず。ここで問題になってくるのが、先ほどあえて保留した、左側の直線である。

 実は、話の展開上あえて紹介しなかったが、この「ライバルに勝て」ゲームにはもう一つ有力な戦略がある。それは、リスクをまったくとらずに、元返しの 1 倍を選び、リスクをとりすぎた相手の自滅を待つことである。このような「無リスク」戦略は、相手がリスクを大きくとって、高い倍率を選べば選ぶほど有効になる。

 たとえば、プレーヤー1が倍率 10 倍、確率 1/10 を選択し、プレーヤー2がこの元返し戦略を選択した場合の、期待利得を計算するとこうなる。

$$ \frac{1}{10} -1 \times \left( 1- \frac{1}{10} \right) =-\frac{4}{5} $$

 同じように、プレーヤー1が倍率 2 倍、確率 1/2 を選択し、プレーヤー2がこの元返し戦略を選択した場合の、期待利得はこうなる。

$$ \frac{1}{2} -1 \times \left( 1- \frac{1}{2} \right) =0 $$

 もうおわかりだろう。相手が「ギリギリ」戦略をとった場合の結果は、自分が高い倍率を選ぶほどよくなり、相手が「無リスク」戦略をとった場合の結果は、自分が高い倍率を選ぶほど悪くなる。この両者が交わる点に最適解=マックスミニ解が存在する。

「ライバルに勝て」マックスミニ解図解.JPG

 このニ直線の交点は、都合のよいことに、義務教育で習った二次方程式を使って求められる。

  「ギリギリ戦略」の期待利得の一般式は、

$$ -p1+\left( 1-p1\right) \,p1$$

 「無リスク戦略」の期待利得の一般式は、

$$ p1-\left( 1-p1\right) $$

 したがって両者の交点は、次の方程式によって求められる。

$$ -p1+\left( 1-p1\right) \,p1 = p1-\left( 1-p1\right)$$

 この式を整理するとこうなる。

$$ -{p1}^{2} - 2\,p1 + 1 = 0 $$

 これを解くと、

$$ p1 = \pm\sqrt{2}-1 $$

 つまり、先ほど数値計算と可視化によって求めた、「0.4 よりちょっと大きい数」というのは、実は、ルート 2  = 1.41421756… から 1 を引いた数だったのである。

 これは確率だから、逆数をとって倍率にすると、

2.4142…

という無理数になる。この数は「白銀比」という別称で知られており、おなじみの A4、A5 の紙のサイズなどにも使われている有名な数である。 その数が奇しくも、この「ライバルに勝て」というゲームの最適解であったわけだ。

・勝てない「最適解」

 するどい人は気づいたと思うが、この「最適解」を選んだときの期待利得は、-0.17157… で、実は 0 より低い。だから、「ライバルに勝て」などと言いつつ、実はこれを選んでも勝つことは保証されない。あくまで負けを最小化できるだけだ。

 このへんが、1個の利得行列で表現できる完全情報有限ゼロ和二人ゲームとは違うところで、さらに言えば、この解は「均衡解」ですらない。なぜなら、両プレーヤーがこの「最適解」を選ぶと、期待値は必ずゼロになるので、それよりほんのちょっとだけ倍率を上下にずらすという動機は、常に存在するからである。 

・結論

 この記事は、期待値信仰の相対化から話を始めたが、この「最適解」自体は期待利得が最大になるという意味での「最適解」なので、そういう意味では、期待値基準を全否定しているわけではない。それでも、期待値が同じなら何を選択しても同じ、と安易に考える向きには、教訓になる部分もあるだろう。

 たとえば、スポーツなどは、結果の評価が「得点」と「勝ち負け」の二段階に分かれているものが多い。そのような競技の場合、期待得点を最大化することが、勝率を最大化するとは限らないし、期待得点が同じ戦術であっても、リスクの大小によって結果が変わるかもしれない。そのような場合に、倍率が「白銀比」になる程度のリスクをとる、というのが一つの目安になる可能性はある。

 先にちょっと言ったように、麻雀などもそういう仕組みのゲームだ。ただし、麻雀の場合は、自分が上がったときには相手は上がれないとか、対戦相手がニ人ではなく四人いるとか、いろいろ異なる条件もあるので、この数字が単純に適用できることはなさそうだ。それでも、狙う役は高すぎても安すぎてもよくない、という素朴な実感に対する傍証ぐらいにはなるだろう。

 これは半分冗談だが、人間の幸福度は、絶対的な豊かさで決まるのではなく、他人と比べたときの相対的な豊かさで決まる、というような話がある。私自身は、正直そういう考え方は嫌いだが、世の中にそういう人がいたり、心の中にそういう部分があったりすることを全否定することは難しいだろう。

 もちろん、努力だけで他人に勝てればよいのだが、世の中そう甘くはない部分もある。そんなとき、2.4142… 倍程度のリスクをとるように心がけると、ライバルに負けてミジメな思いをしなくてすむ期待値が最大化される、かもしれない。

 ただし、これはあくまでゼロ和ゲームの分析だから、あなたのライバルもあなたと同じようにあなたに勝ちたいと思っていなければ、この戦略には意味がない、ということを付け加えておく。

・付録

 この記事では、話をわかりやすくするため、勝った場合の利得を 1、負けた場合の利得を -1、引き分けの場合の利得を 0、と具体的に特定して説明した。

 しかし、この利得に一般的な変数を指定しても、同じように解が求められる。最後にその式だけ簡単に付記しておこう。

 以下では、勝った場合の利得を w、負けた場合の利得を l、引き分けの場合の利得を d とする。

  利得行列1の期待利得の一般式:

$$ p1\,w+\left( 1-p1\right) \,p2\,l+\left( 1-p1\right) \,\left( 1-p2\right) \,d $$

 利得行列2の期待利得の一般式:

$$ p2\,l+\left( 1-p2\right) \,p1\,w+\left( 1-p1\right) \,\left( 1-p2\right) \,d $$

 「ギリギリ戦略」の期待利得の一般式:

$$  \left( 1-p1\right) \,p1\,w+l\,p1+d\,{\left( 1-p1\right) }^{2} $$

 「無リスク戦略」の期待利得の一般式:

$$ p1\,w+l\,\left( 1-p1\right) $$

 マックスミニ解を求める方程式:

$$ p1\,w+l\,\left( 1-p1\right) =\left( 1-p1\right) \,p1\,w+l\,p1+d\,{\left( 1-p1\right) }^{2} $$

 方程式の一般解:

$$ p1=-\frac{\sqrt{\left( d-l\right) \,w+{l}^{2}-d\,l}-l+d}{w-d} $$

|

« 「XXL」フック部分アナリーゼ | トップページ | 大統領令「ジョン・スチュワートは番組を辞めてはいけない」 »

数学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/59413853

この記事へのトラックバック一覧です: ライバルに勝つには 2.4142… 倍に賭けろ!:

« 「XXL」フック部分アナリーゼ | トップページ | 大統領令「ジョン・スチュワートは番組を辞めてはいけない」 »