田中の稲尾越え確率を推定してみる
東北楽天ゴールデンイーグルスの田中将大投手の連勝記録が話題だ。本稿投稿時点で、シーズン開幕 15 連勝のプロ野球タイ記録。賞賛すべき成績だ。しかし開幕以来と限定しなければ、シーズン連勝のプロ野球記録は、稲尾和久投手の 20 連勝。当然、次の注目はこの記録を抜けるかどうかだ。
そこで本稿では、田中投手が稲尾投手の連勝記録を越える「確率」を推定してみたい。
何のために? いろいろ理由はつけられるが、要はまあ一種のお遊びである。新記録を樹立しようと努力する田中選手や、新記録を期待するファンの気持ちに、水をかける気か? と憤慨する向きもあるかもしれないが、あくまでお遊びなので、寛容な態度で見逃して欲しい。確率論の応用例として、それなりに面白いところもあるだろうと思うので。
・確率モデルを選ぶ
このような確率の予想は、結局はどのような確率モデルを選択するかで決まる。田中投手の連勝確率を推定するために、考えられるもっとも単純なモデルは、田中投手の過去の勝率から未来の勝率を予想するというモデルだろう。今シーズンの田中投手のこれまでの勝率は 10 割だから、今後の勝率も 10 割と予想される。ゆえに稲尾越えの 20 連勝の確率は 100% である。以上終わり。
これだって一種の確率モデルには違いないが、さすがにバカすぎる。もう少しマシなモデルを考えたい。そのために、勝率の元になる要因をもっと細かく分解してみよう。田中投手の勝率は、そのような要因が相互に影響しあった結果であり、現在までの勝率 10 割は、さまざまな可能性の一例にすぎず、他の可能性もあったはずだと考えるのである。
本稿では、要因を試合単位の得失点分布まで分解し、田中投手の失点分布と楽天の得点分布から、田中投手の勝率が決まるというモデルを採用する。このモデルは、実は「野球の短期決戦におけるリスクとリターンのトレードオフ」という記事でも採用したモデルなので、モデル自体の細かい説明はこちらの記事を参照していただきたい。
もちろん、もっと細かくしようと思えば、いくらでも細かいモデルを考えることはできる。たとえば、野球の試合を 24 個の状態を持つマルコフ過程であると考え、その状態間の推移確率をチームの投手記録や打撃記録から推定するとか(これは実は OERA という指標の計算に使われている方法で、例の鳩山元総理大臣の論文でも引用されていたはず)。
しかし、モデルを細かくしても労力に見合った結果が得られるとは限らないので、労力と結果の費用対効果を考えれば、この程度のモデルでもそこそこバランスがよいのではないかと思う。だいたい、そこまでやるほどヒマでもないし。
・田中投手の失点分布
まず、田中投手の失点分布を調べよう。今シーズンの田中投手の各試合の失点数を横軸に、その失点の試合が出現した頻度を縦軸にとってグラフ(ヒストグラム)にすると、下図のようになる。
つまり、今シーズンの田中投手は、失点 0 の試合が 6 試合、失点 1 の試合が 4 試合…だったということである。
(紫色の「正規分布」というグラフは、この失点分布を正規分布で近似したものである。これについては後で説明する。)
ただし、このグラフには一つ注釈が必要だ。「田中投手の失点」と言っても、田中投手は毎試合 9 回まで完投しているわけではない。途中で降板している試合も多い。9 回で失点 1 の試合と、7 回で失点 1 の試合のを同じように扱うのはいろいろと不都合がある。
そこでこのグラフでは、田中投手がどの試合も 9 回まで完投したと想定して、「失点数÷投球回数× 9」という式で失点数を補正している。実際には、降板以降はリリーフ投手が投げることになり、リリーフ投手の防御率は田中投手とは異なるので、この補正方法にも問題はあるが、大雑把な近似としては使えるだろう。
・ 楽天の得点分布
次に、楽天の得点分布を調べよう。先ほどと同じように、今シーズンの楽天の各試合の得点数を横軸に、その得点の試合が出現した頻度を縦軸にとってグラフにすると、下図のようになる。
グラフの見方も先ほどとほぼ同じだ。今シーズンの楽天は、得点 0 の試合が 4 試合、得点 1 の試合が 12 試合…だったということである。
ただし、このグラフにも一つ注意すべきことがある。それはやはりイニング数の問題だ。一試合のイニング数は常に 9 回とは限らない。後攻のチームがリードしていれば、9 回裏はプレイされずに 8 回になるし、延長戦になれば 10 回以上プレイされる。そのようなイニング数の違う試合がこのグラフには混在している。
取得元のデータ形式のせいもあって、このイニング数の違いを簡単に補正する方法は見当たらなかった。厳密ではないが見逃して欲しい。8 回と 9 回のイニング数の差は小さいし、延長戦になる試合もそれほど多くはないので、おそらく、それほど大きな影響にはならないと思う。
・勝率の推定 - 経験値
では、いよいよこの二つのデータから田中投手の勝率を推定してみよう。
先ほど紹介した田中投手の失点分布や楽天の得点分布は、あくまで経験値であった。つまり、各点数が実際に過去このような頻度で発生したという記録にすぎない。しかし、これを元に近い将来の得点分布を予想できると考えるのは自然であろう。
田中投手のこれまでの登板試合数は 18 試合であるから、各失点の頻度数を 18 で割れば、田中投手の登板した試合がその失点になる確率の推定値になる。
同じように、楽天のこれまでの試合数は 90 試合であるから、各得点の頻度数を 90 で割れば、楽天の試合がその得点になる確率の推定値になる。
この得点・失点両方の確率を一つのグラフにまとめたのが下図である。
さて後は、このような得点・失点の分布が「独立」に発生すると仮定すれば、田中投手の勝率を推定するのはそれほど難しくない。
田中投手の勝利になるのは、田中投手の失点が楽天の得点より小さい場合である。したがって、
田中投手の失点 0 点の確率 × 楽天の得点 1 点以上の確率 +
田中投手の失点 1 点の確率 × 楽天の得点 2 点以上の確率 +
田中投手の失点 2 点の確率 × 楽天の得点 3 点以上の確率 +
……
という計算をすればよいのだ。数学的に言えば、「独立する二つの確率分布の差の分布は、両分布の確率密度関数の畳み込み積分によって求められる」という定理の応用である。この定理、数式で見ると怖ろしげに見えるが、やってることはこれだけの話にすぎない。
(ただし、野球の場合、同点で引き分けの試合は、勝ち数にも負け数にもカウントされないので、この分は差し引いておくべきだろう。)
実際にこのようにして計算した、田中投手の勝率の推定値は、0.775 であった。
・勝率の推定 - 正規分布近似
これも一つのモデルであるが、実際の頻度そのものから確率を推定するのはいかにも素朴である。このような得失点の元になる確率分布があって、実際の得失点の頻度はそれが現実化した一例であると考える方が自然だ。
世論調査にたとえて言えば、調査の結果はあくまで調査に協力した一部の人のパーセンテージであって、社会全体のパーセンテージと必ずしも同じではないのでは、と考えてみるのだ。
ここでは、野球の試合の得失点の分布は正規分布であると仮定してみる。「野球の短期決戦におけるリスクとリターンのトレードオフ」でも書いたように、この仮定にはいろいろと問題もあるが、大雑把な近似としては有効だと考える。統計学では、これを正規母集団と呼ぶ。
そうすれば、実際の得失点の経験値をサンプルと見なして、そこから正規母集団の平均値と標準偏差を求め、確率分布を計算することができる。それをグラフにしたものが下図である。
このデータを元にすると、先ほどの経験値の場合とほとんど同じようにして、田中投手の勝率の推定値を計算することができる。
(ただし、正規分布は離散分布ではなく連続分布であるため、ここでは畳み込み積分ではなく、正規分布の線形変換が正規分布になるという定理を使って計算した。)
実際にこのようにして計算した、田中投手の勝率の推定値は、0.807 であった。
つまり、どちらの方法でも、田中投手の将来の勝率の推定値は、約 8 割程度ということになる。
・連勝確率の計算
一試合の勝率が推定できれば、そこから連勝確率を推定するのは容易である。
2 連勝の確率 = 勝率 × 勝率
3 連勝の確率 = 勝率 × 勝率 × 勝率
……
n 連勝の確率 = 勝率の n 乗
という極めて初等的な計算でしかない。勝率を横軸に、連勝確率を縦軸にして、各連勝数の確率をグラフにすると、下図のようになる。
田中投手が稲尾投手の 20 連勝を抜くには、あと 2 連勝する必要があるが、8 割の勝率で 2 連勝できる確率は 6 割程度である。意外と低いと思いませんか? 少なくとも、冒頭で冗談めかして書いた 10 割よりは下がった。
(なんか思いっきり勘違いした記事を一回投稿してしまったが、もしそれを目撃しちゃった人がいたら、見なかったことにしてください。)
・飛びぬけた実力+ほんのちょっぴりの幸運=記録
このグラフを見ると、そもそも、8 割程度の勝率で 15 連勝できる確率自体がかなり低いことがわかる。 結局、連勝確率というのは勝率と「指数関数的」な関係にあるので、ちょっとの勝率の差が、非常に大きな連勝確率の差として現れてしまうのである。
「8 割程度」とか書いてしまったが、もちろんプロ野球界全体を見ても飛びぬけて優秀な勝率で、田中投手が超エースであることは疑いない。それでも、15 連勝を余裕でできる勝率とは言いがたいのだ。これがもし 9 割 5 分ぐらいの勝率であれば、15 連勝の確率も 5 割近くになるのだが。
田中投手やそのファンからすれば心外に響くかもしれないが、上記のような分析からすると、この記録はやはり若干の幸運の産物のように見える。もちろん、それも超エース級の実力があったればこそなのであるが。
実際に田中投手の各試合の記録を調べてみると、6~7 月は 42 イニング連続無失点の記録を作ったぐらいで、どの試合でもほとんど 0~1 点しかとられていないが、3~5 月はそこまで調子がよくなくて、2~3 点とられた試合も結構ある。ここで1回ぐらいは負けていてもおかしくなかった。
記録が途切れそうな危ない試合は何回かあった。特に危なかったのは、4 月 23 日のオリックス vs 楽天、5 月 28 日の阪神 vs 楽天、そしてつい先日 7 月 26 日の楽天 vs ロッテあたり。
4 月 23 日のオリックス vs 楽天では、6 回まで 3 対 2 でリードされていたが、7 回に一挙 5 点をとって逆転、勝ち投手に。5 月 28 日の阪神 vs 楽天では、2 点リードされたまま 6 回で降板したが、7 回に逆転したので勝ち負けつかず。7 月 26 日の楽天 vs ロッテでは、9 回表まで 2 対 1 でリードされていたが、9 回裏に逆転して辛くもサヨナラ勝ち。
上の分析を読んだ人の中には、相手投手が不調だったり打線が好調だったりして、たくさん点数のとれそうな試合では、投手はそれを計算に入れて手を抜くこともあるんだから、失点と得点がまったく無関係に発生するような仮定には無理があるんじゃないの? と思った方もいるだろう。しかし実際には、得点が少ないのに失点が多い試合もあったということがわかる。つまり少なくとも、田中投手が勝敗のすべてを制御できていたわけではなかったのだ。
ちなみに、田中投手の各試合の失点と援護点の関係をグラフにすると、下図のようになる(8/10 追加)。
図中の赤い直線は、回帰直線とよばれる直線で、失点と援護点の間に正比例的な関係があるとすればこうなる、という直線である。その傾きがほぼゼロということは、両者にほとんど関係がないことを示している。R2 というのは決定係数と呼ばれる数値で、1 に近いほど、両者の関係が比例的関係として説明できるということになる。その決定係数がほとんどゼロということは、この両者の関係は正比例ではまったく説明できないということである。
要するに、田中投手の失点と援護点にはほとんど相関関係は見出せず、田中投手が援護点に合わせて失点を調節できているという仮説は疑わしい。しているとしても、それほど大きな範囲ではないだろう。これが両者を「独立」として扱える可能性が高いという一つの傍証になっている。
もっとも、田中投手の調子が尻上がりに上向いていることを考えると、現時点での「勝率」はもう少し高いと考えることもできるだろう。そう考えれば、稲尾越えの確率ももう少し高く見積もってもよいかもしれない。
あと、この方法の根本的な欠陥として、途中降板して責任投手にならずにすんだおかげで、連勝記録がとぎれなくてすむ確率というのを正しく見積もれないこともお断りしておく。
・誤解しないでね
念のために書いておくが、私は田中投手になんの他意もなく、それどころかファンと言ってもよいくらいだ。この記事の真意は、あくまで確率論的な考え方を示すことにある。一ファンとしては、田中投手が新記録を達成することを心から願っている。
そもそも、連勝記録などというものは、投手の実力を正しく表す指標とは言いがたい。実力のない選手にはもちろん作れないが、実力最高の選手が作れるとも限らない。そういう類の記録である。
それで大騒ぎするのは、まあ半分はお祭りみたいなものだ。もちろん、そういうお祭りは野球のまっとうな楽しみ方の一つであり、私もそれを心行くまで楽しもうと思っている。
| 固定リンク
「スポーツ」カテゴリの記事
- 田中の稲尾越え確率を推定してみる - 対戦投手編(2013.08.05)
- 田中の稲尾越え確率を推定してみる(2013.08.04)
- 月間本塁打数の変動がだいたい「偶然」で説明できちゃう件(2013.07.17)
- 統一球大喜利(2013.06.13)
- 吉見と浅尾の WPA を計算してみたい(2011.10.20)
「数学」カテゴリの記事
- コンドルセの陪審定理をGeoGebraで解説してみた(2019.07.02)
- ライバルに勝つには 2.4142… 倍に賭けろ!(2014.04.05)
- 平均値・標準偏差の幾何学的意味(2013.10.18)
- 期待値の説明の大雑把さを補足してみる(2013.09.10)
- 田中の稲尾越え確率を推定してみる - 対戦投手編(2013.08.05)
コメント