« 「メジャーリーグの数理科学」の誤訳(第10章) | トップページ | 早過ぎたひと 世紀の伊達男 加藤和彦 »

WPA のシリーズ補正について

セイバーメトリクスには、選手の勝負強さや結果論としての貢献度を評価する指標がある。「メジャーリーグの数理科学」で紹介されている PWA や PGP もそうだし、最近の FanGraphs などでは WPA (Win Probability Added) などと呼ばれている。

 これは打点を精密化した概念と考えればわかりやすい。打点の場合、選手の特定のプレイ前後の得点の変化をその選手の貢献度としてカウントするが、WPA の場合、得点の変化の代わりに、勝率の変化をカウントする。

 勝率の変化なんてどうやって計算するのか、と思う方もいるかもしれない。細かい説明は、それこそ「メジャーリーグの数理科学」でも(できれば英語版で)見て欲しいが、簡単に言うと、イニング別・点差別の勝率のデータと、出塁状況・アウト数別の得点期待値のデータがあるので、これを組み合わせて計算するのだ。この 2 種類の確率は、マルコフ過程のような確率モデルからも計算できるし、経験的な統計データから計算されたものもある。

 「メジャーリーグの数理科学」では、この PGP を使って、記者投票によるワールド・シリーズの MVP が妥当だったかという検証を行っている。

 この件を読んでいたら、ふと閃いた。

 そもそも、なぜ得点の代わりに勝率をカウントするかというと、野球の目的は、得点を最大化することではなく、勝率を最大化することだからだ。でもその論法で言えば、ワールド・シリーズの真の目的は、個々の試合に勝つことではなく、シリーズ全体に勝つことなんだから、PGP (や WPA)をそのままシリーズ MVP の評価に使うのはおかしくはないか。

 そうだそうだ。ふっふっふ、セイバーメトリシャンもまだまだ甘いな。私はそう嘯きながら WPA を短期決戦シリーズ用に補正する方法を計算しかけたのだが、いや待て、世の中そんなに甘くないぞ、と思い直して、"WPA series adjust" などと入力して検索してみた。

 そしたら、案の定ありましたよ。 こんな記事が。

Ranking most valuable World Series HRs

While WPA is a great tool, the overall objective is to win the series as opposed to winning each individual game. We need to look at how much that play increased a team’s chances of winning the series, as opposed to just the game.

To adjust for this second level of leverage, we need to find a way to go from “Game WPA” to “Series WPA," or the change in the probability the team would win the series from before the play to after the play. Series WPA can be expressed as a product of Game WPA and the leverage of the game in the series.

Series WPA = (Leverage of Game in Series)*(Game WPA)

“Leverage of Game in Series” can be defined as the probability the team wins the series if it wins the game in question minus the probability the team wins the series if it loses the game in question.

 この記事がセイバーメトリクス界でどう評価されているかはよく知らないのだが、私は基本的に同意する。 少なくともその方が考え方として首尾一貫しているからだ。

(もちろん、選手の能力は常に一定であり、勝負を左右する場面で打ったのはたまたまの結果論である、という正反対の考え方もできるが、セイバーメトリクスにはそういう考え方(いわば成果主義に対する能力主義)の指標もちゃんとある(RC や LSLR など)ので、これはこれでいいんじゃないかと思う。成果主義と能力主義のどっちが「正しい」かは、また別の問題。)

 というか、本当はシリーズだけではなく、ペナントレースにも同じことが言えるはずなんだよね。ペナントレースの目的は、個々の試合に勝つことよりも、リーグ優勝することだとも言えるわけだから。

 たとえば、昨日の中日・ヤクルト戦で、浅尾が最後に飯原から奪った三振は、開幕戦でネルソンが奪った三振よりも、(成果主義的な発想に立てば)はるかに優勝貢献度は高かったはずだ。

 実は私は、ペナントレースについても同じ方式でリーグ優勝確率の変化を計算しようとしたことがあるのだが、これはかなり難しい。なぜかというと、ペナントレースはリーグ戦なので、直接対決だと自チームの勝率が上がるだけではなく、相手チームの勝率も下がったりするからだ。結局、考えているうちに面倒になって投げ出してしまったのだが、これをちゃんと定式化できれば、セイバーメトリシャンに勝てるかもしれない。誰か挑戦してみないか。


付録: 上で引用した記事には、肝心のレバレッジの計算方法が明記されていないので、私が使った方法を一応書いておく。と言っても別にたいした方法ではなく、ちょっと確率論の素養のある人なら誰でも思いつく方法だが。

 まず、試合の勝率をどの試合も 5 割と仮定する。勝率を事前に推定する方法があれば別に変更してもよいが、日本シリーズは異なるリーグの対戦だから勝率データがないことが多いし、あったとしても 5 割とそう大きく違わない可能性が高いだろう。 (違う勝率で計算したい場合には、以下の式の 1/2 や 0.5 を適宜書きかえればよい。)

 シリーズが 7 試合制で、計算対象のチームが m 勝 n 敗だとすると、その時点でのチームのシリーズ優勝確率は以下の式で計算できる。

難しげに見えるかもしれないが、これは実は初歩的な二項分布の累積分布関数にすぎない。

 この式を使って、あらゆる勝数・負数の組み合わせについて、シリーズ優勝確率を計算するには、スプレッドシートを使う。

 まず、以下のように、行列の見出しに勝数・負数を入力した表を作る。

勝/負 0 1 2 3 4
0          
1          
2          
3          
4          
そして、各セルにこんな式を入力する。
=BINOMDIST(3-B$1,7-($A2+B$1),0.5,TRUE)
これはセル B2 用の式だが、相対参照と絶対参照を使い分けてあるので、他のセルにもこのままコピーできる。ただし、4 敗の列だけはエラーになる。4 敗した場合にシリーズに勝つ確率は 0 なので、数値として 0 を入力しておく。
 計算した結果はこのようになる。
勝/負 0 1 2 3 4
0 0.5 0.344 0.188 0.063 0
1 0.656 0.5 0.313 0.125 0
2 0.813 0.688 0.5 0.25 0
3 0.938 0.875 0.75 0.5 0
4 1 1 1 1  
  数値だけではイメージが涌きにくいので、グラフにしてみよう。負数を固定して、勝数に対するシリーズ勝率の変化をプロットするとこうなる。

シリーズ勝率.JPG

 傾きが大きいところほど勝率の変化が大きく、「レバレッジ」が大きくなる。3 勝 3 敗の後の 1 勝が最も重要度が高いのは常識的な直感と一致する。

 WPA に影響するのは、勝数・負数が増えたときのシリーズ勝率の変化である。勝・負の影響を同時に見るために、ベクトル解析の概念を応用して、グラディエント(勾配)を計算してみよう。そうすれば、各試合がシリーズ勝率に与える影響の大きさを統一的に見ることができる。 (グラディエントを知らない人は、とりあえず微分係数の多次元版だと思えばよい。)

 そのためには、上の表の少し下に、同じような表を作って、各セルに以下の式を入力すればよい。

=SQRT(POWER(C2-B2,2)+POWER(B3-B2,2))

これは 0 勝 0 敗のセル用の式だが、相対参照なので、縦横にコピーするだけで表が完成する。隣のセルとの差をとっているので、計算できるのは 3 勝 3 敗のセルまでである。

実際に計算した結果はこうなる。

勝/負 0 1 2 3
0 0.221 0.221 0.177 0.088
1 0.221 0.265 0.265 0.177
2 0.177 0.265 0.354 0.354
3 0.088 0.177 0.354 0.707
 
数値のままではイメージが涌きにくいので、グラフにしてみよう。今度は勝数・負数とグラディエントの関係をまとめて見れるように、3 次元にプロットしてみる。

シリーズ勝率勾配.JPG 

 各試合の重要度は、勝数・負数の差が少ないほど大きく、なおかつ、勝数・負数が多いほど大きい、という傾向がはっきりわかる。

|

« 「メジャーリーグの数理科学」の誤訳(第10章) | トップページ | 早過ぎたひと 世紀の伊達男 加藤和彦 »

スポーツ」カテゴリの記事

数学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/52981848

この記事へのトラックバック一覧です: WPA のシリーズ補正について:

« 「メジャーリーグの数理科学」の誤訳(第10章) | トップページ | 早過ぎたひと 世紀の伊達男 加藤和彦 »