« 野見祐二の「ヘルベチカ・スタンダード」を Sinsy と CeVIO に歌わせてみた | トップページ | 田中の稲尾越え確率を推定してみる »

月間本塁打数の変動がだいたい「偶然」で説明できちゃう件

 プロ野球の選手は、常に同じようなペースでホームランを打つわけではない。同じ選手が、突如として大量のホームランを打ち出したり、逆にまったくホームランを打てなくなったりすることも珍しくない。

 2013 年のシーズンでも、トニ・ブランコ選手が 3~4 月だけで 15 本のホームランを打って注目を集めた。多くの人は、こういう現象を見ると、そこに何か原因があると考える。打撃に開眼したせいだとか、チームを移籍して心機一転したせいだとか、統一球の反発係数が上がっていたせいだとか。

 しかし、ホームランの数が一時的に変動したからと言って、常にそこに何か「原因」があると言えるのだろうか。単なる「偶然」ということはないのだろうか。本稿ではそれを問題にしてみたい。

 なお、本稿で紹介するデータはもともと、私が友人に個人的に見せるために作成したものだが、できてみると自分でも思っていた以上に興味深いデータになっていたので、お裾分けする次第である。

・わからないときは

 実は、本稿と同じような趣旨の記事は、以前にも書いたことがある。「三割打者では三割は打てない」という記事がそれだ。

 この記事で扱ったのは、主に打率と偶然の関係だった。本稿では、打率の代わりに月間本塁打数を対象にしているだけで、アイデアや方法論はこの記事とあまり変わらない。

 だから、本稿ではその分説明を省略させてもらうことにする。説明が少なすぎてよくわからない方は、「三割打者では三割は打てない」を併読することをお勧めする。それでもわからない場合は、後で紹介する参考文献をお読みになるとよいかもしれない。

・偶然による変動をモデル化する

 生身の選手はいろんな要因に影響されるため、何が偶然で何が必然なのかわかりにくい。そこで本稿では、純粋な偶然をモデル化するため、機械のように何があっても常に一定の確率でホームランを打つ打者を想定する。

(数学用語で言うと、本塁打を打つ過程をベルヌーイ過程と見なし、本塁打数の確率分布を二項分布として計算する、ということだが、数学嫌いな人は無視してかまわない。)

 野球記録界ではなぜか、ホームランを打つ確率を「本塁打数/打数」ではなく「打数/本塁打数」で表して、「本塁打率」と呼ぶことが慣例になっている。本稿でもその慣例を踏襲しているので、以下の記述では、本塁打率が大きいほどホームランの確率は小さく、ホームランゼロなら本塁打率∞(無限大)となる。違和感のある人は、頭の中で逆数にして考えるとよいかもしれない。

 この用語法で言い直すと、本稿では、常に本塁打率一定の打者、というものを想定するわけだ。「三割打者では三割は打てない」で説明した通り、毎打席同じ確率でホームランを打ったとしても、ホームラン数の合計は常に同じ数になるわけではなく、一定の範囲で変動する。 このような変動には、何か具体的な要因があるわけではないので、純粋に偶然による変動と言えるだろう。

 たとえば、本塁打率 10 の打者(つまりかなりの長距離打者)が 85 打数(平均的な月間打数)打ち続けたとき、本塁打数の分布は数のようになる。

月間本塁打数分布 - 本塁打率10.JPG

 一見して、本塁打数にはかなりの変動幅があることがわかる。平均は約 8 本だが、13 本以上打つ確率も、4 本以下しか打てない確率も、それぞれ 5% 程度ある。

 繰り返すが、この変動には特に好不調などの要因があるわけではなく、純粋に「偶然」だけによる変動である。

 また同じように、本塁打率 20 の打者(つまり中距離打者)が 85 打数打ち続けた場合、結果は下図のようになる。

月間本塁打数分布 - 本塁打率20.JPG

 平均本塁打数が減っているのは当然として、注目して欲しいのは、変動の幅も狭くなっていることである。

 このように機械的に常に同じ確率でホームランを打つ打者の場合、偶然による変動の幅は、本塁打率と打数によって自動的に決まり、一般に本塁打率が大きくなるほど小さくなる。

(厳密に言うと、本塁打率が 2 より小さい、つまり、本塁打を打つ確率が 0.5 より大きくなると、逆に変動の幅は小さくなっていくのであるが、そんな確率で本塁打を打つ打者は現実には存在しないので、あまり気にする必要はない。)

 この事実は、後で実際のデータを分析する際に重要な鍵となるので、覚えておいて欲しい。

・モデルと現実を比較する

 「偶然」による変動がどのように現れるかを予測する理論モデルができたので、次は、この理論モデルと実際の選手の月単位の記録とを比較してみる。そうすれば、生身の選手がどの程度偶然に左右されているかを推定できるはずである。

 次の節ではいよいよ、その比較結果のグラフを紹介するが、細かいことが気になる人のために、下にグラフの作成方法を簡単に記しておく。早く結果を知りたい人は、読み飛ばして次の節に進んでもかまわない。グラフを見て作成方法に疑問を持った方は、以下をチェックすればたいていの疑問点が解消できるはずである。

  1. 実際の記録の統計処理
    1. 記録は「プロ野球ヌルデータ置き場」から取得する。
      • このサイトを選んだ理由は、他に月単位のプロ野球記録を容易に入手できるサイトが見当たらないからである。
    2. 特定の選手を選ぶ
      • 厳密な基準があるわけではないが、ある程度ホームラン数が多く、なおかつ、ある程度長期的に安定した成績を残している選手を選んだ。
    3. 特定の選手の月単位の打数と本塁打数の記録を、入手できる限り集める。
      • このサイトのデータは 2006~2013 年の範囲に限られているので、利用したデータもその範囲に限られていることに注意。
    4. 月単位の記録のうち、打数 60 未満の記録を一律に除外する。
      • これは主に、試合数の極端に少ない 10 月の記録や、怪我で出場機会の少ない月の記録などを除外するためである。
      • この処理により、極端な不調によりスタメンを外れたときの記録も除外される可能性があり、この処理自体が確率分布に影響を与える可能性があることに注意。
    5. 月間本塁打数別の出現頻度を集計する
      1. サンプル数の少なさが原因と考えられる頻度数のデコボコがあり、隣り合う区間を平均すればより滑らかな分布になると思われる場合には、適宜区間の結合を行う。
      2. 下の例で、本塁打数が「0, 2, 4, 8…」または「1, 3, 5, 7…」ととびとびになっている場合には、この処理が行われている。
  2. 比較対象の理論モデルの計算
    1. 上で抽出した記録から、打数および本塁打数の合計を求める
    2. 打数の合計をレコード数で割って、月平均打数を求める
    3. 打数の合計を本塁打数の合計で割って、月平均本塁打率を求める
    4. 上で計算した月平均打数と月平均本塁打率から、二項分布により本塁打数分布を求める
  3. 1、2のデータを並べてヒストグラムを作成する。

・これが現実だ!

 ではいよいよ、比較結果のグラフを怒涛のように紹介していこう。グラフ中の「理論値」が理論モデルから計算した分布、「実測値」が実際の記録から計算した分布である。

・中村剛也

月間本塁打数分布 - 中村剛也.JPG

・トニ・ブランコ

月間本塁打数分布 - トニ・ブランコ.JPG

・アレックス・カブレラ

月間本塁打数分布 - アレックス・カブレラ.JPG

・阿部慎之助

月間本塁打数分布 - 阿部慎之助.JPG

・小笠原道大

月間本塁打数分布 - 小笠原道大.JPG

・山崎武司

月間本塁打数分布 - 山崎武司.JPG

・アレックス・ラミレス

月間本塁打数分布 - アレックス・ラミレス.JPG

・村田修一

月間本塁打数分布 - 村田修一.JPG

・金本知憲

月間本塁打数分布 - 金本知憲.JPG

・松中信彦

月間本塁打数分布 - 松中信彦.JPG

・和田一浩

月間本塁打数分布 - 和田一浩.JPG

・小久保裕紀

月間本塁打数分布 - 小久保裕紀.JPG

・中村紀洋

月間本塁打数分布 - 中村紀洋.JPG

・新井貴浩

月間本塁打数分布 - 新井貴浩.JPG

・稲葉篤紀

月間本塁打数分布 - 稲葉篤紀.JPG

・中島裕之

月間本塁打数分布 - 中島裕之.JPG

・井口資仁

月間本塁打数分布 - 井口資仁.JPG

・糸井嘉男

月間本塁打数分布 - 糸井嘉男.JPG

・青木宣親

月間本塁打数分布 - 青木宣親.JPG

・内川聖一

月間本塁打数分布 - 内川聖一.JPG

・鳥谷敬

月間本塁打数分布 - 鳥谷敬.JPG

・偶然には一定の幅がある

 さて、グラフをご覧になってどのような感想を持たれただろう。思いのほか理論値と実測値が一致していると感じた方が多いのではないだろうか。正直私自身、実際に計算してみるまで、ここまで一致しているとは思わなかった。

 正規分布の曲線を見慣れた方は、こういうのはだいたいこういう形になるのが普通なんじゃないの? なんて思うかもしれないが、注目して欲しいのは変動の幅なのである。

 先に、この偶然による変動の幅は、打数と本塁打率によって自動的に決まる、と言ったことを思い出して欲しい。月間本塁打数の変動が、もし選手の実力自体の変化によるものであるならば、偶然による変動の幅に律儀に一致するとは限らないはずだ。

 つまり、記録上の変動の幅が偶然による変動の幅とほぼ一致していること自体が、この変動が偶然によるものである蓋然性が高いことを示している。

・本当に好不調だとどうなるか

 では、偶然ではなく本当に選手の実力自体が変動した場合には、どのようなグラフになるのだろうか。上に挙げた選手の記録は、予想以上に理論モデルとの差が小さくて、偶然ではない変動を示すいい実例が見当たらない。

 そこで、コンピュータによるシミュレーションで人工的にそういうデータを作ってみよう。先のモデルのように本塁打率一定ではなく、本塁打率自体が周期的に変動する打者を想定し、その打撃結果をシミュレーションしてみるのだ。

 具体的には、本塁打率を三角関数を使って 5~∞ の間で周期的に変動させ、その本塁打率に基づいて 5000 打数分の擬似乱数を発生させ、月間本塁打数の分布を生成した。それが下図である。

月間本塁打数分布 - 好不調.JPG

 本当の好不調による変動は、偶然による変動の幅には必ずしも収まらないことがわかるだろう。

・独立性の仮定は正しいか

 数理統計学や確率論の素養がある方の中は、この理論モデルが前提にしている試行の「独立性」に疑問を持った方もいるかもしれない。以下はそういう人のための説明である。疑問を持たなかった人は読み飛ばしてもかまわない。

 一般の方には説明しづらい概念なので、あえてはっきり書かなかったが、この理論モデルでは、各打席が独立試行である、つまり、前の打席の結果が後の打席の結果に影響を与えることはないと仮定している。それ自体が非現実的な仮定ではないか、というのはもちろん有力な反論である。

 ところが実は、この理論モデルで予測される変動幅が実際の月間本塁打数の変動幅があまり変わらないということが、現実の打者の各打席もほぼ独立試行と見なせるという傍証にもなっているのだ。 なぜなら、もし独立試行でなければ、偶然による変動の幅も変わってくるからである。

 たとえば、独立試行とは反対に、打つときは必ず固め打ちする打者がいたとしよう。打つときは 10 打数連続で 10 本のホームランを打つが、打てないときは 0 本という極端な選手だ。この固め打ちの確率を 0.1 とすると、平均の本塁打率は 10 になって、先ほどの例と同じになる。この選手が 80 打数続けて打った結果を、先ほどの例と比較すると、下図のようになる。

月間本塁打数分布 - 固打.JPG

 極端な例ではあるが、独立試行でなくなると変動の幅自体が変わる理由が、直感的におわかりいただけるのではないかと思う。

・偶然は「定量的」に把握する必要がある 

 本稿では、実際の選手の月間本塁打数の変動が、かなりの部分「偶然」として説明できることを示した。

 もちろん、だからと言って、このような変動の「すべてが偶然だ」と断言したいわけではない。実際、偶然以外の要因もいろいろ混ざっているだろう。ただ、偶然でも説明できる部分が少なくないと言っているだけである。

 偶然としても説明できるものを、他に理由があると主張するためには、それなりの根拠が必要だ。特に根拠がなければ、多くの場合、偶然で説明できる範囲の現象は偶然と見ておくのが妥当である。

 ある現象が偶然で説明できるかどうかを判断するには、偶然で起こり得る変動の範囲を「定量的」に把握していなければならない。

 多くの人は、このような偶然による変動の幅を「定量的」に把握していない。だから、偶然でも説明できることにいちいち意味を見出そうとしてしまう。

 逆に言えば、偶然を「定量的」に把握できていて、はじめて真に偶然でない現象が判別できるのである。

・統計的検定との関係

 数理統計学の素養のある人ならとっくに気づいているだろうが、実はここでやったことは本質的には「統計的検定」と呼ばれる方法とあまり変わらない。つまり「偶然で説明できる」というフレーズを、「統計的に有意ではない」と言い換えてもそれほど間違ってはいない。

 本稿の内容を厳密に統計的検定の手続きにのっとって書き直すことももちろん可能だ。たとえば、月間本塁打数の分布が二項分布に従うと仮定して、ブランコの 15 本の本塁打が、統計的に有意な変化であるかどうかを検定する、というような問題の立て方をすると、これは二項検定と呼ばれる検定になる(二項分布に従うかどうか自体が疑問な場合には、さらにそれを検定する適合度検定という方法もある)。

 現代では、民間療法や薬に本当に効能があるかとか、放射線に本当に害があるかとか、特定の属性と能力に関係があるかとかを、統計的検定によって判定するのが普通だが、それと同じように、ブランコの本塁打が「偶然」か「実力」かを「検定」することが可能なのだ。

 ただ、本稿では一般の方でも理解できるような直感的なわかりやすさを重視して、あえてそういうスタイルをとらなかった。興味のある方は自分でやってみると面白いかもしれない。

・参考文献

Curve Ball: Baseball, Statistics, and the Role of Chance in the Game  このような話は、別に筆者の独創でもなんでもなく、ちょっと数理統計学や確率論の素養があれば、誰にでも思いつくたぐいの話である。

 現に、セイバー・メトリクスの基本文献の一つである「Curve Ball」には、本稿と同じように、一見すると因果関係があるように見えるものが、実は偶然にすぎないという話が、しつこいほど繰り返し書かれているので、本稿のような話題に興味のある方にはお勧めだ。

 「Curve Ball」には日本語訳(「メジャーリーグの数理科学」)もあるのだが、前にも書いたように、 この翻訳ははっきり言ってド素人の訳で、まったくお勧めできない。英語を苦にしない人だったら原書を直接読むことを断然お勧めする。

 原書は、統計学を知らない人にも理解できるように、きわめて親切に書かれた啓蒙書であって、難解でもなんでもない。ド素人が翻訳したから別の意味で難解になってしまっているだけだ。せっかくわかりやすい良書を書いた著者が可哀想である。

|

« 野見祐二の「ヘルベチカ・スタンダード」を Sinsy と CeVIO に歌わせてみた | トップページ | 田中の稲尾越え確率を推定してみる »

スポーツ」カテゴリの記事

数学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/57809379

この記事へのトラックバック一覧です: 月間本塁打数の変動がだいたい「偶然」で説明できちゃう件:

« 野見祐二の「ヘルベチカ・スタンダード」を Sinsy と CeVIO に歌わせてみた | トップページ | 田中の稲尾越え確率を推定してみる »