« 京アニの 2.5D | トップページ | 阿部寛の郵便配達が完全にデス妻な件 »

期待値の説明の大雑把さを補足してみる

 期待値というのは、確率論・統計学の中でももっとも基本的な概念で、定義もきわめて単純。だから、多くの人がなんとなくわかったつもりになっていると思う。

 「つもり」などと勝手に決め付けるようなことを書いたが、もちろん本当に頭のいい人は、教科書に書かれていないことまで自力で補足して正確に理解しているのだろう。しかし、私程度の知能の人間からすると、多くの教科書の説明は大雑把すぎて、どうも釈然としないところが残った。

 結局、自分なりにいろいろ考えたり調べたりして教科書の説明を補足することによって、最終的には納得できたのだが、世の中にはきっと、その部分を理解しないまま理解したつもりになっている人もいると思う。だからここでその私流の補足説明を紹介してみたい。

 もちろん、昨日今日思いついたことではなくて、かなり昔に勉強してた頃に考えたことなのだが、たまたま今日それを思い出したので、いい機会だから書いておく。

 そういうわけで、この記事は私程度の知能の人間向けであって、頭のいい人にとっては、「何をわかりきったこと書いてドヤ顔してるんだか」と感じるような記事かもしれないことをお断りしておく。

(いつも数式の表示に使っている CodeCogs のサーバーが死んでいたので、今回は MathJax を使ってみた。なかなか便利だと思う。)

・期待値の定義は自明か?

 期待値は通常以下のように定義される。

$$\mathrm{E}\left[ \mathrm{g}\left( X\right) \right] =\sum_{x=0}^{\infty }\mathrm{g}\left( x\right) \,\mathrm{p}\left( x\right) $$

$$\mathrm{E}\left[ \mathrm{g}\left( X\right) \right] =\int \mathrm{g}\left( x\right) \,\mathrm{p}\left( x\right) dx$$  

X は確率変数、x はその実現値、p(x) は確率密度関数である。

 この定義自体はわりと自明に見えるので、多くの教科書では、この定義を導入した後、簡単な定理をほとんど説明なしで紹介したりしている。

 たとえば、Wikipedia の「期待値」の項目(2013 年 9 月 10 日取得)では、以下の定理が証明なしで導入されている。

期待値は総和や積分によって定義されるので、総和や積分のもつ性質をすべてもっている。

線形性 E [a X + b Y ] = a E [X ] + b E [Y ]

 実は、初等的な教科書にも、こういう雑な説明の本が少なくない。どこが雑かわかりますか?

・渡される暗黙のパラメータに注目

 E[X] という表記は、一見すると関数に似ているが、厳密には関数ではない。 普通の関数は、値から値を求めるのだが、この式は、括弧の中に指定された数式と確率密度関数全体から一つの値を求める。だからこそ中括弧ではなく角括弧になっているわけで、演算子とか作用素とか呼ばれるものに近い。

 つまり、括弧の中に書かれるのは確率変数を含む数式だけだが、その確率変数の確率密度関数も暗黙のパラメータとして一緒に渡されているのだ。この暗黙のパラメータは、括弧の中の確率変数から自動的に決まるように見えるので、多くの人は別に違和感を感じず見過ごしてしまう。でも、よく考えるとそうでもないのだ。

・多変数の場合は意味が違う

 たとえば、上にも出てきた E[X + Y] という式を考えてみよう。この場合、渡される確率密度関数は何になるか。括弧の中には確率変数 X, Y と二つある。そのどちらか一方の確率密度関数では明らかにおかしい。

 実はこのような場合、渡すべき確率密度関数は、X, Y の同時確率分布の密度関数でなければならないのだ。つまり、ニ変数の場合の正しい期待値の定義はこうなる。

$$ \mathrm{E}\left[ \mathrm{g}\left( X,Y\right) \right] =\sum_{y=0}^{\infty }\sum_{x=0}^{\infty }\mathrm{g}\left( x,y\right) \,\mathrm{p}\left( x,y\right) $$

$$ \mathrm{E}\left[ \mathrm{g}\left( X,Y\right) \right] =\int \int \mathrm{g}\left( x,y\right) \,\mathrm{p}\left( x,y\right) dxdy $$

 つまり、E[X + Y] という式の意味は、そもそも多変数の同時確率分布という概念がなければ定義できないはずなのだ。

 初等的な教科書の中には、まだ一変数だけで多変数の説明をしていないうちにこの式が出てきたりする本が結構あるが、これはちょっとごまかしなのである。

・文脈によって意味が変わる

 では、この事実を前提にして、先の式をもう一度見直してみよう。E[X + Y] = E[X] + E[Y] のうち、左辺の E[X + Y] で暗黙のうちに渡されているのが X, Y の同時確率分布の密度関数であることはわかった。

 では、右辺の E[X], E[Y] についてはどうだろう? 今度は括弧の中にある確率変数は一つしかないから、その変数の確率密度関数でよいと思うかもしれないが、本当にそうだろうか。確認のため、厳密に定義通りに計算してみよう。

$$ \mathrm{E}\left[ X+Y\right] =\int \int \left( x+y\right)\,\mathrm{p}\left( x,y\right)  dxdy $$

$$ =\int \int x\,\mathrm{p}\left( x,y\right) dxdy + \int \int y\,\mathrm{p}\left( x,y\right) dxdy$$

 ここまでは確かに自明だ。だが、この二項は E[X], E[Y] と同一視できるだろうか。先に E[X] と表記したときには、渡される暗黙の確率密度関数は X だけのものだったが、ここでは X, Y の同時確率分布の密度関数になっている。変数は一つだけなのに。

 ここで試しに、この同時確率分布の周辺分布を px(x), py(y) とおいてみよう。つまり、

$$ \mathrm{px}\left( x\right) =\int \mathrm{p}\left( x,y\right) dy $$

$$ \mathrm{py}\left( y\right) =\int \mathrm{p}\left( x,y\right) dx $$

 すると、上の各項は次のように変形できる。

$$ =\int x\,\int \mathrm{p}\left( x,y\right) dydx + \int y\,\int \mathrm{p}\left( x,y\right) dxdy$$

$$ =\int x\,\mathrm{px}\left( x\right) dx+\int y\,\mathrm{py}\left( y\right) dy$$

 こうすれば、各項はそれぞれ一変数になり、一変数の期待値の定義式とあまり変わらなくなった。したがって、これを E[X], E[Y] と書いてもそうおかしくないと言えるだろう。

 だだ、同じ E[] という記号で表記されていても、暗黙のパラメータとして渡されているのは、左辺ではニ変数の同時確率分布の密度関数であり、右辺では各変数の周辺分布の密度関数になっている。つまり、文脈によって意味が微妙に変化している。

・いい加減な用法を正当化する根拠

 このような文脈によって意味が変わるようないい加減な用法が正当化されているのには、もちろん理由がある。それは、それでも別にたいして困らないからだ。

 困らない理由も、上の式の中にある。上の式では、E[X] の暗黙のパラメータとして渡す密度関数を、同時確率分布のものから周辺分布のものに書き換えることができた。つまり、E[X] の暗黙のパラメータは同時確率分布であると考えても、周辺分布であると考えても、答えは結局同じなのである。まさにこの事実が、E[X] の意味が文脈によって変わるような用法を正当化している。

 ただし、それは上のように計算してみて初めてわかることであって、定義のままでわかることではない。しかもその計算の中では、積分の順序交換を可能にするフビニの定理なども使われており、必ずしも初等的に自明とは言いがたい。

 実は、注意深く書かれた良心的な教科書では、この事実をちゃんと指摘している。たとえば、竹村彰通氏の「現代数理統計学」にはこうある。

ところで、厳密にはこの定義が 1 変数の場合の定義と整合的であることをチェックする必要がある。(中略)右辺の E(X) は X の周辺分布に関する期待値である。従ってこの場合は整合的である。より一般に新しい確率変数 Z を Z=g(X, Y) により定義する時、Z の周辺分布に関する E(Z) と E[g(X, Y)] が一致することを確かめる必要がある。このことの厳密な証明には、測度論が必要となる。 (46 ページ)

(この本は、このような初等的な教科書ではごまかされがちなところを逐一ていねいに説明した良書で、個人的には大変お勧めである。)

 ネット上では、たとえばこのページなんかにも詳しい説明がある。

・まとめ

 このように、専門家が経験的に大雑把にルーズに扱っていることには、それなりに理由があることが多いのだが、初学者にとってはつまづきの石ともなりやすい。こういうところをどれだけ親切に説明してもらえるかで、私程度の知性の人間の理解度は大きく変わってくるのだが、そういう親切な教科書は意外と少なかった。それが無知を省みずこんな記事を書いた理由である。

|

« 京アニの 2.5D | トップページ | 阿部寛の郵便配達が完全にデス妻な件 »

数学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/58166867

この記事へのトラックバック一覧です: 期待値の説明の大雑把さを補足してみる:

« 京アニの 2.5D | トップページ | 阿部寛の郵便配達が完全にデス妻な件 »