« NHK に「マイロンサムカウボーイ」が(^^) | トップページ | imaxima のインストールメモ »

統計学の有名教科書の誤りに気づく

 今は亡き小針あき宏氏の「確率・統計入門」という本は、この分野の教科書の中でも名著として知られている。ぼくもウン十年前の学生時代から愛読しているのだが、最近読み直していて、単なる誤植ではすまない、わりと重大な誤りがあることに気がついた。

 誤りを見つけたのは、いわゆる「確率変数の変換」についての記述。確率分布 p(x) を y = f(x) で変換した結果 q(y) は、f(x) の逆関数を x = φ(y) としたとき、

統計学の教科書の誤り-1.jpg

になるという命題(命題 2.6)においてである。これは、正規分布の一次結合が正規分布になるという定理や、χ2乗分布の導出などにも使われる重要な命題なのだが、よく考えるとおかしいのだ。

 この命題には、f(x) の条件として、単調で導関数が連続としか書かれていないのだが、もし f(x) が単調増加でなく単調減少だったら、φ(y) の導関数は常に負である。一方、p(φ(y)) は確率分布の定義上常に正であるから、この式のままだと、q(y) は常に負ということになってしまうのだ。これは明らかに矛盾である。

 この式の本来の意味から考えると、右辺に φ(y) の導関数をかけるのは、変数変換による区間の幅の拡大・縮小を補正するためなので、重要なのは絶対値であって符号は無視できるはずである。したがって、この式には、絶対値記号をつけて、

統計学の教科書の誤り-2.jpg

にしなければならないはずである。

 現に、「実用 統計用語事典」の「変数変換」の項目には、ちゃんと絶対値記号のついた式が書かれている。だから、ど素人のぼくの勝手な妄想に過ぎない、ということはないと思う(^^)。

 次のページには、この命題を多価関数に拡張した命題(命題 2.7)が出てくるが、もちろん、この式も、

統計学の教科書の誤り-3.jpg

でなければおかしいということになる。連続な多価関数なら、極値が一つはあるはずだから、単調増加の関数のみから構成されるということはあり得ない。少なくとも一つは単調減少の関数もあるはずだ。したがって、この絶対値の問題は、多価関数ではより重要になってくる。




 なぜかインターネット上には、このことを書いた記事があまり見当たらないのだが、やっと 1 つだけ見つけた(念のため魚拓)。書いたのは Stanislav Sykora という物理学者・物理化学者で、工学博士・学術博士号をお持ちの方らしいので、ぼくの駄文よりは権威があるだろう(^^)。 引用する。

The above analysis can be extended to monotonously decreasing transformations functions f(x) such that -f(x) is a legitimate Borel function (e.g., f(x) = e-x). In such a case, the differentials dx and dz in Eg.(5) are of opposite sign so that, in order to keep the pdf's positive, one needs to replace them by their absolute values. Consequently, Eq.(7) becomes

(摂訳)上の分析は、-f(x) が正しいボレル関数であるような単調減少の変換関数 f(x) (f(x)=e-x など)に拡張できる。その場合、式 (5) の微分 dx と dz は符号が異なるので、確率密度関数を正にするためには、これを絶対値に置き換える必要がある。したがって、式 (7) は、

確率密度関数の変換式.gif

となる。

ね、単調減少なら絶対値をとらなくてはいけないと。ぼくが書いたのとほとんど同じですね(式が割り算になっているのは、逆関数の微分を利用しているだけで、実質的には上の式と同じこと)。

 もっとちゃんと書いた日本語の資料も見つけた。こちらは日本女子大学の今野良彦先生が書いた講義資料の pdf ファイル

 こちらは、逆に累積分布関数を計算してそれを微分するという形をとっているので、論理的に明快になってますね。

これで信じてもらえたかな(^^)?




 もっとも、これだけならまだ誤植で済む話で、ぼくも大人気なく騒いだりはしない(^^)。実は、この後の例題で、正規分布を y = x^2 で変換することにより自由度 1 のχ2乗分布に変換するという話が出てくる。x^2 の逆関数は二価関数だから、当然のことながら負の導関数が出てくるはずなのだが、この本はここで思いっきりゴマカシをしているのである。

 この証明では、まず、

統計学の教科書の誤り-4.jpg

という式を提示し、これに dy = 2xdx という関係を代入することにより q(y) を求めている。これは、標準正規分布の確率密度関数が偶関数であるため、p(x) = p(-x) になっているという関係を利用したもので、一見すると問題なさそうに見えるが、実は、この式にウソがある。

 この式は微分形式で書かれているのでわかり難いのだが、実は、p(x) にかかっている dx と、p(-x) にかかっている dx は同じではない。y = x^2 の逆関数は二価関数だから、実際には、x1 = φ1(y) と x2 = φ2(y) という二つの関数に分かれているはずなのである。したがって、この式は本来なら、

統計学の教科書の誤り-5.jpg

 でなければいけないはずだ。つまり、上の式のように dx 同士足すことなどできないのである。

 実際には、この x1、x2 は、

統計学の教科書の誤り-6.jpg

であり、これを微分すると、

統計学の教科書の誤り-7.jpg

となる(この二つの導関数は、絶対値は同じで符号だけが違うということに注意されたい)。従って、上の式の dy を移項して導関数を作ったときには、

統計学の教科書の誤り-8.jpg

となるはずである。ここに、先に述べた p(x) = p(-x) という関係を代入すると、あら不思議(というか当然なのだが(^^))、

統計学の教科書の誤り-9.jpg

になってしまうのだ(^^)。

 つまり、この例題を、絶対値記号のないこの本の命題 2.7 に忠実に計算すれば、q(y) はゼロにならなくてはおかしいのであって、この本の証明でそうなっていないのは、微分形式の dx1、dx2 を同一視することにより、暗黙のうちに絶対値演算と同じことをして、二つの導関数の符号の違いを打ち消しているからなのである。にもかかわらず、命題 2.7 や 2.6 の式に絶対値記号を入れていないのは、単なる誤植とは言えないかなり重大な問題だと思う。

 この隠蔽操作が意図的なのか意図的でないのかはわからないが、初学者にとっては十分混乱の元になると思う。まあ、他人の間違いをあげつらうのが楽しいという感情がまったくないわけではないが(^^)、そういう初学者が運良く検索でこのページにたどりついてくれれば、少しは役に立つのではないかとも思うので、あえてここに明記しておく。

 ちなみに、薩摩順吉氏の「確率・統計」でも、やっぱり絶対値記号のない式(3.38)が記載されていて、その後に出てくる多価関数の応用例では、微妙に表現は違うが、やっぱりそこのところをゴマカシてある(^^)。

 もっとも、ウチにある小針本は 1991 年 1 月 16 日、薩摩本は1992 年 9 月 5 日発行なので、その後の増刷では訂正されているかもしれないし、そう信じたい(^^)。でも、その時点ですでに、薩摩本は第 8 刷、小針本は第 19 刷なのだから、それまでこんな間違いに誰も気づかないなんて、世の中どうなってるのか、みんな本当にちゃんと読んでるのかと思う。あれ? それを言うならオレもか(^^)。

|

« NHK に「マイロンサムカウボーイ」が(^^) | トップページ | imaxima のインストールメモ »

数学」カテゴリの記事

書籍・雑誌」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/41789979

この記事へのトラックバック一覧です: 統計学の有名教科書の誤りに気づく:

« NHK に「マイロンサムカウボーイ」が(^^) | トップページ | imaxima のインストールメモ »