« 阿部寛の郵便配達が完全にデス妻な件 | トップページ | Amazon EC2 インスタンスの CPU 消費が 6 時間おきに 100% になる現象の犯人が Webmin だった件 »

平均値・標準偏差の幾何学的意味

 数量的な概念を幾何学的な図形として視覚的に表現すると、より直感的に理解しやすくなります。このこと自体は、数学史においてはデカルト以来の伝統であり、なんら特別なことではありません。

 でも、平均値や標準偏差を幾何学的な図形として説明している教科書は、あまり見かけません。確率・統計において最も基本的な概念なのにもかかわらず。そこでこの記事では、私の考えた平均値や標準偏差の視覚的・直感的な説明を紹介してみたいと思います。

 これはひょっよすると、頭のいい人にとってはほとんど自明であって、あらためて説明する必要もないことなのかもしれません。でも、私のように鈍い人間にとっては、このような幾何学的な表現が理解を深めるためにおおいに役立ったのです。

 そんなわけで、この記事は私程度の知能の人向けであって、頭のいい人にとっては、「何を当たり前のことを書いてドヤ顔してるんだ」と思われるような記事かもしれないことをお断りしておきます。

 実はこの記事のアイデア自体は何年も前からあったのですが、三次元のグラフを描くのが面倒そうなので記事にするのを躊躇していました。ところが先日、GeoGebra 最新版で三次元を扱えることを知りまして、まだベータ版で不具合もいろいろありますが、この記事に必要なグラフを描くには十分使えそうだということがわかりました。それが今回この記事を書いた理由です。


 平均値や標準偏差を計算する統計データというのは、複数の数の集まりです。したがって、空間の点やベクトルとして表すことができます。2 個のデータなら二次元の点、3 個のデータなら三次元の点という風に。

 4 個以上になると、四次元、五次元…となって、日常的に生活している空間とは異なるものになり、直感的に把握することは難しくなります。でも、理屈としては三次元とそう変わりません。

 実は、このような考え方自体は、私の独創でもなんでもなく、多変量解析の本で相関係数や最小二乗法を説明する際にもよく出てきます。ここではその考え方を、平均値や標準偏差自体に応用してみようというわけです。

 ここでは、三次元の点として表現できるように、{ 5, 3, 2 } の 3 個のデータを例にとります。そしてこれを ( 5, 3, 2 ) という点としてグラフにプロットしてみましょう。 

平均値・標準偏差の幾何学的意味 - 3.jpg

 ちなみに、この図では一般的な慣例とは異なり、y 軸が画面奥の方を向いています。これは実は、数学者の故・森毅先生が提唱した方法で、先生曰く「この方が見やすい」と。確かにそうだなと思って、マネさせていただきました。視点の位置が外野席からバックネット裏に移動しただけで、野球そのものには違いはないのでご安心ください。

 さて、このデータの平均値を、グラフ上で簡単に作図する方法があるのです。そのためにはまず、U = ( 1, 1, 1 ) という点をグラフにプロットします。

 平均値・標準偏差の幾何学的意味 - 4.jpg

 この点は、実は ( 2, 2, 2 ) でも ( 3, 3, 3) でも ( 100, 100, 100 ) でもいいのですが、ここではもっとも単純な ( 1, 1, 1 ) にしておきます。

 次に、この点 U と原点 O を通る直線を引きます。

平均値・標準偏差の幾何学的意味 - 5.jpg

 そして、データの点からこの直線に垂直に交わる線(垂線)を引きます。すると…、

平均値・標準偏差の幾何学的意味 - 6.jpg

 なんと、その交点の座標がすべて平均値になっています。5 + 3 + 2 = 10 ですから、平均値 10 ÷ 3 = 3.33… ということで、ちゃんと平均値になってますね。

 さらに、この二点の間の距離を測ると、これがちょうど標準偏差のルート 3 倍になっているのです。つまり、こういうことです。

(追記: 標準偏差の係数ルート 3 をかけるのを忘れてたので修正しました。すいません)

 平均値・標準偏差の幾何学的意味 - 7.jpg

 標準偏差の係数がルート 3 になるのは、データの数が 3 個(三次元)だからで、一般には、データの数(=次元数)の平方根が標準偏差の係数になります。

 この関係は、データの位置がグラフ上のどこにあっても変わりません。こういうとき、GeoGebra がリリース版になっていれば、アプレットを使って点の位置を移動しながらインタラクティブに結果を表示することができるのですが、残念ながら現在のベータ版にはまだその機能がありません。ですから、こんな動画で我慢してください。

 ちなみにこの事実は、内積などを利用すればいとも簡単に証明できますので、興味のある方は試してみてください。

 さて、平均値や標準偏差をこのように表現すると何が嬉しいかというと、先にも述べたような、多変量解析の幾何学的な解釈と相性がよいことです。

 たとえば、相関係数の計算や最小二乗法を行うときに、データから平均値を引いたりしますが、平均値をこのように幾何学的に解釈すれば、その理由を整合的に理解することができるのです。

 相関係数や最小二乗法までさかのぼって説明するのは大変なので、以下に図だけ示しておきます。

相関係数・最小二乗法の幾何学的意味.jpg

 ごちゃごちゃして見にくい図ですが、相関係数や最小二乗法の幾何学的な意味をご存知の方なら、よく見れば意味することはわかっていただけると思います。

|

« 阿部寛の郵便配達が完全にデス妻な件 | トップページ | Amazon EC2 インスタンスの CPU 消費が 6 時間おきに 100% になる現象の犯人が Webmin だった件 »

数学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/67762/58407014

この記事へのトラックバック一覧です: 平均値・標準偏差の幾何学的意味:

« 阿部寛の郵便配達が完全にデス妻な件 | トップページ | Amazon EC2 インスタンスの CPU 消費が 6 時間おきに 100% になる現象の犯人が Webmin だった件 »