[fpr 1042] 標準偏差についての質問

森敏昭

森@広島大 です。

ご指名のようなので、ROM状態を決め込むわけにはいけませんよね。

標準偏差と平均偏差については、ただ今できつつある本(サイエンス社から出版の予定)
の中で私は次のように説明しておきました。

それから豊田さん、不偏分散の式の説明が不明確ですみません。私は豊田さんのように頭
脳明晰ではないもので、つい例やたとえで曖昧に説明してしまうという悪い性癖があるよ
うです。ただ、(お言葉を返すわけではありませんが)私の経験では、あの説明でも、た
いていの学生は納得してくれるみたいです。この17年間で一度だけ厳密な式の証明を要
求してきた学生がいましたが。おそらく学生のレベルの違いか教師の力量の違いのいずれ
か(おそらく後者?)なのでしょうね。

ところで、明日からは4日間、函館へ出張なのですが、この時期の函館は「半袖」でもよ
いのでしょうか。昨年の8月に集中講義で札幌へ行ったときには広島と有意差のない程度
の蒸し暑さでしたが・・・。


33.散布度の測度としては、平均偏差の方が意味がわかりやすいのですが、なぜ、標準偏
差の方がよく使われるのでしょうか。(森先生)

 例えば{6,7,7,7,8}と{3,5,7、8、12}という2つのデータを比較し
てみましょう。これら2つのデータの平均値は、どちらも7になります。しかし、データ
の分布が異なっているのは明らかです。つまり、前者のデータの場合、平均値から遠く離
れた(偏差の大きい)測定値があまりありません。これに対し後者のデータの場合、平均
値から遠く離れた測定値がかなり混じっています。このような測定値のちらばり方の大き
さが散布度であり、標準偏差も平均偏差も、このデータの散布度を記述する統計的測度な
のです。
標準偏差とは 
 標準偏差を算出する原理は次の通りです。まず、各測定値の平均値からの偏差(Xi−
X)を求めます。すなわち上記の2つのデータの場合、{−1,0,0,0,+1}と{
−4,−2,0,+1,+5}という偏差が得られます。これで、2つのデータの散布度
の違いは明らかでしょう。次に散布度を数値で記述するために、偏差の総和 Σ(Xi−X)
を算出してみましょう。しかし、これではどちらのデータの場合も Σ(Xi−X)=0とな
り、両者の散布度の違いを区別することができません。偏差がプラスになる測定値とマイ
ナスになる測定値が相殺し合って、平均値からの偏差の総和は、常に0になってしまうか
らです。そこで、プラス・マイナスの符号を消すために、偏差の2乗の総和を算出してみ
ましょう。そうすると、2つのデータの偏差の2乗和は、それぞれ Σ(Xi−X)2=2 お
よび Σ(Xi−X)2=46 になります。この偏差の2乗和を用いれば、散布度の測度ができ
そうです。しかし、偏差の2乗和は、散布度の測度としてはまだ不完全です。なぜなら、
測定値の数によって偏差の2乗和の意味が異なるからです(データの数が多くなれば、散
布度が小さくても偏差の2乗和は大きくなる)。したがって、測定値の数に影響されない
ようにするために、測定値の数で割って平均します。すなわち、偏差の2乗和の平均値を
散布度の測度にするのです。この「平均値からの偏差の2乗和の平均」が、散布度の測度
としてしばしば用いられる分散に他なりません。
 しかし、分散と平均値を用いて度数分布の形状を記述しようとすると、次のような問題
が生じます。すなわち、分散には偏差のプラス・マイナスの符号を消すために2乗するの
で、平均値と分散の単位がそろわないという欠点があります。例えば、測定値の単位が長
さ(m)だとすると、平均値の単位は長さ(m)、分散の単位は広さ(m2)になってし
まいます。そこで、分散の正の平方根である標準偏差(SD)を求め、これを散布度の測
度にするのです。データの分布が正規分布であれば、平均値を中心にして上下に1SDの
範囲に全データの約68.3%(2SDの範囲に約95.4%、3SDの範囲に約99.7%)が入り
ます。このような意味で、標準偏差は散布度の測度といえるのです。
平均偏差とは
 ところで、偏差のプラス・マイナスの符号を消すために、絶対値を求めるという方法も
考えられます。つまり、「平均値からの偏差の絶対値の平均」を求め、これを散布度の測
度にするのです。実はこれが平均偏差(MD)と呼ばれる散布度の測度の一種なのです。
この平均偏差は、標準偏差のように2乗して開平するという面倒な処理を行わないので、
散布度の測度としての意味はわかりやすいといえるでしょう。しかし、平均値とセットに
して度数分布の形状を記述するための測度としては、標準偏差の方が平均偏差よりも多く
用いられます。それは、標準偏差の方が数学的処理が便利であるのに加えて、平均値が「
偏差の絶対値の総和」ではなく「偏差の2乗和」を最小にする定数だからです(偏差の絶
対値の総和を最小にする定数は中央値)。

**************************************
     森 敏昭  Toshiaki Mori
 E-mail:tosmori (at) ipc.hiroshima-u.ac.jp
 Tel & Fax: 082-941-1817 
 広島市佐伯区五月が丘1-10ー26
**************************************

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。