[fpr 3337] データの分散: 不偏分散との区別

岡本安晴


 岡本@日本女子大学です。

 最近、不偏分散が目立ち過ぎると思うので、ちょっと書いてみました。

 SPSSあるいはExcelでは、不偏分散の出力はありますが、
統計量としての分散は出力されないようです。不偏分散は
平均値からの差の2乗和を(データ数ー1)で割ったもので、
母数の推定値として用いられます。統計量としての分散は
データ数で割ったもので、データの散らばり具合の指標の
1つです。したがって、不偏分散は、母集団の想定のもとで
意味をもつ値です。これに対して、統計量としての分散は
データの特徴を表わす指標の1つとしてデータに対して
算出されるものです。

 データ数が少ないときは、不偏分散と統計量としての
分散の違いが顕著になります。
 例えば、データが2個の
  1 と 3
の場合、平均値は
  (1+3)/2=2
であり、2個のデータの平均値からの差はそれぞれ
  1−2=−1  3−2=+1
となります。これらの2乗値はいずれも1ですから平均値は
1となります。すなわち、平均値からの差の2乗でデータ値の
散らばりを表わしたときは、分散はそれらの平均値として
1になります。
 不偏分散は、(データ数ー1)で割るので、上の場合の値は
不偏分散={(−1)の2乗+(+1)の2乗}/(2−1)=2
で、この値はデータのレンジ(最大値ー最小値)「3−1」と同じです。
 データそのものの分布の様子を、平均値を中心とする散らばりとして
表わす値としては、統計量としての分散の値1の方が、不偏分散の値2より
適切です。不偏分散が意味をもつのは、データ、上の場合「1 と 3」から
その母集団の分散を推定するという場合です。しかし、データを集めるとき
常に母集団を想定するとは限りませんし、収集したデータそのものの
特徴を調べたいということもあります。また、母集団によっては分散が
与えられない場合があります。例えば、次の場合です。
 区間[1,無限大)での確率密度関数が
    f(x) = 1/(xの2乗)
で与えられる場合、この平均値は存在しません(無限大になります)。
平均値が存在しないので、平均値からの差も定義されないということになり、
分散が与えられません。
 不偏分散が意味を持つためには、分散の存在する母集団を設定している
ということが前提となります。
 また、不偏分散が推定値として良いといっても、これは期待値が
母数の値に一致するということであり、今データから算出された
不偏分散の値が母数の値に一致することを保証するものではありません。
理論的には、確率100%で一致しません。
 不偏分散の不偏推定量という性格を学生に強調し過ぎると、
不偏分散は「真の値?」を与えるという、ある意味で困った考えを育てることに
なると思います。

 母集団を想定しない統計分析の考え方を学生に教えることも重要であると
考えています。

日本女子大学心理学科
岡本安晴




スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。