成蹊大学工学部の岩崎と申します. 成蹊(せいけい)大学という東京都内の中規模私立大学で統計学の勉強を一人で細々 とやっています.暇なときは論文を書いたりもしています.工学部の所属ですが心理 学関連のデータにも興味があります. ネット上で探し物をしていてたまたま fpr を知りました(噂には聞いていましたが 見たのは初めて).現在訳あってノンパラメトリック法の勉強をしているのですが, その絡みで2002年10月頃の fpr2243 から始まる相関係数の議論を興味深く拝見しま した.で,少し考えたことを投稿します.ちょっと古くなって証文の出し遅れのよう ですがご容赦を.コメントされた方々が回帰と関連付けて議論されていましたのでこ こでもそうします. なお,以下の話の理論的な面は取り敢えず手元にあった Muirhead, R. (1982) Aspects of Multivariate Statistical Theory. New York: Wiley を参考にしました(この本の出版から20年とは感慨が深い).なお,投稿規程に「先 生」ではなく「さん」とするのが原則とありましたので失礼を省みずそうさせていた だきました. fpr2243 の三好さんの投稿では.相関係数に関する統計的推測に関して,「検定では 片方の変数が正規分布であれば片方は何でもいい」のに「区間推定では両方の変数が 正規分布している必要がある」というのは何故か,に加え,「なぜ,日本語で書かれ た教科書や参考書は、2変量正規性を前提にした説明をするのか?」が問われていま した. 以下では,2標本の確率変数を X と Y とし,標本相関係数を r とします.そして, X = x を与えたときの Y の条件付き期待値を h(x) = E[Y | X = x] とします.h(x) が回帰関数ですね.それが直線 h(x) = a + bx となるのが直線回帰の場合です.こ のときは,相関係数 = 0 と回帰係数 b = 0 は同値です.相関係数は X と Y の直線 的な関係を見るための尺度ですからこのように考えるのは自然です. 標本相関係数 r を用いた検定では何を検定しているのかを明確にする必要がありま す.帰無仮説として H0(A) : X と Y は独立 H0(B) : 回帰係数 b = 0 H0(C) : X と Y は無相関 が考えられます.いずれも母相関係数 = 0 です.母集団分布が2変量正規分布のとき はこれらは同値ですが,一般にはそうではありません.H0(A) が最も強い仮説で H0(B),H0(C) の順に弱くなります. H0(B) が成り立つが H0(A) とならない例としては X = x を与えた下での Y の条件 付き分布が,期待値は同じだけれども分散が違うとかさらに一般に分布形が異なるこ とがあります.H0(C) が成り立つが H0(B) とならない例としては回帰関数 h(x) が2 次関数のような曲線になる場合があります. 独立性の仮説 H0(A) の下では,標本相関係数の標本分布が2変量正規分布のときと同 じになるためには,皆さんご指摘のように「片方 (Y) が正規分布であればもう一方 (X) は何でもよい」が成り立ちます(もうちょっと正確に言うと Y は球状分布 (spherical distribution) でいいですね).あくまでも「X と Y の独立性」が重要 で,独立でない H0(B) や H0(C) のときは一般にはこの議論は成立しません.また, 独立性の仮定の下ですから当然 Y の周辺分布と X = x の条件付きでの Y の条件付 き分布とは同じになります. 理論的には上記のようですが,翻って X と Y の独立性を標本相関係数 r で検定し てよいものかという疑問がわきます.r = 0 であっても X と Y が独立でない例はい くらでも作れます.たとえば,9組の (x, y) を (-1, 1), (-1, 2), (-1, 3), (0, -3), (0, -4), (0, -5), (1, 1), (1, 2), (1, 3) とすると,明らかに r = 0 ですが X と Y は独立とは思えません(上記 H0(C) の場 合).実際 x を因子とした一元配置分散分析では p-値 = 0.000455 と高度に有意で す. 実際問題を扱う上では,「標本相関係数で独立性の検定をする」のが目的であるよう な気がします.であるならば H0(A),H0(B) および H0(C) が一致する2変量正規性の 仮定は必要じゃないでしょうか.少なくともそれらの間の違いを明確にすることが教 育の現場では求められるでしょう. 区間推定の場合には2変量正規性の仮定は不可欠です(母相関係数が 0 でない場合を 想定するため).相関係数が 0 でない場合の標本分布は複雑で多変量解析の理論を 勉強する大学院生以外に実際的な意味があるとは思えません(大学院生は勉強すべ し).実用上は Fisher の z 変換 z = 0.5*log{(1 + r)/(1 - r)} を用いた近似的 な推測で十分でしょう.ただし,母集団分布が正規でないときは尖度の分だけの調整 が必要です(狩野さんの守備範囲). という訳で,2変量正規性にはそれなりの意味があると考えます.標本相関係数に基 づく検定で片方が正規でなくてもよいという議論をするのであれば,上記の「独立 性」が必要である旨も付け加え,r で独立性を検定する功罪もいわなければなりませ ん.でないと,相関係数に関する統計的推測では,いつの場合でも片方が正規ならば もう片方は何でもいいんだとか相関係数で独立性が評価できるといった誤解が生じそ うです.初等的な教科書では2変量正規性の仮定をしておくことが無難.そうでない ならば上記のような事情をきっちり説明する必要があるでしょう.本の著者と講義す る先生の力量に依存します. ところで,狩野さん (fpr 2246) と豊田さん (fpr 2258) および堀さん (fpr 2253) の議論を自分なりに補足します. 狩野さんの「偏回帰係数 = 0 や母相関係数 = 0 の検定統計量の分布」云々というの は当然直線回帰のときの話ですね.でないと偏回帰係数 = 0 と相関係数 = 0 は同じ になりませんし,母相関係数 = 0 の下での標本分布は一般的に導出できませんか ら.また,「x を与えた下での y の条件付分布を考えます」というのは母偏回帰係 数が 0 でなくても成り立つ話ですよね.その意味では上記の議論よりも一般的で しょう.ただし母偏回帰係数が 0 でない場合の検定統計量は相関係数とは違います ね. 豊田さんの「X と Y が「両方とも」釣り鐘型のヒストグラムでなくても必ずしも1変 量正規の仮定をバイオレイトしているとは限らない」というのも回帰分析における妥 当性の一般論であって,上記のような「独立」性という特殊な状況下では条件付き分 布と周辺分布は一致しますから Y は釣り鐘型になりますよね.豊田さんのその後の 話「明らかに正規分布していないときは,むしろ外生的観測変数に固定変数を積極的 に導入します」はとっても重要で,ここにデータ解析の醍醐味があると思います. 最後に,堀さん (fpr 2253) の「1967年にEfronが最終的に証明した」はちょっと意 味不明でした.私は Efron, B. (1969) Student's t-test under symmetry conditions. Journal of the American Statistical Association, 64, 1278-1302 は所持していますが,Efron の1967年の論文というのは持っていません.何という論 文なのですか.また,Efronは何を「最終的に」証明したのでしょう.なお,上記の Efron (1969) ではノンパラメトリック法にも関係した結果が得られています.ま た,同じく堀さんの「対応のある場合のtテストの...つまり正規分布である必要 はない。」というのは,対応のある t 検定では差 Z = Y - X の分布が正規分布であ れば元の X と Y の分布は正規分布でなくてもいいという意味なのでしょうか.互い に独立な観測値によるt 検定が妥当である(「本当に」t 分布に従う)ためには母集 団分布は正規分布である必要があります.もちろん t 検定が「近似的に」妥当なた めには正規性の仮定は不必要ですが(私はこの問題に現在興味を持っています). メーリングリストの議論の中で登場した書物を持ち合わせていませんので,もしかし たらそれらには上記のようなことはきっちり書かれているのかも知れません.南風原 さんのご著書は近日買い求めます.今度東大に行ったときサインしてください. -------------------------------------------- 岩崎 学 (IWASAKI, Manabu) 成蹊大学工学部 経営・情報工学科 教授(統計学) 180-8633 東京都武蔵野市吉祥寺北町3-3-1 TEL: 0422-37-3764, FAX: 0422-37-3871 URL: www.is.seikei.ac.jp/~iwasaki/ --------------------------------------------
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。