[fpr 315] PCA of HALBAU

鈴木督久

鈴木@日経リサーチです.

堀さん wrote:
>>負荷量(loading)というのは軸との相関をいっています。ですから、絶対値が1以内
の
>>はずですが。HALBAU関係者の意見を聞きたいですね。

HALBAU関係者の先生からコメントがないようなので、HALBAUユーザの1人(と
いってもあまり使ってませんが)として感想を述べます.

まずHALBAUの教科書は、柳井他「多変量解析ハンドブック」(現代数学社)だ
と思います.HALBAUのソースコードも掲載してあるので、なにをやっているか
丸見えです.この本の主成分分析の章は柳井氏が書いています.簡潔で無駄の
ない記述なので、読者としては行間を読んでしまいます.

ここで柳井氏は、主成分分析とは、本質的には分散共分散行列から出発すべき
だと指摘していることになります.そして、合成変量(主成分)と元の変数と
の関係を示すのは「構造ベクトル」だと説明し、構造ベクトルの要素として共
分散を採用しています.多変量解析の文脈で「構造」といった場合は、ほとん
ど相関だと思いますが、柳井氏はより一般的に共変動とみなし、特殊な場合
(標準化)に相関になると表明していることになります.

この枠組みに忠実になるなら、HALBAUは「主成分負荷量」と印字せずに、「構
造ベクトル」と印字すべきです.そこで読者は考えます.「なぜ主成分負荷量
と用語したのか?」.第1に、「構造ベクトル」では一般的すぎる.第2に、
主成分分析の出力に因子分析の用語が出てくるのは初心者を混乱させる.第3
に、「因子負荷量」は気に入らない.因子負荷量といってしまえば、共分散で
はなく相関にしなければならない.そこで共分散を観察すべきだというコンセ
プトに固執して、「主成分負荷量」を選んだ.しかし、これが読者の深読みで
あることがすぐに明らかになります.柳井氏は共分散を要素とする構造ベクト
ルを、同じ記号で固有値ベクトルと呼んだ後、相関行列から出発した場合は、
構造ベクトルは「主成分負荷量」と呼ばれる(!)と解説しています.読者の
勝手な思い込みでした・・・.

結局、「主成分負荷量」とは、相関行列を主成分分析した場合は「相関」であ
り、分散共分散行列の場合は「共分散」を出力しているのです.

話はここで終わりません.なぜほかの教科書の出力を違うのでしょうか?.初
心者はいつでもこんなディテイルにつまずきます.統計学者がなんにも意識し
ないところで時間をかけてしまうのです.

HALBAUの主成分得点はいつでも平均0、分散1に基準化されます.これはマニ
ュアルにも明記してあります.分散共分散行列を分析した場合でさえ分散1に
基準化します.初心者は主成分得点の分散は固有値に基準化するものだと勉強
するはずです.相関行列を分析した場合でさえ、分散は固有値に基準化するも
のだと、本屋で売っている多くの本に書いてあります.私は教室で統計学を勉
強したことがないので、違っているかも知れません手に入る本を読んで勉強
した印象ではそうです.

これはHALBAUのかなり独特なところです.別のソフトで主成分と元の変数の共
分散を計算してもHALBAUと一致しないのは、そのためです.HALBAUの主成分負
荷量とは、単純な共分散ではなくて、分散1に基準化した主成分と、元の変数
の共分散を出力しているのです.このために、相関行列を分析しているときに
は迷わない問題に、初心者が出会ってしまうというわけです.

主成分分析は、本質的には分散共分散行列から出発すべきだというコンセプト
は、主成分負荷量に相関でなく、共分散を出力するという形で頂点に達したあ
と、プログラミングが進む過程で、いつしか標準化という「多くの場合の処
理」に紛れてしまったかのようです.そのズレに落とし穴ができて初心者を呼
び込むことになった.初心者はここで学ぶ.「どんな基準化でもいいというこ
となんだな.大きさは比例関係だし、解釈を間違えることもないからな」と.

やや勝手な感想です、私は柳井氏は書かれたものを通してしか知りませんの
で、ひょとしたら違うお考えかも知れませんが.


鈴木督久(日経リサーチ) KGH00763 (at) niftyserve.or.jp

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。