[fpr 2525] 変数が観測数より多い場合のPCA,FA

Shigekazu Ishihara

fprの皆さん,今年もよろしくおねがいします.

質問ですが,
何年も前のことですが,堀先生が(おっと,先生は禁止でした)
堀さんが,主成分分析と因子分析における
サンプル数(観測数,ふつうは行数)と
変数の数(ふつうは列数)との関係について書いておられました.

いま,疑問におもっているのは,
サンプル数が変数の数より少ないときに,固有値・固有ベクトルを
計算しないソフトがある(代表としてSPSS)のはなぜか?
なぜJMPやMathematicaだと計算できるのか?ということです.

昨日までは,計算精度が何桁かということで,
ヤコビ法のなかでランク落ちにより
逆行列が求められないという昔聞いた話で,ふーんと思っていたのですが,
ちょっと考えると,サンプル数が変数より多かろうが少なかろうが,
相関あるいは共分散行列は,変数の数p×pの大きさであることには
違いはなく,影響があるとすれば,相関行列のなかの要素のパターン
に間接的な影響があるだけですよね.

そう思って,sci.stat.consultを見ると,
PCA with few observations and lots of variables
という,そのものずばりのスレッドがありました.
変数のほうにスペクトルを突っ込む,ケミカル系では
変数の数がサンプル数より多くなるのは
日常的であり,それでいい結果を出している論文も多数あって
(つまり,その点について非難されない)ということはわかりましたが,
肝心のPCAがうまくいく,いかないという論点については
0.9より大きい値が相関行列にあるような
"well determined correlation matrix"ならいいんだ,という
はなはだ実践的なアドバイスのみでした.

サンプル数が変数の数よりも少なくなると,相関行列になにが起こりうるのか,
調べた研究はありますでしょうか.

もちろん,幾何学的に見て,空間の次元数よりもサンプル数が少ないなんて
意味がネーぞという主張は理解できます.ここでは,計算において何が
変わるのかという観点からの疑問です.

以前,堀先生が挙げられていた,サンプル数と変数の数との関連について
シミュレーションした論文では,サンプル数が変数の数を下回るような
極端なケースはあつかっていませんでしたので,この疑問の答えにはなりませんでし
た.
ただ,おおむね2倍を切ると解が不安定になるという結論とシミュレーションの方法
は
大変興味深いものでありました.

石原茂和
広島国際大学 人間環境学部 感性情報学科
724-0695 広島県賀茂郡黒瀬町学園台555-36
tel:0823-70-4890 fax:0823-70-4852
e-mail: i-shige (at) he.hirokoku-u.ac.jp


スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。