[fpr 2534] 変数が観測数より多い場合のPCA,FA

Shigekazu Ishihara

堀さん,ありがとうございました.

田中・垂水編『Windows版統計解析ハンドブック 多変量解析』共立出版
持っています.
今回の件について,これを最初に開けばよかった.
ご指摘ありがとうございました.
これを読んで,だいぶすっきりしましたし,私が誤解してはまっていた点も
気がつきました.

まず,誤解してはまっていた点について.
私は,感性工学でのSD法を使った商品評価をネタにやってきました.
PCAをやるときには,Mathematicaで簡単にプログラムを書いて
計算してきました.最近はRを使うことが多いですが.
プログラムにミスがないか,SPSSやStatView, JMPと比較して
確かめていました.
表題のごとく,変数がサンプル数(観測数)よりも多い場合は,
SPSSとStatViewでは計算してくれないが
JMPでは計算してくれる,それはなんでだろうというのが
そもそもの疑問でした.

今朝気がついたのですが,
SPSSとStatViewは“因子分析”をやろうとするわけです.
主因子法でPCAと同じ数字になったとしても.
だから,相関行列の対角要素に共通性(communality)の推定値を入れる.
そのためにSMCを計算するから,特異行列ででけへんとしょっぱなから計算をやめち
ゃうわけですね.
JMPは"主成分分析"であるといっているので
共通性の推定値を入れたりしない.1のまま.
だから,計算する.

相関行列(or共分散行列)がランク落ちする,しないという問題は
固有値・固有ベクトルの計算方法ではなくてSMCの計算のためだ
ということは狩野さんにお教えいただいたのですが,
パッケージによっての違いは,因子分析をするか主成分分析をするか
どちらをうたっているかで,正直に違っていたわけです.
おまえはバカかと石が飛んできそうですが,
普段パッケージソフトを使わないことと,因子分析をやらずにPCAを
主にやっていたので,昔勉強した因子分析のことをすっかり忘れていました.

話しついでに,おまえはなんで因子分析つかわないんだよ,という
声が聞こえてきそうなので,その理由を書きますと,
商品評価に多くの言葉でSD法を使った場合,
まずまったく探索的な意味構造の分析であって,
とくに独自因子と共通因子に分けて考えるべき理由がないからです.
そして,商品によって,意味構造ががらっと変わることが多い.
たとえば腕時計と指輪では,おなじ言葉をつかっても,反応がまったくちがいます.
ボーイッシュな女性用腕時計はあるが(Baby-Gなど)
ボーイッシュな女性用指輪はまずない.
そうすると,言葉のあいだの相関が異なるわけです.
意味構造ももちろん異なる.
(ときどき,Osgoodの3因子説を金科玉条のようにとなえる人がいて
 けんかになります.だいたいアメリカ人ですが.
 Osgood自身も晩年はそんなに主張していませんが.)
したがって,独自因子と共通因子に分けるべきバックボーンが無い.

もちろん,社会的態度とか,知能の場合は独自因子と共通因子を分けて考えるほうが
過去のモデルを吟味したり使用したりするのに都合がよいのは言うまでもありません.

つぎに,すっきりした点です.
田中・垂水 統計解析ハンドブックを読んで,
岸本さんのポストを改めて読んでみての解釈ですが,
独自因子の分散を対角においた行列Dを求めるのに,
SMCをいれる(これは重回帰なのでランク落ちすると,当然ダメ)
のが古典的で,
モデルと実データとの差(最小2乗法)か,その尤度関数(最尤法)を
最小2乗法で最小にするか
(そのとき,SMCじゃなくて初期値になにをつっこんでもいい.
最小2乗法の計算にはニュートン法など強力なものを使えば解ける)
にするのがモダンな方法である.
ということでしょうか.

堀さんの言われた,この本のソフトは無いのでコードを読むことはできないのですが
いずれの方法も,固有値・固有ベクトルの計算そのものは
ヤコビ法とかQR法とかなのかな.

以上,これまでの理解をまとめてみました.
間違いはご指摘おねがいします.

石原茂和
広島国際大学 人間環境学部 感性情報学科
724-0695 広島県賀茂郡黒瀬町学園台555-36
tel:0823-70-4890 fax:0823-70-4852
e-mail: i-shige (at) he.hirokoku-u.ac.jp


スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。