堀@香川大学経済学部です。
佐伯胖・松原望編『実践としての統計学』東京大学出版会, 2000
2章 データを読む 相関分析,主成分分析,因子分析の意味をさぐる
特にp87-p95
の数値のおかしなところが多くあります。少しならだれでもあるのですが,
ちょっとそういうレベルではなさそうです。
(1)
p91
表2.5 理科の第1主成分
0.647→0.641
これはよくあるタイプの間違いでしょう。
0.64071 が元の数値ですので,なんらかのうつし間違いでしょう。
(2)
p94 表2.6 表2.4から得られる固有値と固有ベクトル
は正しい数値です。どのように求めたかは,
表2.5 に固有値の平方根をかけると表2.6の数値がでてくるので明らかです。
(ただし,(1)の間違いは正しておく)
つまり,主成分負荷量になってます。
さて,表2.6が正しいとき,
(3)共通性はどうなるでしょう。2乗和ですから,
第1因子 第2因子 共通性
算数 0.969 0.242 0.997525
国語 -0.627 0.779 0.99997
理科 0.963 0.264 0.997065
となります。ところが,
p95 8-9行目
>そのような値は「共通性」とよばれている),算数 0.984, 理科 0.999,
>国語 0.997
となってます。おそらく理科と国語は順序が間違ったのでしょう。それにして
もおかしい。それを変えても,算数 0.996(0.984), 国語 1.000(0.999), 理科
0.997(0.997) です。算数はどうしても納得のいかない食い違いがあります。ピ
タゴラスの定理を間違えて受け取ったのか,それはないですね。普通共通性は
出力されるから間違わないですね。お〜と, Stata は出力しない(独自性のほ
うを出力,へんなの)。
(4)角度
p95 5行目にベクトル相互の角度を求めています。
>算数と理科は1.5度,算数と国語は113.5度, 理科と国語は 112度
ベクトルから計算すると,(単位は度)
正しい データ
角度 本 全部 本
算数と理科 1.3 ( 1.5) 6.3 ( 6.3)
算数と国語 114.8 (113.5) 114.7 (115 )
理科と国語 113.5 (112) 113.5 (113.5)
となって,微妙に違うのです。共通性が正しく計算されていないためかもしれ
ませんが,算数と理科以外はもとのデータと同じといっていいものになってい
るのに,本ではずれが生じているかのように間違っています。
相関係数から求めた角度も小数点1位まで求めるならそうすべきものを「算数
と国語」だけそうなっていない(115度)のも通常の数値の表し方から外れたやり
方です。
STATAのpf(principal factor の対角SMC推定で反復なし)で解くと次のようにな
ります。主成分解とは大きく違っています。 といっても,もともとheywood
case であることに注意しておく必要があります。
Factor Loadings
Variable | 1 2 Uniqueness
----------+--------------------------------
sansu | 0.99730 -0.00428 0.00537
kokugo | -0.41765 0.18087 0.79285
rika | 0.99320 0.08036 0.00710
数値の問題は以上です。
p96から「因子構造」ということを言ってますが,通常モデルは「因子パタン」
でしょう。
p105
>基本的には「近似解」を出すものであり,同じ相関行列で,同じ方針で解を
>求めても(たとえば,主因子法,バリマックス解),ちょっとした初期値の
>違いや調整方式の違いで,見かけ上かなり異なる「解」が得られることもあ
>る(筆者は2種類の統計パッケージで同じデータから同じ種類の因子分析を
>施したが,かなり違った解が得られた)。因子分析法というのはそのように,
>きわめて不安定な,あいまいさを含んだ分析方法なのである。
これは因子分析や統計パッケージについてどの程度分かって書いたものかよく
わからないので,見当はずれのコメントになるかもしれませんが,あえていい
ます。
まず,主因子法には大きく分けて,反復しない方法と,反復する方法がありま
す。今の計算機のスピードからして,反復する方法が正しい解を求める方法で
す。反復する方法はきちんと収束すればそのデータに対しては異なる計算機を
つかっても同じになるでしょう。より安全には最小二乗法を使うほうがいいで
しょう。
この章の内容からすると反復推定していないでしょう。そのとき,対角を1を
入れる方法を主因子法といっているパッケージがあるのでしょうか?
おそらくないと思います。通常はSMCを求めると思いますが,これは逆行列を求
めるのですが,逆行列が求められないときは最大の相関係数を対角に入れま
す。
そのようなオプションに不慣れなのに統計パッケージをむやみに使うのは危険
です。当然ながら最低限の知識をもって統計パッケージを使って欲しいもので
す。
つまり,あくまで推定ですが,上に書いたような統計パッケージを使うマナー
を守っていないのではないでしょうか。その推論がでてくるのは因子分析をす
るときに明記すべき事項を明記していません。それでいて結果が違うといって
いる。
SPSSの主因子法の既定値は反復推定です。
数値の間違いについてはインターネットで正誤表をだすなりして,是非修正し
てほしいですね。
ついでに言っておくと,
『複雑さに挑む科学』講談社ブルーバックス
はいい本ですが,数値など細かな点では誤植等が多い(ホントに多いんです
よ)。細かい点については間違い探しの本だと思って読んでみるのもいいで
しょう。でも因子分析などを理解するための必読本です。
----
堀 啓造(香川大学経済学部)e-mail: hori (at) ec.kagawa-u.ac.jp
home page http://www.ec.kagawa-u.ac.jp/~hori/
電話番号 087-832-1894(直通) fax 087-832-1820(事務室)
〒760-8523(これで香川大学経済学部)
香川県高松市幸町2−1 香川大学経済学部
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。