[fpr 294] FA of bin data

狩野裕
狩野＠つくば大学です

順序尺度の共分散構造分析に関して最近，次のような文章を書きました．
きっちりとした理論体系がないと思われるので，皆さんのご意見を伺い
たいと思い，ｆｐｒに出すことにしました．LaTex format なので，少々
見にくいところは我慢してください．



\lfeed
\noi\fbox{\Large\bf 5.4 統計的推測の注意点\qquad\qquad {\Huge　}$\bigcirc$}
\lfeed

5.1 節から 5.3 節において，共分散構造分析におけるパラメータ（母数）の推定方法
とモデルの吟味・修正に用いられる諸検定について説明いたしました．ここでは，こ
れらを利用するときの注意点についてまとめておきます．

共分散構造分析の理論体系やソフトウェアは観測変量 $\bfv$ の分布に多変量正規分
布を仮定して構築されてきたのは事実です．だからといって，多変量正規性が崩れた
ときには共分散構造分析が適用できない，ということではありません．

観測変量にはいくつかの種類（観測のレベル）があります．
$$
\m{観測変量の種類}
\l\{\begin{array}{l}\m{連続型} 
    \l\{\begin{array}{l}
        \m{多変量正規分布} \\ 
        \m{非正規連続分布}
        \end{array}\r.
\\
\\
                    \m{離散型}
\l\{\begin{array}{l}
        \m{５件法，７件法など} \\
        \m{２値データ}\\
        \m{名義尺度}
        \end{array}\r.
\end{array}
\r.
$$
\begin{center}表 5.10 観測変量の種類\end{center}

表 5.10 には観測変量の種類がまとめられています．下にいくほど扱いが難しくなり
ます．５件法（７件法）というのは，非常に賛成（５点），賛成（４点），どちらで
もない（３点），反対（２点），非常に反対（１点）というような質問に対する回答
の変数です．２値データとは，yes, no や 買う，買わない，などがあります．以上
は順序尺度とよばれます．名義尺度とは，性別（男・女），血液型（A, B, AB, O）
などです．順序尺度のデータに対して，次の３通りの扱い方があります．
\begin{itemize}\setlength{\itemsep}{-2pt}
\item[(1)] 連続変量とみなす
\item[(2)] 多分相関係数（polychoric correlation coefficient），多分系列相関
係数(polyserial correlation coefficient) を使う\footnote{\foot \small 多分相
関係数と多分系列相関係数の定義やそれらの最尤推定法については Lee-Poon (1987)
 を参照．}
\item[(3)] 多項分布に基づく方法
\end{itemize}

しばしば，順序尺度の観測変量を連続変量とみなして解析してもよいのか，と聞かれ
るのですが，例えば，Bentler-Chu (1987, 88 頁) は次のように述べています．
\begin{quote}
（順序尺度のデータに対して）カテゴリー数が４以上であれば，少し注意して（with 
little worry）連続変量とみなすことができる．カテゴリー数が３以下の場合は別の
方法を使うべきである．
\end{quote}
また，Collins et.al.~(1986) はシミュレーションにより，２値データを連続変量と
みなすことの影響を探索的因子分析を用いて検討し，次のように結論しています．
\begin{quote}
２値データを連続変量とみなすと，因子数の選定は正しくできない可能性が高いが，
因子負荷の推定値はかなり安定している．
\end{quote}

繁桝 (1990) は２値データを連続変量とみなすことには否定的で，その理由として，
(a) 相関係数（$\phi$ 係数）の値は観測変量の平均（通過率）に依存する，(b) 正
反応率を反映した見かけの因子を抽出する，(c) 0,1 の値しかとらない観測変量が，
連続変量である潜在変数の線形結合で表されるというモデル規定に無理がある，をあ
げています．


(2), (3) の方法は，実際は連続変量だけれども，表に現れるもの（観測変量）は順序
尺度になってしまうという状況を扱います．例えば，連続変量のデータが度数分布表
にまとめられているが，元のデータが無く度数分布表しか手元にないという状況を考
えるとよく分かると思います．度数分布表ではクラス（級）の境界値が分かっていま
すが，この順序尺度の場合は境界値も未知です．このような状況の下でも，潜在的な
連続変量として標準正規分布を仮定すれば，度数分布表とクロス集計表から境界値と
相関係数を推定することができます．２つの観測変量が順序尺度の場合を多分相関係
数，一方が連続変量で他方が順序尺度の変量の場合を多分系列相関係数といいます．

(2) の方法は，このようにして相関係数を推定してから，共分散構造 $\Sigma(\thet
a)$ を推定しようとするものです．EQS では例えば $V_4$ と $V_5$ が順序尺度の変
量であれば，/SPECIFICATION に以下の文を指定します．

 CATEGORY=V4,V5; 

 MATRIX=RAW; 

理論的に一番すぐれているのが (3) です．順序尺度のデータは多項分布にしたがうと
考えるのが自然です．しかしながら一般に，反応パターンの数が多く推定が難しいの
が現実です．例えば，観測変量 $V_i$ $(i=1,\cdots,p)$ が $c$ 個のカテゴリーをも
つとすると，反応パターンの総数は $c^p$ となり，$p$ や $c$ の増加に伴い膨大な
数になります．また，多重積分が必要になることも考え合わせると，適用できる状況
は２値データ程度に限られると思われます．推定の方法は，各反応パターンの生起確
率 $p_k$ を未知パラメータ $(\theta,\tau)$ の関数で表し，最尤推定法，もしくは
一般化最小２乗法を適用します．ここで，$\tau$ は境界値を表すベクトルです．

実は，(2) と (3) とは，はっきりと区別できるものでなく，このような考えの下でさ
まざまな推定方式が提案されています．詳しくは，柳井他(1990, 5章)や繁桝(1990)を
参照してください．

先に述べたように(2), (3) の方法は理論的には優れています．しかし，その仮定「実
際は連続変量だけれども，表に現れるもの（観測変量）は順序尺度になってしまう」
が厳しく，ときには非現実的です．また，この仮定を検証する術がありません．

以上まとめますと，順序尺度の共分散構造分析はやはり難しく，ベストといえる推測
方法はありません．現状では，２値データに対しては (2), (3) の方法を適用する，
3 件法や 4 件法はグレイゾーン，5 件法以上だと連続変量とみなしても，そう大きな
損失はないと考えられます．

順序尺度の観測変量を連続変数とみなす場合は，質問項目に工夫を凝らし分布に大き
な偏りが生じないようにする，できるならば，専門家による数値化を行うか，いくつ
かの内的整合性のある項目を用意しそれらの合計でもって１つの観測変量を作成した
いものです.


=================================================================
狩野  裕 （筑波大学数学系）        Phone: 0298-53-4229(DI)
e-mail: kano (at) math.tsukuba.ac.jp     Fax : 0298-53-6501
=================================================================
スレッド表示著者別表示日付順表示トップページ
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。