[fpr 3763] 不適切な呼称「古典テスト理論」

Kazuaki SHIMIZU
岡本さん
そして、柴山さん
　　　　清水＠関西大学社会学部です。

この議論を再燃させることは目的としていません。
気になることがあるので、長くなりますが、少々の書きます。

Thurstoneは、因子分析で抽出される因子がartifactsであるとの批判に対して、
回転前の因子解はmathematical artifactsであるが、回転によって
psychological factorsが得られると反論しています。これは1930年代後半頃の
話ですが、その後の議論では、statistical artifactという表現も出てきます。
いまはmethodological artifactとして広く注意を払うべきことがたくさんある
かと考えています。

このMLで南風原さんが指摘した天井効果（床効果）は、ある意味では
methodological artifactを造り出しているのかもしれません。

内的整合性の原理による項目分析を学部の心理学実習で体験したのはいつのこと
だったでしょうか。その際に参照したギルフォード(1959)の『精神測定法』に
「項目の因子分析」と項のタイトルを付けた箇所で「項目の心理学的等質性に関
して疑問がある場合，あるいは項目・全体相関が低い傾向を示す場合には，テス
トをさらに，比較的等質性の大きいサブテストに分けるという手順を踏むことが
必要となる。……途中略……この場合に，もっともよい方法は，通常あまり行わ
れてはいないけれども，項目の因子分析を行うことである。（一部略，pp.545−
546）」とあります。

項目分析の方法として、因子分析とこの内的整合性の原理による項目分析を一緒
くたんにしている、あるいは、極端に因子分析を項目分析の方法としては否定す
る主張が内外の文献で目にすることがあります。

因子分析の黎明期に遡ると、項目と全体の相関から因子負荷量の推定値を得る方
法をRichardson(1936)が提案しています。その後、この方法は、Item-TotalのIT
相関と表記さるようになりました。Guilford(1953)は、TにIが含まれていること
により相関の値が高くなることを指摘して、修正式を提案しています（SPSSでは
「信頼性分析」の中の「項目を削除したときのスケール」＝＞出力では「修正済
み項目合計相関」）。

因子分析法は潜在する因子を推定する方法です。IT相関は、総点（修正ではIを
除いた残り）という観測値が項目分析の対象となります。ギルフォードが「通常
あまり行われてはいないけれども」としているのは、因子分析を手て計算する時
代だったからです。


項目を選び出すという意思決定には、多くの場面で因子分析と項目反応理論は同
じ結論を提供してくれるようになった思います。違う点は、因子分析が線形であ
ることに対して、項目反応理論は非線形であることではないでしょうか。応用場
面の尺度得点の採点は、単純和で、因子得点の推定値は重み付け和です。項目反
応理論が、潜在得点θiの利用を推奨しているのは、単純和が適用できない非線
形だからではないでしょうか。

方法論には、その時代の計算の技術や数理的展開、そして、概念的議論などが、
埋め込まれています。その時代においては、時代の制約の中で、contemporary 
methodsであったわけです。現代の項目分析は、村木さんのfull-information 
item factor analysisへと展開しているのではないでしょうか。


多変量正規分布を解の推定において前提としていた最尤法が分布に偏りがあって
も頑健であるとの報告もあります。Amosに組み込まれている漸近的分布非依存法
は相当の対象者数が必要でした。といっても項目反応理論ほどではなかったかも
しれませんが、MplusのDWLSはそれほど多くなくても使えそうです。

Rの因子分析やSEMなどのパッケージがすばらしい。そして、ここにMplusを加え
れば、psychometricsやeducational measurementそしてpsychological testing
の世界は大きく変わと思います。

例えば、
・因子数の決定　scree <= parallel analysis
・因子軸の回転｛simple sturcture}<={ bifactor strucure} 
                {Varimax,Promax｝<= {Geomin, Bifactor,・・・}
・解の推定　｛主因子法、最尤法｝<= {漸近的分布非依存法（WLS）, 
DWLS,・・・ }
　そして、標準誤差の推定
・SEMの適合度の指標群
・分布　　　｛正規分布｝　<=　｛censored data, ・・・｝
・横断的データ　<=　縦断的データ　LGM、LSTD
などなど。
注：「x <= y 」xにyが加わったという意味です。
これにより、実質的な問題の解明が確実に前進したと確信しています。

方法論のための方法論の追求という時代ではなくなったと思います。問題の追求
に適切な方法を活用できる時代になったのではないでしょうか。たとえば、天井
効果を示す項目を捨てるのではなく、{ y }にある方法の適用が、捨てた結果と
してのartifactではなく、潜在する真の姿に少しでも近似することを可能にする
のではないかと。

昨年は、テスト学会の大会を関西大学で開催しました。その節は大変お世話にな
りました。今年は、パーソナリティ学会の第25回大会が開催されます。関大の同
じ学舎です。

この大会でチュートリアルとして、方法論の適用で気になること、現代の解決方
法について意見の交換などできればと準備中です。
http://conference.wdc-jp.com/jspp/25/plan.html

清水和秋
関西大学社会学部
shimizu (at) kansai-u.ac.jp 


>
>　岡本＠日本女子大学心理学科です。
>
>心理学研究において最もよく用いられている尺度作成の理論は
>古典テスト理論（Classical Test Theory: CTT）と呼ばれています。
>Spearman (1904）に始まるとされていますので、古典と呼ばれるに
>ふさわしいと思われます。これに対して現代テスト理論の１つに
>項目反応理論（Item Response Theory: IRT）が挙げられています。
>IRTが現代的とされたとき、古典テスト理論という呼び方には違和感を
>覚えます。古典テスト理論は現在心理学研究においてもっとも
>使われている方法であり、現在も研究されている方法だからです。
>以後、このメールでは、誤解を避けるため、古典テスト理論と呼ばずに
>項目和テスト理論（Sum of item Scores Theory: SST）と呼ぶことにします。
>SSTもIRTも、現在では共通の統計モデル、（階層的）一般化回帰モデル
>が用いられ、分析法も同じ類のものが使われています。したがって、
>研究における統計学的手法は現時点では違いがないということに
>なります。しかし、心理学における実証的研究のツールという
>観点からは、以下の違いが挙げられます。
>
>　IRTでは、項目パラメタ値が与えられたテスト項目に対して、
>ある個人の能力値は反応パターンからの推定値であり、項目数が
>少ないときは能力値の推定が不安定になります。個人の
>反応パターンから能力値の推定を行うプログラム例は
>http://mcn-www.jwu.ac.jp/~yokamoto/books/pm/estability/
>に挙げてありますので、参考にして下さい。
>また、点推定値は推定法に依存して異なります。。
>　これに対してSSTでは、測定値は、項目和という観測データから
>直接一意に与えらえれる数値です。
>　心理尺度は、当該の実証研究の目的に応じてその研究内で
>開発される（先行研究の結果が確認される）ことが多く、
>データ数がIRTによる分析が可能であるほど多くはないのが
>普通です。SSTでは、一応安定した因子分析が可能であれば
>（因子構造がきれいな場合はサンプル数は少なくてよい；
>cf. Thompson,2004, Exploratory and Confirmatory Factor
>Analysis, p.24）分析できるので、通常の実証的心理学研究に
>おいては、SSTはIRTより現実的分析法であると思います。
>
>　IRTでは、等価など個々の項目の分析ができるという主張が
>ありますが、SSTでも同じことができると思います。（SSTで
>等価を行ったということは知りませんが、比較文化などの研究を
>行うときは必要な手順になります。普通行われている研究における
>差異が問題にされている要因では、等価は問題にならないと
>思いますが）個々の項目の分析については、どちらも
>共通のモデルと分析法、すなわち（階層的）一般化回帰モデルが
>用いられているので、一方で可能なことは他方でも可能となります。
>
>　以上の理由により、現在においてもSSTは有用なテスト理論であり、
>「古典」というラベリングで排斥されるべきものではないと
>思っています。
>
>横浜市在住
>岡本安晴
>
スレッド表示著者別表示日付順表示トップページ
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。