[fpr 3759] 不適切な呼称「古典テスト理論」

Yasuharu Okamoto

　岡本＠日本女子大学心理学科です。

心理学研究において最もよく用いられている尺度作成の理論は
古典テスト理論（Classical Test Theory: CTT）と呼ばれています。
Spearman (1904）に始まるとされていますので、古典と呼ばれるに
ふさわしいと思われます。これに対して現代テスト理論の１つに
項目反応理論（Item Response Theory: IRT）が挙げられています。
IRTが現代的とされたとき、古典テスト理論という呼び方には違和感を
覚えます。古典テスト理論は現在心理学研究においてもっとも
使われている方法であり、現在も研究されている方法だからです。
以後、このメールでは、誤解を避けるため、古典テスト理論と呼ばずに
項目和テスト理論（Sum of item Scores Theory: SST）と呼ぶことにします。
SSTもIRTも、現在では共通の統計モデル、（階層的）一般化回帰モデル
が用いられ、分析法も同じ類のものが使われています。したがって、
研究における統計学的手法は現時点では違いがないということに
なります。しかし、心理学における実証的研究のツールという
観点からは、以下の違いが挙げられます。

　IRTでは、項目パラメタ値が与えられたテスト項目に対して、
ある個人の能力値は反応パターンからの推定値であり、項目数が
少ないときは能力値の推定が不安定になります。個人の
反応パターンから能力値の推定を行うプログラム例は
http://mcn-www.jwu.ac.jp/~yokamoto/books/pm/estability/
に挙げてありますので、参考にして下さい。
また、点推定値は推定法に依存して異なります。。
　これに対してSSTでは、測定値は、項目和という観測データから
直接一意に与えらえれる数値です。
　心理尺度は、当該の実証研究の目的に応じてその研究内で
開発される（先行研究の結果が確認される）ことが多く、
データ数がIRTによる分析が可能であるほど多くはないのが
普通です。SSTでは、一応安定した因子分析が可能であれば
（因子構造がきれいな場合はサンプル数は少なくてよい；
cf. Thompson,2004, Exploratory and Confirmatory Factor
Analysis, p.24）分析できるので、通常の実証的心理学研究に
おいては、SSTはIRTより現実的分析法であると思います。

　IRTでは、等価など個々の項目の分析ができるという主張が
ありますが、SSTでも同じことができると思います。（SSTで
等価を行ったということは知りませんが、比較文化などの研究を
行うときは必要な手順になります。普通行われている研究における
差異が問題にされている要因では、等価は問題にならないと
思いますが）個々の項目の分析については、どちらも
共通のモデルと分析法、すなわち（階層的）一般化回帰モデルが
用いられているので、一方で可能なことは他方でも可能となります。

　以上の理由により、現在においてもSSTは有用なテスト理論であり、
「古典」というラベリングで排斥されるべきものではないと
思っています。

横浜市在住
岡本安晴
スレッド表示著者別表示日付順表示トップページ
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。