[fpr 3759] 不適切な呼称「古典テスト理論」

Yasuharu Okamoto


 岡本@日本女子大学心理学科です。

心理学研究において最もよく用いられている尺度作成の理論は
古典テスト理論(Classical Test Theory: CTT)と呼ばれています。
Spearman (1904)に始まるとされていますので、古典と呼ばれるに
ふさわしいと思われます。これに対して現代テスト理論の1つに
項目反応理論(Item Response Theory: IRT)が挙げられています。
IRTが現代的とされたとき、古典テスト理論という呼び方には違和感を
覚えます。古典テスト理論は現在心理学研究においてもっとも
使われている方法であり、現在も研究されている方法だからです。
以後、このメールでは、誤解を避けるため、古典テスト理論と呼ばずに
項目和テスト理論(Sum of item Scores Theory: SST)と呼ぶことにします。
SSTもIRTも、現在では共通の統計モデル、(階層的)一般化回帰モデル
が用いられ、分析法も同じ類のものが使われています。したがって、
研究における統計学的手法は現時点では違いがないということに
なります。しかし、心理学における実証的研究のツールという
観点からは、以下の違いが挙げられます。

 IRTでは、項目パラメタ値が与えられたテスト項目に対して、
ある個人の能力値は反応パターンからの推定値であり、項目数が
少ないときは能力値の推定が不安定になります。個人の
反応パターンから能力値の推定を行うプログラム例は
http://mcn-www.jwu.ac.jp/~yokamoto/books/pm/estability/
に挙げてありますので、参考にして下さい。
また、点推定値は推定法に依存して異なります。。
 これに対してSSTでは、測定値は、項目和という観測データから
直接一意に与えらえれる数値です。
 心理尺度は、当該の実証研究の目的に応じてその研究内で
開発される(先行研究の結果が確認される)ことが多く、
データ数がIRTによる分析が可能であるほど多くはないのが
普通です。SSTでは、一応安定した因子分析が可能であれば
(因子構造がきれいな場合はサンプル数は少なくてよい;
cf. Thompson,2004, Exploratory and Confirmatory Factor
Analysis, p.24)分析できるので、通常の実証的心理学研究に
おいては、SSTはIRTより現実的分析法であると思います。

 IRTでは、等価など個々の項目の分析ができるという主張が
ありますが、SSTでも同じことができると思います。(SSTで
等価を行ったということは知りませんが、比較文化などの研究を
行うときは必要な手順になります。普通行われている研究における
差異が問題にされている要因では、等価は問題にならないと
思いますが)個々の項目の分析については、どちらも
共通のモデルと分析法、すなわち(階層的)一般化回帰モデルが
用いられているので、一方で可能なことは他方でも可能となります。

 以上の理由により、現在においてもSSTは有用なテスト理論であり、
「古典」というラベリングで排斥されるべきものではないと
思っています。

横浜市在住
岡本安晴




スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。