[fpr 3792] 追試成功確率と検定力

Yasuharu Okamoto


 岡本安晴@日本女子大学心理学科です。

追試の危機が話題になっていますが、
「追試の成功確率」
は、統計学での
「検定力」
に対応していると考えられるので、
検定力の観点から書いてみました。

一般には、検定力は100%ではないので、
追試の失敗を0にすることはできません。
追試の成功を保証するような検定力を確保するための
心理学研究のデザインを考えるとき、十分に高い
検定力を確保することは意外と難しいと思います。

例えば、独立な2条件のサンプリングと
1要因分散分析の場合を見てみますと、
以下のようになります。資料は、
岡本安晴「データ分析のための統計学入門」2009の
表5.1.1(p.138)および表5.2.1(p.142)のものを使いました。

独立な2条件の平均値の比較
データ数:各条件N個。
追試の成功確率、すなわち検定力を
効果量デルタとデータ数Nとの関係で
シミュレーションによって調べたものが表5.1.1に
まとめられています。

効果量デルタが大きいとされる値0.8の場合、
検定力が50%を超えているのは
N=10のときの、検定力=53%です。

検定力50%を基準にしているのは、
「雑誌 The Lancet の editor-in-chief である
R. Horton が、『論文の半分ぐらいは真実でない。』
と書いている(2015)」と
"Statistical Rethinking" R. McElreath ,2016, p. 441
にあるのに合わせたものです。

N=50で検定力は99%になっています。

しかし、効果量が中ほどとされている0.5のとき、
検定力が50%近くなるのは、N=20のときの
検定力46.5%です。N=100で、検定力97%
であるので、ほぼ確実に追試するためにはN=100
以上ぐらいでデータを集める必要があります。
小さい効果量とされている値0.2のときは、
N=200で検定力63.7%、
N=500で検定力93.5%
です。効果量が小さいときは、N=500以上の
データで計画する必要があります。

被験者間1要因3水準の場合について調べたものが
表5.2.1ですが、これによると以下のようになっています。
効果量fが大きい値0.40のとき、水準当たりのデータ数Nが
N=10で検定力44%、N=20で検定力78%となっています。
fが中ほどの0.25のとき、N=20で検定力38%、
N=50で、検定力78%です。
fが小さい値0.10とき、N=200で58.2%です。

検定力という観点から見るとき、学生が授業あるいは卒論で
行うときのデータ収集のサンプル数は、外国の研究での
サンプル数と比べると多くない場合がよく見られますが、
追試に失敗することがあるのは当然のことという感じがします。

横浜市在住
岡本安晴




スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。