岡本安晴@日本女子大学心理学科です。 追試の危機が話題になっていますが、 「追試の成功確率」 は、統計学での 「検定力」 に対応していると考えられるので、 検定力の観点から書いてみました。 一般には、検定力は100%ではないので、 追試の失敗を0にすることはできません。 追試の成功を保証するような検定力を確保するための 心理学研究のデザインを考えるとき、十分に高い 検定力を確保することは意外と難しいと思います。 例えば、独立な2条件のサンプリングと 1要因分散分析の場合を見てみますと、 以下のようになります。資料は、 岡本安晴「データ分析のための統計学入門」2009の 表5.1.1(p.138)および表5.2.1(p.142)のものを使いました。 独立な2条件の平均値の比較 データ数:各条件N個。 追試の成功確率、すなわち検定力を 効果量デルタとデータ数Nとの関係で シミュレーションによって調べたものが表5.1.1に まとめられています。 効果量デルタが大きいとされる値0.8の場合、 検定力が50%を超えているのは N=10のときの、検定力=53%です。 検定力50%を基準にしているのは、 「雑誌 The Lancet の editor-in-chief である R. Horton が、『論文の半分ぐらいは真実でない。』 と書いている(2015)」と "Statistical Rethinking" R. McElreath ,2016, p. 441 にあるのに合わせたものです。 N=50で検定力は99%になっています。 しかし、効果量が中ほどとされている0.5のとき、 検定力が50%近くなるのは、N=20のときの 検定力46.5%です。N=100で、検定力97% であるので、ほぼ確実に追試するためにはN=100 以上ぐらいでデータを集める必要があります。 小さい効果量とされている値0.2のときは、 N=200で検定力63.7%、 N=500で検定力93.5% です。効果量が小さいときは、N=500以上の データで計画する必要があります。 被験者間1要因3水準の場合について調べたものが 表5.2.1ですが、これによると以下のようになっています。 効果量fが大きい値0.40のとき、水準当たりのデータ数Nが N=10で検定力44%、N=20で検定力78%となっています。 fが中ほどの0.25のとき、N=20で検定力38%、 N=50で、検定力78%です。 fが小さい値0.10とき、N=200で58.2%です。 検定力という観点から見るとき、学生が授業あるいは卒論で 行うときのデータ収集のサンプル数は、外国の研究での サンプル数と比べると多くない場合がよく見られますが、 追試に失敗することがあるのは当然のことという感じがします。 横浜市在住 岡本安晴
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。