南風原@東大教育心理です。 *** JXE誌「検定」特集号論文の紹介(2) *** The Case Against Statistical Significance Testing, Revisited. (by Ronald P. Carver, Journal of Experimental Education, 1993, 61, 287-292.) 検定のもついろいろな問題点のうち,どれを最も重大なものと考え るかは研究者ごとに様々ですが,この論文では,「統計的有意性に 頼って,わずかな差異を過大評価したり誇大広告すること」を特に 問題にしているようです。 まず,統計的有意性検定が現在もっている過度の影響力を弱めるた めの方策として,次の4つを挙げています。 (1)研究報告で「有意」という表現を使うときは,必ず「統計的 に」という言葉を入れること。 (2)統計的有意性を見る前に,データそのものを十分に検討する こと。 (3)統計的に有意であるか否かにかかわらず,「効果の大きさ」 に注意を払うこと。 (4)ジャーナルのエディターの人事にあたっては,統計的有意性 検定に対する見解を表明させること。 それから,統計的有意性検定に代わる手続きとして,単独の研究の 場合は,検定統計量ではなく,その分子と分母を構成する「効果の 大きさ」と「その標準誤差」を報告することを推奨しています。ま た,できれば単独の研究ではなく,追試を研究プログラムの中に組 み込み,それによって研究で得られた効果の大きさの安定性を評価 すべきだとしています。 【短評】 方策の(1)は,「統計的に」と断ることで「有意」という言葉の もつ意味を限定するためですが,人によっては「統計的に」と言わ れるとかえって説得力をもってしまうのではないでしょうか。 方策の(4)は「踏み絵」ということですね。 検定統計量の構成を「効果の大きさ/標準誤差」と見て議論してい ますが,標準誤差という概念は,データの背後に確率過程(無作為 性)を想定したものです。効果の大きさの定義の仕方を少し変えれ ば,検定統計量の構成は「効果の大きさ×標本の大きさ」と表すこ とができます。これは確率過程の想定なしに記述的に解釈できる利 点があります。 「追試」は大切だと思いますが,そのための標本の選び方によって は,効果の大きさの推定値の安定性を過大評価してしまうこともあ りえます。そのことを含め,「標本抽出」についてのやや楽観的な 態度が私には気になります。 また,アブストラクトにある "get articles published without using tests of statistical significance" という表現が,論文の 内容からすると,ちょっと誇大広告的キャッチフレーズかな,とい う感じがしました。 なお,タイトルに "Revisited" とあるのは,Carver 自身が1978年 に Harvard Educational Review (vol.48, 378-399) に書いた同タ イトルの論文があるためです。 -------------------------------------------- 南風原朝和 tomokazu (at) tansei.cc.u-tokyo.ac.jp 〒113 文京区本郷7-3-1 東京大学教育学部 TEL 03-5802-3350 FAX 03-3813-8807 --------------------------------------------
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。