豊田@立教大学です 守さんから個人メールで以下のような質問を受けました.いろいろ考えて返事を FPRに書くことにしました.理由は,少し前に議論になった相関係数の大きさの 解釈に関する小生なりの回答を後半部分に含んでいるからです.もちろんKRに転 載していただいて構いません.少し長いです.夏休みが終わるとこういうメール は書けなくなるのですこし寂しいです. kazmori (at) gipwc.shinshu-u.ac.jp (守 一雄) さんは書きました: >豊田さん:守です。 中略 >『KR』の三木・桜井論文へのコメントで「検定力が強すぎる」場合 >の問題点を論じています。このコメントへのお考えもお聞かせいただけると >嬉しく思います。 上記コメントとは以下のものであると思われます. http://zenkoji.shinshu-u.ac.jp/mori/kr/kr0403.html#contents >○三木和子・桜井茂男論文: >小中学校の教師について研究されてきた「教師効力感」を保育場面に拡張し、 >「保育者効力感」尺度を作成し、保育実習の前後でこの「保育者効力感」が増 >すかどうかを調べた研究。被験者は保育科女子短大2年生142名。著者らは、 >尺度の有効性も実習後の効力感の増加も認めているが、評者の目からはどちら >も不十分に見える。たとえば、実習後の効力感の増加は確かに5%水準で有意 >になっている。しかし、Cohenの検定力分析をやってみると、142名の被験者に >ついて対応のあるt検定をすれば、検出しようとする差がかなり小さな場合(d=.2) >でも検定力はPower=.38とかなり高い。「実習後の効力感の増加」は当然予測 >されることなのであるから、d=.5かそれ以上を考えるべきで、そうすると検定 >力は.99を越えてしまう。この条件で検定を行えば有意になって当然なのである。 >むしろ、有意水準1%の場合でも検定力が.96もあるにもかかわらず、有意水準 >1%には達しなかったことから逆に考えると、「実習後にも目立った効力感の >変化はない」という結論か「新しく作成された尺度の妥当性は低い」という結 >論の方が正しいと考えるべきである。 まず,結論からいうと,下から3行目「逆に考えると」までの検定力分析に関す る守さんのロジックは完全に正しいです. 最後の結論はどうかというと,いろいろ反論はできます.1例をあげると 帰無仮説は5%という通常利用される水準で充分棄却できている.そのときの対立 仮説の検定力を観察すれば,「十分に差がある」ものの中から対立仮説を 選べる(小生には尺度に対する実感が無いので例は挙げない.でも三木・桜井 氏なら思い付くはずである)ゆえに変化はあったし,妥当性もある です.「有意水準」「効果量」「検定力」の要求水準に関する守さんとの「見解 の相違」を主張すれば,少なくとも議論には負けないということになります.つ い最近,市川伸一さんから,検定力分析に関係した検定力・効果量に関して 市川<d32771 (at) m-unix.cc.u-tokyo.ac.jp> さんは書きました: >しかし、検定のときにも0.05とか0.01が恣意的できもち >悪かったものですが、どれくらいの差をもって大きいとか、小さ >いとするのかというのも、要するに実験間の検定力を比較するた >めの恣意的な基準として便宜的に採用しているということなので >しょうか? というメールをもらいました.まさにことのおりだと思います.検定力分析は データを取った後「にも」,指標をかえていろいろ解釈できます.乱暴な例で すが,「B,W,Hの合計は220だけど,この人はスタイルがいいのか?」と同 じ議論を投稿者と審査者のあいだでしなくてはならないのと似ているというこ とです(ちょっと乱暴過ぎますが本質は同じです). もとの「有意水準」を重視するひと,「効果量」に厳しい見方をする人,「検 定力」こそを重視する人は,それぞれの特徴を強調した例をあげます.これは 「Bの大きさが魅力だ」いやいや「Wの細さを重視する」ちょっとまて... という議論と「見解の相違はうめられない」という意味で同じです.もちろん 端からコンテストにはでられない「B,W,H」の合計もありますが,投稿され るほどのレベルなら,見解の相違の範囲に入ってしまうことのほうが,多いと 思われます.検定力が使われない,使いづらい最大の原因がこれだと思います. ここまで書いてしまったので,もう一歩踏み込んで書きます. 三木・桜井論文に対する小生の評価はどうかというと,全く別の理由で 「効力感に関する尺度構成に失敗している」です.効力感は存在証明のでき ない構成概念です.したがってそこから導かれる因果モデルは現実からの 要請を基準として評価されるべきです.この尺度の信頼性と標準偏差の推定値 は(著者の有利なほうをとると)それぞれ0.85,5.62です. 被験者の95パーセントの信頼区間の片側幅を計算すると ルート(1.00-0.85)*5.62*1.96=4.27 ですから推定尺度値の信頼区間の幅は 4.27*2=8.53 です.いっぽう実習を済ませて帰ってきた学生の平均的な効力感の上昇は 32.32-31.20=1.12 です.これは(ちょっと大袈裟に)たとえるならウィルスの研究をするのに 虫眼鏡しか作れなかったということです.1くらいの差を見るのに,そもそも 推定尺度値の信頼区間が8以上あるのでは,どうしようもない.つまり現実か らの要請(実習前後の効力感の変化を測定するという要請)に対する妥当性 が,精度という観点からこの尺度には無いということです. 最後に「実習後にも目立った効力感の変化があったのか」という問題ですが 差の平均が1.12ということは,(1つの項目ではなくて)15項目の全体の 評定に関して,たった1目盛り(たとえば「やや」から「たいへんに」へ) 分だけ効力感が上昇したということです.「15・項・目・全・体・で」で すから,これは実質的に何んにも変わらなかったと判断すべきでしょう. 続けて受けた場合の,平均的な変化のほうが大きいし,また途中点が5つある 問題15個から構成される試験を受けて,1つだけ途中点が1段階上であった としたとき,常識的にも,このような結果から,学力が十分に(高くなった) 向上したとはいわないでしょう. -- ---------------------------------------------------------------------- TOYODA Hideki Ph.D., Associate Professor, Department of Sociology TEL +81-3-39852323 FAX +81-3-3985-2833, Rikkyo(St.Paul's)University toyoda (at) rikkyo.ac.jp 3-34-1 Nishi-Ikebukuro Toshima-ku Tokyo 171 Japan ----------------------------------------------------------------------
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。