[fpr 61] hajimemashite

森 敏昭

遅ればせながら入会しました。
ご挨拶代わりに(試しに)「指導と評価」に掲載予定の原稿(1回分)をお送りします
。ご希望があれば、あと2回分の原稿もお送りできます。


┌────────────────────┐
│〔質問○〕 2つの群(各群10名ずつ)を2│
│種類の教授法のいずれか(AまたはB)で指│
│導し,その効果を比較しました。各被験者に│
│は5つの問題が与えられ,各群の正答率は,│
│A=70%(35回答/50回答),B=40%(20│
│回答/50回答)になりました。この比率の差│
│をχ2検定したところ,誤用だと言われまし │
│た。なぜ誤用なのでしょうか。            │
└────────────────────┘

*統計的検定の前提条件
 t検定や分散分析のようなパラメトリック検定法(量的データ用の検定法)では,①
母集団が正規分布かそれに近い分布に従うこと,②各条件の母分散が等質であること,
③標本が母集団から無作為に抽出されていること,という3つの前提条件が満たされて
いる必要があります。このうちの①と②の条件が満たされていない場合には,(a) ウェ
ルチの法などの近似法を用いる,(b) 変数の変換(開平変換,対数変換,逆数変換など
)によって分布の正規化や分散の等質化を図った後にパラメトリック検定法を適用する
,(c) 名義尺度または順序尺度によって測定されたデータとみなし,ノンパラメトリッ
ク検定法(質的データ用の検定法)を適用する,などの対処法が考えられます。 これ
に対し③の前提条件は,パラメトリック検定法とノンパラメトリック検定法に共通する
重要な前提条件であり,しかも,この条件が満たされていないと検定結果を著しく歪め
てしまいます。ところが,実際の統計法の利用においては,この前提条件を無視する誤
用の事例がしばしば見られるようです。おそらく,その原因は「無作為な標本抽出」と
いうことの意味が十分に理解されていないことにあるのではないでしょうか。

*無作為な標本抽出とは
 無作為な標本抽出とは,第一に,標本が母集団から偏りなく抽出されているというこ
とを意味しています。しかし,心理学の研究の場合,社会調査などの場合とは異なって
,厳密な意味での無作為な標本抽出がなされることはほとんどないように思われます。
通常は,身近で協力の得られやすい被験者を対象にするというのが実状ではないでしょ
うか。したがって,常に,標本抽出に偏りがないかどうか,研究結果を一般化する上で
どのような限定条件を設けるべきか,などについて,慎重な吟味がなされるべきでしょ
う。

*無作為抽出と測定値の独立性
 さて,質問○の例が「誤用」であるのは,「無作為な標本抽出」の第二の意味と関係
しています。すなわち,「無作為な標本抽出」とは,第二に,個々の測定値が互いに独
立であることを意味しているのです。ところが,集団実験で,ある被験者の反応が他の
被験者の反応に影響を及ぼすと考えられる場合や,同じ被験者の反応が同一条件下で反
復して測定されるような場合には,個々の測定値は相互に独立であるとは言えません。
質問○の場合にも,被験者には5つの問題が与えられています。つまり,同じ被験者の
反応が反復して5回測定されているのです。したがって,個々の測定値は独立であると
は言えません。おそらく,ある問題に正解した被験者は他の問題にも正解する可能性が
高く,逆にある問題が不正解の被験者は他の問題も不正解である可能性が高い,という
ように,相互に関連があるはずです。このため,被験者ごとに正答数を数えて得点化す
ると,極端な場合には,{A:0,0,0,5,5,5,5,5,5,5;B:0,0
,0,0,0,0,5,5,5,5}のような分布になっているかもしれません。それ
にもかかわらず,個々の測定値は相互に独立だとみなし,両条件ともn=50 の標本と
してχ2検定することは,明
らかな「誤用」なのです。

*質問○の場合の正しい検定法
 質問○のような場合には,個々の被験者ごとに1個の測定値(正答数など)を算出し
,その平均値の差をt検定するのが標準的な検定法と言えます。もし上記の例のような
極端な分布に従っているようであれば,被験者を正解者と不正解者に2分し,正解者率
の差(7/10と4/10)についてχ2検定を行うことも考えられますが,どちらの場合
も「有意差なし」という検定結果になります。ところが,質問者のように n=50 の標本
とみなしてχ2検定を行うと(一般に標本のサイズが大きくなると有意差が出やすくな
る),「有意差あり」という検定結果になってしまいます(p< .01)。このことか
らも,質問者の
行った検定法は検定結果を著しく歪めてしまうことがわかるでしょう。
┌────────────────────┐
│〔質問○〕 あるクラス(男子20名,女子18│
│)で期末試験の成績の平均値を男女別に算出│
│すると,英語(男子:55点 ,女子:65点),│
│数学(男子:70点,女子:65点),国語(男│
│子:60点,女子:75点)になりました。そこ│
│で,性差と教科差を調べるために,2(性)│
│×3(教科)の2要因の分散分析を行いまし│
│た。ところが,この分散分析は誤用だと言わ│
│れました。なぜ誤用なのでしょうか。      │
└────────────────────┘

この質問も,統計法の利用においてしばしばなされる誤用の例と言えます。ではなぜ「
誤用」なのでしょうか。その説明をする前に,心理測定法の原理について簡単に説明し
ておきましょう。

*心理測定法の原理
 一般に心理学の実験(調査)では,研究対象である心理現象を直接的に測定すること
はできません。心理現象は目に見えない現象であり,それを直接的に測る物差し(尺度
)を構成することはできないのです。このため,客観的に観察することのできる何らか
の物理量(正反応数,エラー数,反応時間など)を測定することによって,間接的に心
理量の測定がなされます(物理量の尺度を表面尺度,心理量の尺度を元型尺度と呼ぶ)
。質問○の例の場合であれば,試験の成績が物理量,学力が心理量ということになりま
す。
 
*異なる尺度上の値の比較は無意味!
 さて,質問○の分散分析がなぜ「誤用」なのかを説明します。それは,英語,数学,
国語の成績は,それぞれ,英語の学力,数学の学力,国語の学力という心理量に対応す
る異なる表面尺度上の測定値だと考えるべきだからです。この研究で用いられた分散分
析は,同一尺度上の平均値の差を検定する方法なので,異なる尺度上の平均値の差を検
定することはできません。そのことは,平均身長と平均体重の差を検定するのが無意味
であることを考えてみれば明らかでしょう。
 これと同様に,3教科の成績も異なる尺度上の測定値なので,それらの平均値の差を
検定することは無意味です。なぜなら,仮に3教科とも70点をとった生徒がいたとして
も,その生徒の3教科の学力が同じレベルである(同じ程度に得意である)ということ
を意味する訳ではないからです。同じ70点でも,平均値や標準偏差が異なれば,得点の
意味も異なります。ですから,質問○の試験が標準学力テストで,しかも成績が偏差値
で表されているのでない限り,3教科の平均値の差を検定することは無意味なのです。
 ではなぜ,質問○のような誤用がしばしばなされるのでしょうか。おそらく3教科の
成績は,いずれも100点満点で表示されるので,共通の尺度だと誤解されやすいので
はないでしょうか。しかし,表面尺度が同じだからといって,元型尺度も同じであると
は限りません。三段跳びと砲丸投げの記録は,どちらも長さ(メートル)という共通の
尺度で表されますが,跳躍力と投てき力という異なる元型尺度上の能力を測っているの
です。
 
*こうするのが正しい検定法
 したがって,質問○のようなデータの分析では,教科ごとに別々に性差の検定を行う
べきです(2つの平均値の差の検定なので,分散分析ではなくt検定を用いてもよい)
。
 ところで,教科の試験は通常,複数の問題からなっています。例えば,質問○の数学
の試験には問題が20問あり,1問につき5点ずつの配点がなされていたとしましょう。
その場合,各問題は数学の学力の異なる側面を捉えた下位尺度であるとも考えられます
。だとすれば,各下位尺度ごとに別々に20回のt検定を行うべきなのでしょうか。もち
ろん,それでも間違いではありません。しかしこれは,いかにも煩雑な分析です。
 このような場合,因子分析を行うことが考えられます。因子分析によって20個の下位
尺度間の関係を規定している潜在因子を抽出するのです。数学の試験の場合であれば,
例えば,計算力,関数問題の理解力,図形問題の理解などの因子が抽出されるかもしれ
ません。そうすれば,各因子の因子得点(または尺度値)に関して性差の検定をするこ
とができます。もしかしたら,計算力の性差は有意ではないが,関数問題の理解力と図
形問題の理解力の性差は有意である,などといった検定結果が得られるかもしれません
。この方が,単に70点と65点という総合得点の差を検定する場合よりも,数学の学力に
おける性差の構造をより詳細に分析・記述することができるでしょう。













          

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。