fprの皆様 南風原です。統計量の標本分布について説明する際の,私なりのtipsの続きです。 (1) 母集団分布をN=1のサンプルのデータの確率と結びつける たとえば,母集団では「賛成」が60%いるということを,母集団からN=1のサンプルを とったとき,「賛成」である確率が60%であるということに結びつけるということで す。ただし,そのためには,ランダムサンプリングの仮定が必要です。 このように,1個1個のデータがどんな確率でどんな値をとるかがわかれば,大きさN のサンプルで,そのようなデータから算出した比率や平均などの統計量がどんな確率で どんな値をとるかという話(=標本分布)もイメージがしやすくなります。 (2) 比率や平均の標本分布の話は,N=1から始め,N=2へ 上記(1)で,1個1個のデータがどんな確率でどんな値をとるかが(ランダムサンプリ ングの仮定のもとで)わかれば,N=1のときの比率や平均については,もう標本分布が わかったことになります。N=1のときは,その1個のデータそのものが平均だからで す。(1−0データの場合は,1個のデータそのものが「1」の比率。) 次にN=2です。このとき,比率なら 0,.5,1 の3通りの可能性がありますが,母集団 での比率が与えられれば,この3通りの値が得られる確率は簡単に計算できます。この N=2のときの比率の標本分布は,N=1のときにくらべ分散が小さくなっているのは明らか なので,Nが大きいほど比率の揺れは小さくなることが例示できます。(さらに少し時 間をかければ,N=2のときの分散がN=1のときのちょうど1/2になることも示せます。) 平均については,比率のように厳密にはいきませんが,N=1のときよりN=2のときのほう が平均の揺れが小さくなることが実感できればまずは十分かと思います。Nに比例して 分散が小さくなることは比率の話をもとにトップダウンででも良いかもしれません。 (3) t分布やF分布も標本分布という話 標本分布という言葉が出るのが,比率や平均の標本分布のときだけ,というのではな く,t分布やF分布が出てくるときも,これはtやFという統計量の標本分布であり,比 率や平均の標本分布と同様なものだということを話しておくことで, 母集団分布→1個1個のデータの確率モデル→統計量の標本分布→検定・推定 という全体像がとらえやすくなるのではないかと考えています。 (4) 無限回の繰り返しという説明は? 私は,あまり必要ないと思います。以前,ベイズ統計のNovick教授が“In the long run,.. ”と言って少し間をおいて“we are all dead.”と言っていたのを思い出しま すが,無限回の繰り返しという仮想的な話をしなくても,データの確率的変動,および それらのデータから計算される統計量の確率的変動(=標本分布)の説明は十分可能で あると思います。 ---- 南風原朝和 haebara (at) p.u-tokyo.ac.jp
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。