[fpr 3489] 標本数

南風原朝和

fprの皆様

南風原です。

サイコロ実験を行うときは,たとえば,サイコロを10回ころがすこ
とと,実際に研究においてデータから母数の推定や検定等をする問題
とがどう対応するか,母集団分布は何で標本統計量は何か,というこ
とを理解してもらう必要がありますね。そのこと自体の難しさと,
あと平均の標本分布の問題は,「平均」という言葉がいろいろなレベ
ルで出てくる難しさがあるように思います。

麓さんご指摘のように「標本分布」という名称自体の問題もあります
が,たとえば,先のメールに書いたような

> 問3:母集団での「賛成」の比率が.5のとき,標本での「賛成」の比率はどうなる?
> 答: いろいろな可能性がある。

といったやりとりから,名称以前に「結果の揺れ」というものの存在
を知ってもらえば,その知っているものに名前を与えるのは,割合,
スムーズにいくのではないかと思います。正しいイメージをもつ前に
「標本分布」という名称から入ると,自分なりのイメージで「標本に
おけるデータ分布」と思ってしまい,それが固定するということにな
りやすいように思います。

など,いろいろ考えて,私は実際の研究場面を想定して,比率や相関
係数の値の揺れの話から入り,標本におけるこれらの指標の値が,

> 答: いろいろな可能性がある。

としても,たとえば比率は0から1までの一様分布ではないはずで,
中心位置はどこになりそうか,広がりの要因はなにか,というような
ことを考えてもらうということをしています。それで,おおまかにで
も,母数を中心にしてNを反映した広がりをもつということを理解し
てもらえたら,それに「比率の標本分布」というような名称を与えま
す。(ここでもし,Nの影響がどうしても納得できない,ということ
になれば,実験やシミュレーションの出番ですね。ここまできたら,
問題が焦点化されており,必要なな概念もできているので,これは有
効だろうと思います。)

さらに,「比率の標本分布」であれば,それが2項分布となることを
導くこともできますので,「○○の標本分布」はそのように数学的手
法によって導かれることをわかってもらう,というふうに進めていま
す。2項分布を導くことが時間的制約などから難しい場合でも,その
一部,たとえば,標本比率が1や0になる確率は簡単に示せますので,
多少ともそういう導出過程を示すことで,「○○の標本分布」を求め
る作業が,「データをとって・・」という話ではなく,数学的・理論
的なことだということ,そして導出のためにはデータの独立性などの
仮定が必要となってくることなどが理解してもらえるのではないかと
考えています。


fumoto (at) cc.hirosaki-u.ac.jp さんからの引用:

> 麓です。
> 
>  ありがとうございました。サンプルによって統計量に変動がない例を出すのはよいアイデアで
すね。
>  私は、平均値の分布に関してはサイコロを使っています。20人ほどの授業だったので、全員に
サイコロを渡して、10名は2回の平均値、10名は10回の平均値を計算させます。そうすると10回の
平均値は2.5から4.5ぐらいに大半が収まるので、Nが大きいと母平均に近い値になることが実感で
きます。でも、最初に平均の期待値が3.5になることを説明するのに10分かかってしまいます。
> 
> 
> 
> haebara (at) p.u-tokyo.ac.jp (南風原朝和)さん:
> > fprの皆様
> > 
> > 南風原です。
> > 
> > 統計量の標本分布(sampling distribution)の説明は私もいろいろ工夫して
> > いますが,以下のような問いかけで進めるのもその1つです。
> > 
> > ■比率について
> > 
> > 問1:母集団での「賛成」の比率が1のとき,標本での「賛成」の比率はどうなる?
> > 答: 1 (母集団で全員「賛成」だから。)
> > 
> > 問2:母集団での「賛成」の比率が0のとき,標本での「賛成」の比率はどうなる?
> > 答: 0
> > 
> > 問3:母集団での「賛成」の比率が.5のとき,標本での「賛成」の比率はどうなる?
> > 答: いろいろな可能性がある。
> > 
> >    → そのいろいろな可能性を,どの値がどれくらい可能か,というかたちで
> >      グラフにしたのが,「比率の標本分布」
> > 
> > 問4:問3で,いちばん可能性の高い値は?
> > 答: .5
> > 
> >   → この場合の比率の標本分布は,.5を中心とした山になりそう。
> > 
> > 問5:この分布の広がり(結果の揺れの大きさ,不確実性の程度)は何によって決まる?
> > 答: サンプルサイズ
> > 
> > ■相関係数について
> > 
> > 問1:母集団での相関が1のとき,標本での相関はどうなる?
> > 答: 1 (母集団での散布図が直線なので,そこからのサンプルも必ず直線)
> > 
> > 問2:母集団での相関が−1のとき,標本での相関はどうなる?
> > 答: −1
> > 
> > 問3:母集団での相関が0のとき,標本での相関はどうなる?
> > 答: いろいろな可能性がある。
> > 
> >    → そのいろいろな可能性を,どの値がどれくらい可能か,というかたちで
> >      グラフにしたのが,「相関係数の標本分布」
> > 
> > 問4:問3で,いちばん可能性の高い値は?
> > 答: 0
> > 
> >   → この場合の相関係数の標本分布は,0を中心とした山になりそう。
> > 
> > 問5:この分布の広がり(結果の揺れの大きさ,不確実性の程度)は何によって決まる?
> > 答: サンプルサイズ
> > 
> > ■説明する際に注意していること
> > 
> > ・「比率の標本分布」,「相関係数の標本分布」のように,必ず「○○の標本分布」
> >  という表現になること,○○には,さまざまな統計量,統計指標が入ることを言う。
> > 
> > ・上記の問いのように,母数(母集団比率,母集団相関など)の値によって,
> >  統計量の標本分布の中心位置が決まってくること,それが統計量の値をもとに
> >  母数の推定をすることの根拠となることを言う。(上記の問いでは,そのために
> >  母数の値を3通りに変化させていますが,たとえば,母比率.99とか母相関.99
> >  とかのケースを加えるのも有効かと思います。)
> > 
> > ・サンプルサイズによって,標本分布の広がり(結果の揺れの大きさ,不確実性の程度)
> >  が異なり,それが大きいサンプルをとることが推奨される根拠となることを言う。
> > 
> > 学生さんの既有知識等,条件によって最適な指導法も異なってくると
> > 思いますが,ほかにも良いアイディアがあれば,私も教えていただき
> > たいです。
> > 
> > 
> > fumoto (at) cc.hirosaki-u.ac.jp さんからの引用:
> > 
> > > 麓です。
> > > 
> > >  ありがとうございました。説明を読んでいると、「標本統計量の理論分布」の略と取
> > れますが、そうすると、平均値だけではなく標準偏差も統計量なので、標準偏差の分布も
> > 含まれます。分散の同一性検定もありますから、統計学上は正しい概念なのだと思います
> > が、そう説明すると学生も混乱するので、標本平均値の理論分布のみを説明して、検定の
> > 説明は「等分散を仮定して・・。」だけを説明しています。
> > >  市川さんの本を使っていますが、ここでは、平均値の理論分布として「標本分布」と
> > いう言葉を使っています。石井さんのような説明をして、「ただしこれからは平均値の分
> > 布を主に取り上げるので標本分布とは断らない限り標本平均値の理論分布を指す」とすれ
> > ばいいように思います。ただし、標本分布が平均値分布を著すように特化して使われるよ
> > うになっているのであれば別ですが。
> > > 
> > > 
> > > 
> > > 
> > > Hidetoki Ishii <z47783a (at) cc.nagoya-u.ac.jp>さん:
> > > > 石井です.
> > > > 
> > > >  私は以下のように説明しています.
> > > > 
> > > > ---
> > > >  標本平均,標本相関係数など,標本から構成される
> > > > ある特性を表す量(関数)を「統計量」という.
> > > > 
> > > >  もし,抽出する標本が異なっていたら,標本平均や
> > > > 標本相関係数などの統計量の値は変わってくる.その
> > > > 様相を表す分布を「標本分布(sampling distribution)」
> > > > という.
> > > > 
> > > >  標本分布は,もし異なる標本が抽出されていたらと
> > > > いう場合を想定したときの,統計量についての理論上,
> > > > 概念上の分布であり,観測値の分布を表す「度数分布」
> > > > とは異なる.
> > > > 
> > > >  sampling distribution の訳としては,「標本抽出
> > > > 分布」や「サンプリング分布」などのほうが意図が正
> > > > 確に伝わるかもしてないが(そう指摘している書籍も
> > > > ある),昔の人が「標本分布」と訳し,それが定着し
> > > > てしまった.
> > > > ---
> > > > 
> > > > 
> > > >  標本抽出を繰り返すと説明すると,サンプルサイズ
> > > > はいつも同じなんですか? という質問が必ず出ます.
> > > > 
> > > >  標本は母集団の一部だから,もし違う部分を取って
> > > > きてたら,という想定のほうが,標本,ひいては統計
> > > > 量,が確率変動することがイメージしやすいのかなと
> > > > 感じています.
> > > > 
> > > >  
> > > > 
> > > > 石井秀宗(Hidetoki Ishii)
> > > > 名古屋大学 大学院教育発達科学研究科
> > > > 
> > > > 
> > > > 
> > > > (2011/06/28 17:36), fumoto (at) cc.hirosaki-u.ac.jp wrote:
> > > > > 弘前大学の麓です。
> > > > > 
> > > > >  標本数は一段落したようですが、もう1つ、日頃おかしいと思っている言葉をみ
> > なさんがどう説明しているかお聞かせください。
> > > > >  私は統計の専門家ではないのですが、誰もいないので教えています。Σのイメー
> > ジがわかない学生相手なので、他課程の専門家に任せるわけにもいかず何とかやっていま
> > すが、「標本分布」を教えるのに苦労しています。普通に言葉を聞くと標本がどう分布し
> > ているかを著す概念のように聞こえますが、「標本収集を無限回繰り返した時の各回の平
> > 均値の分布を条件を設定した理論から導いた理論分布」を短くしたのが正解だと思います
> > が、これで正しいでしょうか。日本語の「標本分布」からはそういうイメージがなかなか
> > 浮かばないと思いますが・・・。
> > > > > 
> > > 
> > > 
> > 
> > ----
> > 南風原朝和  haebara (at) p.u-tokyo.ac.jp
> 
> 

----
南風原朝和  haebara (at) p.u-tokyo.ac.jp


スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。