[fpr 546] Observed Power

堀啓造

堀@香川大学経済学部です。

せっかく議論がはじまったところで、別の話題です。
超亀レスです。
南風原さんの[fpr 118] Observed Power (Thu, 16 Nov 95 )へのコメント。 

SPSSの検定力出力に対する疑問でした。よく理解できなかったので、放っておきまし
た。m(__)m

http://www.interchg.ubc.ca/cacb/power/
にpower of test のソフトのリンク集があります。(私のところでもここにリンクしてい
ます)。
このリンクを作った人が印刷中の論文を載せています。
http://www.interchg.ubc.ca/cacb/power/review/

Len Thomas and Charles J. Krebs
     A Review of Statistical Power Analysis Software
   Bulletin of the Ecological Society of America 1997,Vol 78(2): In press.

そのなかで、Retrospective power analysisという言い方をしています。既成のパッケー
ジソフトではこれを既定値として出力しているが、役に立たない。役に立つようにするに
は、
so that the programs ask users for the alpha level of the test and either: (1) 
calculate power for a specified effect size (or range of effect sizes) thought 
to be the minimum for biological significance, or (2) calculate detectable 
effect size for a specified minimum desired level of power.   Another useful 
addition would be the calculation of confidence intervals about power and 
detectable effect size estimates (Thomas 1997).

といってます。南風原さんの考えのポジティブにいうとこのようなことになるのでしょう
。

南風原さんのコメント---------------------------------------------------
検定力は分析モデル,サンプルサイズ,有意水準,そして両側検定か片側検定
かが決まれば,あとは母数(母集団における効果の大きさ)の関数となります
が,上記の検定力が Observed Power であるということからすれば,標本デー
タによる母数の推定値で検定力関数を評価したものということでしょう。

だとすると,p値(上の表では Sig of F)と Observed Power の間にかなり明
白な関係が生じ,p値に加えて Observed Power を算出・報告することの意義
が感じられないのです。
-----------------------------------------------------------------------
Thomas&Krebsはこのような考えから上のような展開があるものと思います。Thomas(1997)
が印刷中のためあくまで推論です。

南風原さんの続き、
-----------------------------------------------------------------------
たとえば,簡単のためにt検定を例にとって,有意水準 .05 の両側検定で
p=.05 となるときの Observed Power を計算してみると,下に示す表のよう
にほぼ .50 という値になります。つまり,ぎりぎり有意になるようなデータで
は,Observed Power という指標は常に,ほぼ 1/2 になるということです。
------------------------------------------------------------------------
このあたりはよくわからないし、今もわかっていません。

次の本を読んでいたら、おもしろい考え方に出会いました。
Keppel,G.(1991) Design and analysis.3rd ed. Prentice Hall. p87

...,whereas a "medium" but nonsignificant F might suggest the possible presence 
of an "important" effect that was not detected because of a serious lack of 
power.

この路線を拡張すれば、
(1)統計的に有意差がなかった。
(2)そのデータの 効果量(effect size)をみて、
(a)それが望んでいる効果量があれば、それはサンプル数が少ないためなので、サンプル
数を増やして実験せよ。
(b)望んでいる効果量がない場合、それはもともと意味のない差なのです。
という判断をすればいいのでは。

効果量を重視すればこういう形もあると思います。
さらに訳がわからないまま拡張すれば、
(1)十分なサンプルをとる。
(a)ートストラップ法
   望ましい効果量に見合うだけりサンプルし、効果量を満たすものかチェックする。
(b)単に効果量をみて、十分意味のある差があったか判定する。

などの利用法も考えられる。

しかし、SPSSの場合、まだいくつか問題がある。一つは非心f分布のλの計算法、さ
らに、効果量をpartialed η2にしていること。今、一般的に使われている計算法とちが
う。どこからこんな方法をもってきたのだろうか。MANOVAの検定力の計算法は
GLMに引き継がれました。SASはGLMで検定力を算出するのでしょうか。

香川大学経済学部
        堀 啓造
e-mail    hori (at) ec.kagawa-u.ac.jp
home page http://fourier.ec.kagawa-u.ac.jp/~hori/

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。