繁桝@東大駒場です. 相変わらずの舌足らずでご迷惑をかけているかもしれません.また、過去に一応の解 決ができている話題であればすみません.ただ、このような基本的問題に関しては、正 答への収束的解決よりも、自分の立場を明確にするという効用のほうが大きいと思い ます.(湯浅さんもそうおっしゃらないで議論してください.) さて、実験や調査において、無作為抽出や無作為割り当てがない場合を考えます.いわ ば、頻度論的解釈を公式的に考えるならば、確率変数を見出せない場合です.このよう に無作為化の現実的操作が存在しない場合の統計モデルの妥当性について議論してい るというのがわたしの理解です.このようなときには統計学を使わないというのがひ とつの立場です.統計学は、ルールを守った行儀の良いデータに関する推論に限るべ きであるという立場です.しかし、これでは、多変量解析を使った心理学研究や教育心 理学研究の多くの論文は統計的検討の枠外ということになります.(それでもいいの ですが。) 具体的な例として、がん患者に対し、外科手術か放射線治療かという問題を考えます. この種のデータはランダムサンプリングでは得られないし、無作為に患者にいずれか の治療法を割り当てることもできません.このような場合にも比較的良好な状況とし ては、事前にデータ収集計画を持ち、全国の病院から、層別サンプリングのような考え 方で、病院をセレクトし、データを得る場合です.この場合は、東京タワーから石を落 とすのも、エッフェル塔から、ダイアモンドを落とすのも同じであるという比喩が生き る場合もあるでしょう.また、ベイズ的に交換可能性(可換性、exchangeability)を 使ってモデルを作ることもできるかもしれません.しかし、実際には、手を尽くして1 0くらいの病院からまちまちなデータを得る程度のことしかできない場合も多いので ないかと思います. この(最悪の)状況において、どのような統計モデルが考えられ、どのような役に立つか ということです。実際に得られたデータではなく、新たな患者を前にして、その人が、 外科手術を受けた場合と、放射線治療とで治療後どれだけ生きられるかの推定をした いとしましょう.外科手術をするか放射線治療をするかに関しては、患部の様態、患者 の体力、進行レベルなど多くの変数で違いがあるのでしょう(たぶん).このような差 異をダミー変数、共変数などを組み込む統計モデルをたてます。このときの残差に関 しては、交換可能性の議論をたてに独立同一分布を仮定してもいいと思うのです.(残 差の分布の平均は0でいいでしょうし、独立の仮定もいいでしょうし.) この統計モデルをベースとして、得られたデータから予測分布を導きます.そして、眼 前の患者のデータを入れれば、その延命効果の予測(点予測、区間予測etc.)ができる はずです.この予測分布は、手元にある確率変数ではないデータの背後に統計モデル を仮定したからこそできるわけです.(なお、このような複雑なモデルにおいて安定し た予測分布を導くためにベイズ的アプローチの利点はあるとは思いますが、以上の議 論は、ベイズ的な立場というより一般的な立場からの統計モデルの立て方についての 意見です.岡本さんへの注釈です.) 以上です.
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。