絏≧絎鐚本女子大学心理学科です。 ベイズの定理とベイズ統計は、その違いを明確に認識しておくことが必要と考えます。 ベイズ統計は、ベイズの定理を用いますが、これは単に条件確率(分布)についての 数学的事実であるベイズの定理を、確率モデルに基づくデータ分析法の1つである ベイズ統計が用いているということです。ベイズの定理は、数学的事実として 導かれますが、ベイズ統計は数理モデルに基づくデータ分析法の適切な選択としての 分析者の判断が要求されまず。 まず、確率について考えたいと思います。 確率という言葉、概念は様々な場面で用いられます。日常の会話では、 小学生でも天気の確率、雨の確率は30%だよ、という具合に用いられます。 算数で確率ということを教えられなくても、日常会話の中で確率という 言葉の使い方を身に付けます。 学術用語としての確率もいろいろな領域での使い方があります。 心理学では、選択行動場面での人の判断決定をモデル化するときに、 確率という概念が用いられます。このときの確率は、人の判断決定において 人が効用などの計算を行っているとして、その心の中での計算に用いられている として設定される心理学的構成概念です。主観的確率という呼び方がぴったりの 確率です。 心理学的モデルにおける構成概念としての確率としては量子論的確率も 使われます。これは人の判断決定行動を記述する確率モデルにおける 確率の算出において量子力学のように強度として与えるさらに深いレベルでの プロセスを設定して確率が計算されます。 哲学では、認知心理学の知見を踏まえて、ベイズの主観確率を用いた考察もあります。 いろいろな領域、あるいは確率という言葉が適用される現象があるので、 それに応じて確率もいろいろある、それらを1つに統一して1つの同じものと 考えようとすることは不適切なことと思います。 統計分析においても確率は用いられ、今回、問題にされているのはこの確率です。 このデータ分析における確率を考える前に、データ分析について考える必要があります。 基本的に、データ分析ではモデルを設定して、そのモデルによってデータから情報を 得ます。 最小二乗法では、データに対して適用するモデルが設定され、データとモデルの 関係(差異など)を二乗誤差として表して、これを最小にするものとしてモデルの パラメーが推定されます。 帰無仮説検定では、確率モデルを帰無仮説として設定して、データとモデルとの 関係が調べられます。このときの確率モデルは、数学的確率(測度論的確率)に 基づくものです。 最尤法では、データに対して確率モデルが設定され、データとモデルの関係が 最適(尤度関数最大)になるようにモデル(のパラメータ)が選択されます。 ベイズ統計も、データに対して確率モデルが設定されますが、最尤法における モデルとは大きな違いがあります。最尤法のモデルでは、パラメータを条件として データの確率がモデル化されます。すなわち、 (モデルML) P(データ|パラメータ) です。 ベイズ統計では、パラメータとデータの同時確率のモデル (モデルBM) P(データ、パラメータ) を設定します。最尤法では、パラメータはデータの生成確率を決める独立変数 ですが、ベイズ統計では、パラメータもデータと同じ確率変数として扱います。 このとき、データとパラメータの同時確率を最尤法のモデルの拡張として (モデルBMa) P(データ、パラメータ) = P(データ|パラメータ)P(パラメータ) として与えます。 P(パラメータ)は事前確率と呼ばれています。 条件確率についての性質(ベイズの定理と呼ばれることがあるものです)から、 P(パラメータ|データ)= P(データ、パラメータ)/P(データ) = P(パラメータ)P(データ|パラメータ)/P(データ) =定数 * P(パラメータ)P(データ|パラメータ) が導かれます。 モデルBMaにおいて採用されている確率は、数学的確率(測度論的確率)であると 理解されます。MCMCなど高度な技術は、測度論的確率論において開発されています。 最尤法(あるいは、モーメント法なども)では、モデルMLを設定して 分析が行われます。設定されたモデルの評価は、データの分析結果に 基づいて行われます。モデルMLの設定は、分析者の判断によって 行われます。例えば、1変量データの場合、多くは正規分布モデルが 採用されますが、最近ではt分布が薦められたりします。これらの選択は、 分析者が関連する情報を踏まえて行っています。 ベイズ統計では、モデルBMのために、モデルMLに加えてモデルP(パラメータ)が 設定されます。設定されたモデルの評価は、P(パラメータ)も含めて データの分析結果に基づいて行われます。 データの分析法はいろいろあり、その1つとしてベイズ統計法と 呼ばれているものがあると理解しています。分析法の選択は、 妥当性と有用性に基づいて行われます。ベイズ統計法は、 現在、その有用性と妥当性が認められ、注目されているのだとおもいます。 ベイズ統計法は、MCMCという妖精によって行われる魔法の分析法では ありません。MCMCは乱数サンプリング法の1つとして知られています。 数学的にP(パラメータ|データ)を求めることが難しいときに、 乱数サンプリングによって推定する1つの方法としてMCMCを使っている ということなので、簡単な場合は、MCMCを使わなくても十分です。 2項分布の場合はパラメータが1つなので、グリッド法で簡単に 求めることができます。次のウェブサイト http://y-okamoto-psy1949.la.coocan.jp/VCpp/MLEandBayesian/ では、以下のコードで求めています。 for (int i = 0; i <= 10000; i++) sum += postP[i] = L(i/10000.0); for (int i = 0; i <= 10000; i++){ postP[i] /= sum; if (maxV < postP[i]) maxV = postP[i]; } 関数L(x)が尤度関数です。 MCMCは妖精の魔法ではなく、乱数サンプリングの1つの方法であること。 ベイズ統計とベイズの定理の概念上の違いを認識しておく必要があること。 確率は、いろいろな場面で、場面に応じた概念として用いらえれているので、 それらはお互いに混同してはいけないこと。 以上について書いておきたいと思いました。 横浜市在住 岡本安晴 -----Original Message----- From: toyoda.waseda (at) gmail.com [mailto:toyoda.waseda (at) gmail.com] On Behalf Of 豊田秀樹 Sent: Thursday, February 2, 2017 9:13 AM To: fpr ML <fpr (at) psy.chubu.ac.jp> Subject: [fpr 3822] Re: [fpr 3819] Re: [fpr 3818] Re: [fpr 3815] 放送大学心理統計法('17) 2017/01/29 ichikawa (at) p.u-tokyo.ac.jp <ichikawa (at) p.u-tokyo.ac.jp>: >ベイズの定理から、ベイズ統計に行くところは、かなり大きな一歩が >ありますよね。私も、そこでしばらく混乱していました。そのあたり >を、わかりやすく伝えてくださること、期待しています。 コメントありがとうございます。 事後確率と事後分布は、右辺のパーツが比較的すっきり決まる点は 共通しています。しかし事後確率は、 右辺の各パーツに確率を代入するだけで簡単に求まるのに対して、 事後分布は、具体的な評価が難しいという問題があります。 文学部の新入生は、まずここで戸惑います。これが ベイズの定理から、ベイズ統計へのジャンプです。そこで初年度には 「事後分布はMCMCという妖精さんが与えてくれるから気にしない。」 と教えます。それで卒論や修論を書くのには十分だからです。ただ 「気にしない」と言われて「安心した」と思う学生さんと 「気持ちが悪い」と思う学生さんがいます。 後者の学生さんには2年目以降に、MCMCの原理を教えます。 来年度、前期、本郷の社会心理にベイズの講義に参ります。 興味のある学生さんがもしいらっしゃったら、勧めていただけたら幸いです。 豊田 拝 -- ------------------------------------------------------------------------------ TOYODA Hideki Ph.D., Professor, Department of Psychology TEL +81-3-5286-3567 School of Humanities and Social Sciences, Waseda University toyoda _atmark_ waseda.jp 1-24-1 Toyama Shinjyuku-ku, Tokyo 162-8644 Japan http://www.waseda.jp/sem-toyoda-lab/ ------------------------------------------------------------------------------
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。