岸本@東大医学部です。
堀さんの投稿に関連して思い出したのですが、等分散共分散行列で
等事前確率の判別関数は世間で2種類紹介されているので混乱しやすい
ですね。
x:これから分類したい個体の測定値ベクトル
μi:i番目の群の平均値ベクトル
Σ:(共通と仮定した)群内分散共分散行列
として
fi(x) = μi'Σ**(-1)x − 0.5μi'Σ**(-1)μi
というのが線形判別関数で、群ごとにこれを計算して最大の群に
属すると判定する、というのが英語の教科書によく出てくる式で、
SASもこれを採用しています。
ところが2群の判別問題に限ると、
w(x) = f1(x) − f2(x)
という形にして、w(x)の正負で判定するということもできます。
日本語の教科書ではこちらの式がよく出てきます。しかし後の式だと
3群以上の判別問題のときに困るし、ベイズ規則へ一般化するのも
難しいので好ましくないと思います。
もうひとつ、クロスバリデーション(交差妥当化?)の件ですが、
世間でクロスバリデーションといえば、
1.データをランダムに2つに分割する
2.一方の群で判別ルールを作り、他方に適用する
楽観バイアスのない誤判別率が得られる
3.2群の役割を逆転させて、再度評価を行う
というのが普通だと思います。なぜかSASでは(堀さんの話では
SPSSも) Leave-One-Out法のことを指しています。名前だけの問題
ですけど。
岸本 淳司
東京大学 大学院 医学系研究科
クリニカルバイオインフォマティクス
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。