[fpr 2097] 小講演 データマイニング雑感

堀啓造

堀@香川大学経済学部です。

豊田さんの小講演データマイニングと認知科学にでました。

内容は講談社ブルーバックス『金鉱を掘り当てる統計学−データマイニング入門 』です。
http://www.bookclub.kodansha.co.jp/Scripts/bookclub/intro/intro.idc?id=26285

変数がたくさんあって,オブザベーションもたくさんある場合(例えばposデータとその関連
データの処理)いままでの統計学の考え方では及ばない点がある。そのあたりは上の本で。

一つの疑問は会場で質問して攻め方の違いとして納得したのでした。
CATDAP02だと全体を一望しようとするけど,aidやTree では逐次型。全体一望型では
処理の爆発的な増大が起こる。変数の数にもよりますが,ま,2元(もとの分割を入れて3
元)くらいだとやってやれなくないのではとも思うのですが。

会場外でお聞きしたのが,交差妥当性(cross-validation)の話。3分割ではなく,切り刻む方
式はどうなのかという点。これについては,次のサイトが詳しい。

What are cross-validation and bootstrapping? 
http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-12.html
(Shao の説明が詳しくなりましたね)

説明を聞いて3分割が本来かなとも思いつつ,一部疑念が残るのです。
区間推定が点になる弱点をカバーできるのがk-fold cross-validationでは。

もっとも,交差妥当性を使っていないので,思い違いがあるかもしれません。

それと,「じゃぶじゃぶ」ということばがあとに残るものでしたが,じゃぶじゃぶデータがあ
る場合,全部使おうとしなくてもいいのではというのがもうひとつの考えです。適当なpower 
を確保できればいい。

ま,これは古い考えの延長かな。豊田さんの迫力は,新しい考えをすばやく自分のものにし,
さらに応用にまで発展させる点ですね。今回の講演もデータを実際にさわってそれなりの成果
を得たところをうかがわせました。それがじゃぶじゃぶだったのか。posデータの分析はデータ
がたくさんあって苦労すると聞きます。単なる統計学だけでないセンスが必要と見ました。



----
堀 啓造(香川大学経済学部)e-mail:  hori (at) ec.kagawa-u.ac.jp
home page http://www.ec.kagawa-u.ac.jp/~hori/
電話番号 087-832-1894(直通) fax 087-832-1820(事務室)
〒760-8523(これで香川大学経済学部)
    香川県高松市幸町2−1 香川大学経済学部

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。