[fpr 2097] 小講演　データマイニング雑感

堀啓造

堀＠香川大学経済学部です。

豊田さんの小講演データマイニングと認知科学にでました。

内容は講談社ブルーバックス『金鉱を掘り当てる統計学－データマイニング入門 』です。
http://www.bookclub.kodansha.co.jp/Scripts/bookclub/intro/intro.idc?id=26285

変数がたくさんあって，オブザベーションもたくさんある場合（例えばposデータとその関連
データの処理）いままでの統計学の考え方では及ばない点がある。そのあたりは上の本で。

一つの疑問は会場で質問して攻め方の違いとして納得したのでした。
ＣＡＴＤＡＰ０２だと全体を一望しようとするけど，aidやTree では逐次型。全体一望型では
処理の爆発的な増大が起こる。変数の数にもよりますが，ま，２元（もとの分割を入れて３
元）くらいだとやってやれなくないのではとも思うのですが。

会場外でお聞きしたのが，交差妥当性(cross-validation)の話。３分割ではなく，切り刻む方
式はどうなのかという点。これについては，次のサイトが詳しい。

What are cross-validation and bootstrapping? 
http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-12.html
（Shao の説明が詳しくなりましたね）

説明を聞いて３分割が本来かなとも思いつつ，一部疑念が残るのです。
区間推定が点になる弱点をカバーできるのがk-fold cross-validationでは。

もっとも，交差妥当性を使っていないので，思い違いがあるかもしれません。

それと，「じゃぶじゃぶ」ということばがあとに残るものでしたが，じゃぶじゃぶデータがあ
る場合，全部使おうとしなくてもいいのではというのがもうひとつの考えです。適当なpower 
を確保できればいい。

ま，これは古い考えの延長かな。豊田さんの迫力は，新しい考えをすばやく自分のものにし，
さらに応用にまで発展させる点ですね。今回の講演もデータを実際にさわってそれなりの成果
を得たところをうかがわせました。それがじゃぶじゃぶだったのか。posデータの分析はデータ
がたくさんあって苦労すると聞きます。単なる統計学だけでないセンスが必要と見ました。



----
堀　啓造（香川大学経済学部）e-mail:  hori (at) ec.kagawa-u.ac.jp
home page http://www.ec.kagawa-u.ac.jp/~hori/
電話番号 087-832-1894(直通） fax 087-832-1820（事務室）
〒760-8523(これで香川大学経済学部)
    香川県高松市幸町２－１　香川大学経済学部

スレッド表示著者別表示日付順表示トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。

[fpr 2097] 小講演 データマイニング雑感

[fpr 2097] 小講演　データマイニング雑感