[fpr 2100] 小講演 データマイニング雑感

豊田秀樹

豊田@早大心理です.


Keizo Hori さんは書きました:
>堀@香川大学経済学部です。
>豊田さんの小講演データマイニングと認知科学にでました。


>CATDAP02だと全体を一望しようとするけど,aidやTree 
>では逐次型。全体一望型では
>処理の爆発的な増大が起こる。変数の数にもよりますが,ま,
>2元(もとの分割を入れて3
>元)くらいだとやってやれなくないのではとも思うのですが。

金を儲ける為の知見(書いててちょっとハズカシイ)は,非常に
深いクロスの底の,ごくごくわずかなセルの中で見つかります.
CATDAPは,伝統的な統計学の中で生まれた手法なので
最適性(探索した中では一番良い)を重視します.だから
深いクロスの底の,ごくごくわずかなセルの知見には到達しません.
一方,決定木は他にもっといい解があるかもしれない,という
懸念には頓着しません.成功しそうな知見に早くたくさんヒット
することが主たる役割です.それが組み合わせ爆発に対抗する
(現時点における)もっとも有効な方策なのだと思います.
その潔さは惚れ惚れするほどです.

>それと,「じゃぶじゃぶ」ということばがあとに残るものでしたが,
>じゃぶじゃぶデータがある場合,全部使おうとしなくてもいいのでは
>というのがもうひとつの考えです。適当なpower を確保できればいい。

均質なデータならそれいよいのですが,不均質なので,深いクロスの底の,
ごくごく一部のデータに語らせる必要があります.全部つかうのではなく
大切なものを残して,捨てるのですが,捨てるだけでも大仕事なのです.

はなしは変わります.
以前に,個人実施の知能検査の1500人分くらいのデータを分析させて
もらったことがあるのですが,そのデータをとった中学・高校の先生
方の苦労に比べて,スマートな統計解析の結果から得られる知見は,
それに報いているのだろうかと考え込まされたことが有ります.

また例えば数十万件に及ぶ大学入試センターのデータも,その1レコー
ドには(1人の人間の1年間の苦労の結果と思うと)重みが有ります.
このように,データには,なんともいえない敬謙な威厳のような
ものがあると私は思っていました.統計解析が与えてくれる知見は
そのエネルギーと比べてあまりにもちっほけだという罪悪感のような
ものがありました.役割が違うことは百も承知で,でも,そう思っていたのです.

しかしPOSは違います.CDにぎっちりつまったトランザクションデータや
WWWログなどを目の当たりにすると,人間の活動の結果であることは
間違いないのですが,敬謙な威厳というか,頭の下がるおもいとかが
沸いてこないのです.染み込んだ汗の臭いがしないのです.
そういう気持ちを「じゃぶじゃぶ」という言葉に込めたのですが
堀さんのお心に留まって嬉しいです.
小講演においでくださり,有り難う御座いました.

--
--------------------------------------------------------------------------
 TOYODA Hideki Ph.D.,  Professor,                Department of Psychology
 TEL +81-3-5286-3567             School of Lieterature, Waseda University
 toyoda (at) mn.waseda.ac.jp  1-24-1 Toyama Shinjyuku-ku, Tokyo 162-8644 Japan
--------------------------------------------------------------------------

スレッド表示 著者別表示 日付順表示 トップページ

ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。