豊田@早大心理です. Keizo Hori さんは書きました: >堀@香川大学経済学部です。 >豊田さんの小講演データマイニングと認知科学にでました。 >CATDAP02だと全体を一望しようとするけど,aidやTree >では逐次型。全体一望型では >処理の爆発的な増大が起こる。変数の数にもよりますが,ま, >2元(もとの分割を入れて3 >元)くらいだとやってやれなくないのではとも思うのですが。 金を儲ける為の知見(書いててちょっとハズカシイ)は,非常に 深いクロスの底の,ごくごくわずかなセルの中で見つかります. CATDAPは,伝統的な統計学の中で生まれた手法なので 最適性(探索した中では一番良い)を重視します.だから 深いクロスの底の,ごくごくわずかなセルの知見には到達しません. 一方,決定木は他にもっといい解があるかもしれない,という 懸念には頓着しません.成功しそうな知見に早くたくさんヒット することが主たる役割です.それが組み合わせ爆発に対抗する (現時点における)もっとも有効な方策なのだと思います. その潔さは惚れ惚れするほどです. >それと,「じゃぶじゃぶ」ということばがあとに残るものでしたが, >じゃぶじゃぶデータがある場合,全部使おうとしなくてもいいのでは >というのがもうひとつの考えです。適当なpower を確保できればいい。 均質なデータならそれいよいのですが,不均質なので,深いクロスの底の, ごくごく一部のデータに語らせる必要があります.全部つかうのではなく 大切なものを残して,捨てるのですが,捨てるだけでも大仕事なのです. はなしは変わります. 以前に,個人実施の知能検査の1500人分くらいのデータを分析させて もらったことがあるのですが,そのデータをとった中学・高校の先生 方の苦労に比べて,スマートな統計解析の結果から得られる知見は, それに報いているのだろうかと考え込まされたことが有ります. また例えば数十万件に及ぶ大学入試センターのデータも,その1レコー ドには(1人の人間の1年間の苦労の結果と思うと)重みが有ります. このように,データには,なんともいえない敬謙な威厳のような ものがあると私は思っていました.統計解析が与えてくれる知見は そのエネルギーと比べてあまりにもちっほけだという罪悪感のような ものがありました.役割が違うことは百も承知で,でも,そう思っていたのです. しかしPOSは違います.CDにぎっちりつまったトランザクションデータや WWWログなどを目の当たりにすると,人間の活動の結果であることは 間違いないのですが,敬謙な威厳というか,頭の下がるおもいとかが 沸いてこないのです.染み込んだ汗の臭いがしないのです. そういう気持ちを「じゃぶじゃぶ」という言葉に込めたのですが 堀さんのお心に留まって嬉しいです. 小講演においでくださり,有り難う御座いました. -- -------------------------------------------------------------------------- TOYODA Hideki Ph.D., Professor, Department of Psychology TEL +81-3-5286-3567 School of Lieterature, Waseda University toyoda (at) mn.waseda.ac.jp 1-24-1 Toyama Shinjyuku-ku, Tokyo 162-8644 Japan --------------------------------------------------------------------------
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。