[fpr 2175] ニューラルネット

Kunihiro Tada

多田＠マインドウエアです。

> >それはそれとして、ニューラルネットのPRとしてはいいですね。
> >ぜひSOM（自己組織化マップ）もPRしてください。
>
>
> 最初から，何らかの意図をもったＰＲの文章なのではなくて
> 一般向けの文章ではありますが，自分では相当程度，時間と
> 手間をかけたオリジナルの分析・研究のつもりなのです．出
> 版前に（コメントがもらえる事を期待して）多くの尊敬する
> 仲間に読んでもらって，最終的な出版内容を少しでも良くし
> ようとする文化があります．
>

いや、どうも失礼致しました。
ただ「PR」という言葉を使ったのも、悪い意味で使ったつもり
ではありませんので、その点よろしくお願い致します。

もし何か有用な技術があって、それが世間にまだ知られていない
としたら、その情報がたとえそれほどオリジナルなものでないとしても、
有用な情報を世間に普及させるためにPRすることは立派な仕事だ
と思います。私がSOMの仕事をやっているのも、そうした思いがある
からです。

ちなみにSOMにおける同様な学術研究は、

G.ザブック、T.コホネン「金融・経済データにおける可視化情報探索
・自己組織化マップの応用」シュプリンガー・フェアラーク東京

に詳しいものがあります。（ただし、あまり言いたくないのですが、
翻訳はわかりにくい箇所がかなりあるように思います。）


>
> >記事の話からはそれてしまいますが・・・
> >豊田先生の「金鉱を掘り当てる統計学」では自己組織化マップ（SOM）
> >についてもお書きになっていますよね。
> 中略
> >ちなみに「金鉱・・・」では、乱数の話がありましたが、実用的な
> >SOMデータマイニング・システムでは、「線形の初期化」（つまり
> >主平面に初期のマップを置く）を採用しますので、乱数の初期化
> >を必ずしも使う必要はありません。コホネンも、「乱数の初期化が
> >ベストだということではない」と言っております。
>
>
> 最近は，もっとも結果に影響を与えるのは，マップのサイズ
> であるように思えてきました．３＊３か，３＊１０か，２０
> ＊２０かという分析者の主観的判断による選択肢で分析結果
> が本質的に大きく変わります．最適なマップサイズを決める
> 基準のようなものがあると有り難いのですが．．．
>

主観－客観図式にこだわっているとSOMを正しく理解する
ことができないのですが、そのことを議論するのはくどい
のでやめておきましょう。

（もう一度簡単に言うと、SOMは認識の例をいろいろと示す
ことができるツールです。あえて「客観」という言葉を使うなら、
データを客観的、あるいは主観的に認識しようというのでは
なくて、データへの認識の「ありよう」を客観的に示している
のです。何らかの評価方法を用意して「よりよく現象に適応
するには、どのような方法があるのか」という観点からみる
べきかと思います。問題解決的な発想をもってSOMを使う
べきかと思います。）


マップのサイズは、データレコードの件数に応じて増減します。
また、マップの縦横の比率は、線形の初期化によって定義
可能です。

SOMのコンセプトをおさらいしておきますと、SOMのマップは、
格子状につながったコードブックによって、多次元データ空間
の分布を近似しているものと考えることができます。

小さなデータセットをあまり大きすぎるマップでモデリングする
のは無駄が多すぎますし、大規模なデータセットをあまり小さ
すぎるマップでモデリングするのは、情報の損失が多くなり
ます。

したがって、「データマイニング」というほどではない比較的
小さなデータセットでは、適度に空ノード（どのレコードにも
ベストマッチしないノード）がある状態がよいと思います。
ノード数はレコード件数の数倍から１０倍程度というところで
しょうか。（空ノードは、最終のマップにおけるベストマッチ・
ノードの間を補間する働きを持っています。ちなみに学習
の間に、これらも適当な確率で発火することによって、良好
なマップが得られます。技術的改良はそのへんに向けられ
ております。）

私は、最初のうちはいちいちノード数を計算して決めていま
したが、最近は、１００、２００、３００、５００、１０００、２０００
というぐらいの設定でやっています。
（Viscoveryでは、ノード数の大雑把な値をユーザーが
与えると、それに近いところで詳細のノードを自動で
決定します。）

あくまでも私の経験ですが、小さなデータセットは、ノード数
１００ぐらいからで設定するのが良さそうです。また大規模
なデータセットでは、レコードが数１０万件にも及ぶことが
少なくありませんが、実用的には２０００か３０００程度を
上限としてよいと思います。大きなマップを作るとそれだけ
詳細な情報が得られますが、大規模なデータの場合は
人間が全体構造を把握するという目的からして、あまり
マップを大きくしすぎる必要はないと思われます。（この
場合は空ノードは少なくなるか、ほとんどなくなります。）

もちろん工学的にはマップを最適化するということも重要
な研究課題です。まだまだいろんな改良ができる余地は
あります。

いずれにしても、３＊３なんていうマップは、どんなデータ
にも不適当だと思います。（このような小さなマップが
示すような大雑把な構造はSOMを使わなくても読み取れる
はずです。）

ノード数によって結果が極端に変わるのは、たぶん
ノード数が小さすぎて適当ではないあたりで実験をされ
ているのではないかと思います。


また変数の数がそう多くなくて、線形的に要約できるよう
なデータは、通常の主成分分析の方がよい場合もあります
から、なんでもかんでもSOMだというわけではありません。

レコード件数が少ない場合でも、変数（要素）が多次元
であれば、SOMを使って構造化させることの意味があり
ますが、多次元で大量なデータを要約して、解析を容易
にすることもSOMの醍醐味です。統計的な応用の場合、
SOM単独というよりも、他の解析手法と組み合せるのが
ミソです。Viscoveryの製品・サービスは、単なるSOM
ではなくて、そのようなノウハウを提供しております。

IIZUKA2000という国際会議でKohonenは、市販のSOM
ツールのなかからViscoveryを推奨しました。正しく
作られたSOMツールを使うと、SOMのコンセプトを正しく
理解できます。

多田薫弘
スレッド表示著者別表示日付順表示トップページ
ここは心理学研究の基礎メーリングリストに投稿された過去の記事を掲載しているページです。