画像認識のディープラーニングによく使われる「畳込みニューラルネットワーク」ってのがある。
こいつは一体何を見て物体の認識をしているのだろうか。
ディープラーニングてくらいだから、階層が何層にも重ねられている。
まず、1層目は何をみているのだろうか。
詳しくは下記のサイトへ
マサチューセッツ工科大学(MIT)
http://vision03.csail.mit.edu/cnn_art/index.html#v_single
答えは、エッジや局所的な塊(ブロブ)を見ているようだ。
こんな感じで全8層の畳込みニューラルネットワークの各フィルターの特徴を見てみると、次のような反応をしているようだ。
1層目
エッジや局所的な塊(ブロブ)
3層目
物体のテクスチャ
5層目
物体のパーツ
8層目
物体のクラス
このように階層が深くなるにつれて、ぼやけたイメージから物体そのものへと認識が変わっていく様子がわかる。
特に5層目は車の画像は車っぽく見えてるし、犬の画像も何となく特徴をとらえていそう。
しかし、最後の出力層になってくると、何だか訳がわかりませんがな。
これで物体を認識してるってのがすごい。
極端に抽象化しちゃってるんかな。