ディープラーニングは何を見てるのか

画像認識のディープラーニングによく使われる「畳込みニューラルネットワーク」ってのがある。

こいつは一体何を見て物体の認識をしているのだろうか。

ディープラーニングてくらいだから、階層が何層にも重ねられている。
まず、１層目は何をみているのだろうか。

詳しくは下記のサイトへ
マサチューセッツ工科大学(MIT)
http://vision03.csail.mit.edu/cnn_art/index.html#v_single

答えは、エッジや局所的な塊（ブロブ）を見ているようだ。

こんな感じで全８層の畳込みニューラルネットワークの各フィルターの特徴を見てみると、次のような反応をしているようだ。

１層目
エッジや局所的な塊（ブロブ）

３層目
物体のテクスチャ

５層目
物体のパーツ

８層目
物体のクラス

このように階層が深くなるにつれて、ぼやけたイメージから物体そのものへと認識が変わっていく様子がわかる。

特に５層目は車の画像は車っぽく見えてるし、犬の画像も何となく特徴をとらえていそう。

しかし、最後の出力層になってくると、何だか訳がわかりませんがな。
これで物体を認識してるってのがすごい。

極端に抽象化しちゃってるんかな。

埼玉県熊谷市のプログラミングスクールゼビアス