未分類

ディープラーニングは何を見てるのか

画像認識のディープラーニングによく使われる「畳込みニューラルネットワーク」ってのがある。

こいつは一体何を見て物体の認識をしているのだろうか。

ディープラーニングてくらいだから、階層が何層にも重ねられている。
まず、1層目は何をみているのだろうか。

詳しくは下記のサイトへ
マサチューセッツ工科大学(MIT)
http://vision03.csail.mit.edu/cnn_art/index.html#v_single

答えは、エッジや局所的な塊(ブロブ)を見ているようだ。

こんな感じで全8層の畳込みニューラルネットワークの各フィルターの特徴を見てみると、次のような反応をしているようだ。

1層目
エッジや局所的な塊(ブロブ)

3層目
物体のテクスチャ

5層目
物体のパーツ

8層目
物体のクラス

このように階層が深くなるにつれて、ぼやけたイメージから物体そのものへと認識が変わっていく様子がわかる。

特に5層目は車の画像は車っぽく見えてるし、犬の画像も何となく特徴をとらえていそう。

しかし、最後の出力層になってくると、何だか訳がわかりませんがな。
これで物体を認識してるってのがすごい。

極端に抽象化しちゃってるんかな。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です