ただ、全く中身が分からないわけでもありません。例えば、途中の中間層のノードの情報から判定の際に、どの部位の情報を用いているのかを算定して、ヒートマップとして表示することが可能です。下図では、「Grad-CAM」と呼ばれる技術を使用しています。
図を見ると、支点部分とそれにつながる桁部分の情報にAIが着目して、橋梁形式を分類していることが分かります。確かに、支点近傍の形は橋梁形式によって特徴がありますから、それを学習しているのだと理解できます。一方、アーチの写真では空の情報も用いているようです。アーチ橋などの写真を撮るときには、アーチの形がよく見えるように空を背景とすることが多いからかもしれません。
このように、橋の本質とは関係のない写真の撮り方を学習してしまっている場合もあり得ます。そのような場合も含めて、ヒートマップで結果を見てみることでAIの「考えていること」をある程度理解できますし、それによってAIの性能を改善していくこともできます。さらに、ブラックボックスという批判に対して、「説明可能AI(XAI:eXplainable AI)」に関する研究も進んでいます。
深層学習の中間のノードの情報からヒートマップが作られるわけですが、中間層からは他にも興味深い情報が得られることがあります。2012年にはGoogleから、大量の画像を学習することで、AIが自ら猫を認識できるようになったという発表がありました※2。
先ほどの橋の分類では、桁橋や桁橋以外というラベルを付けた橋の写真を用意してAIに学習させる“教師あり学習”を行っています。それに対して、Googleの猫の場合は、ラベル付けを必要としない“教師なし学習”によって、中間層に猫を認識するノードが発生したのです。そこには、入力と出力に同じ画像を用いる「オートエンコーダ」という手法が使われています。そこには、人間が答えを教えるというプロセスが介在しません。AIが自ら猫を認識することは実に衝撃的で、第3次AIブームのきっかけの一つにもなった出来事です。今では、オートエンコーダを利用した構造物の画像診断の研究も進められています※3。
Copyright © ITmedia, Inc. All Rights Reserved.