word2vecが登場すると、従来の深層学習の方法と、例えば連載第10回で取り上げた長期記憶を導入した「LSTM(Long Short Term Memory)」などを組み合わせる試みが始まりました。文献7では、下図のように、画像から得られた特徴量と質問文のエンベディングをLSTMに取り入れることで、損傷に対する診断を試みています※7。画像に対して質疑応答を行う仕組みは、「VQA(Visual Question Answering)」と呼ばれています。
下図は、この方法によって生成された「落橋防止システム」と「対傾構の損傷に関する質疑応答」です。図中の緑字が正解で、赤字が不正解を表しています。また、VQAが画像を用いた場合の回答で、QAは画像を用いない質疑応答の場合です。画像を合わせて用いるVQAによって、精度が上がっていることが分かります。
2017年に発表されたトランスフォーマーは、“エンベディング”の技術も取り入れられており、アテンションと組み合わせることで高度な言語処理が実現し、言語モデルの研究開発が急速に進みました※8。その延長上に今の生成AIや大規模言語モデル(LLM)があります。さらに、画像をはじめとした多様なデータと組み合わせることで、「マルチモーダルAI」※9の発展にもつながっています。
※8 土木×AI”で起きる建設現場のパラダイムシフト(19):「ChatGPT」など大規模言語モデルの仕組みと土木領域での可能性【土木×AI第19回】
※9 土木×AI”で起きる建設現場のパラダイムシフト(22):ChatGPTの新機能「GPT-4V」など、言語と画像のマルチモーダルAIを土木に用いるアイデア【土木×AI第22回】
Copyright © ITmedia, Inc. All Rights Reserved.