言語モデルはどのように言葉を学習しているのか? 転機となった「word2vec」【土木×AI第25回】“土木×AI”で起きる建設現場のパラダイムシフト(25)(2/2 ページ)

» 2024年05月31日 10時00分 公開
前のページへ 1|2       

画像に対して質疑応答する「VQA」で生成した「落橋防止システム」

 word2vecが登場すると、従来の深層学習の方法と、例えば連載第10回で取り上げた長期記憶を導入した「LSTM(Long Short Term Memory)」などを組み合わせる試みが始まりました。文献7では、下図のように、画像から得られた特徴量と質問文のエンベディングをLSTMに取り入れることで、損傷に対する診断を試みています※7。画像に対して質疑応答を行う仕組みは、「VQA(Visual Question Answering)」と呼ばれています。

VQAのモデル VQAのモデル 出典:※7

 下図は、この方法によって生成された「落橋防止システム」と「対傾構の損傷に関する質疑応答」です。図中の緑字が正解で、赤字が不正解を表しています。また、VQAが画像を用いた場合の回答で、QAは画像を用いない質疑応答の場合です。画像を合わせて用いるVQAによって、精度が上がっていることが分かります。

VQAによる損傷診断。落橋防止システムの損傷(左)、対傾構の損傷(右) VQAによる損傷診断。落橋防止システムの損傷(左)、対傾構の損傷(右) 出典:※7

※7 「橋梁点検調書の損傷写真と所見を用いた損傷診断VQAの開発」深谷壮太,全邦釘,長井宏平/AI・データサイエンス論文集4巻3号p490-500/「科学技術情報発信・流通総合システム(J-STAGE)」/2023年

 2017年に発表されたトランスフォーマーは、“エンベディング”の技術も取り入れられており、アテンションと組み合わせることで高度な言語処理が実現し、言語モデルの研究開発が急速に進みました※8。その延長上に今の生成AIや大規模言語モデル(LLM)があります。さらに、画像をはじめとした多様なデータと組み合わせることで、「マルチモーダルAI」※9の発展にもつながっています。

※8 土木×AI”で起きる建設現場のパラダイムシフト(19):「ChatGPT」など大規模言語モデルの仕組みと土木領域での可能性【土木×AI第19回】

※9 土木×AI”で起きる建設現場のパラダイムシフト(22):ChatGPTの新機能「GPT-4V」など、言語と画像のマルチモーダルAIを土木に用いるアイデア【土木×AI第22回】

著者Profile

阿部 雅人/Masato Abe

ベイシスコンサルティング 研究開発室 チーフリサーチャー。防災科学技術研究所 客員研究員。土木学会 構造工学委員会 構造工学でのAI活用に関する研究小委員会 副委員長、インフラメンテナンス国民会議 実行委員を務める。近著に、「構造物のモニタリング技術」(日本鋼構造協会編/コロナ社)がある。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.