検索
連載

言語モデルはどのように言葉を学習しているのか? 転機となった「word2vec」【土木×AI第25回】“土木×AI”で起きる建設現場のパラダイムシフト(25)(2/2 ページ)

連載第25回は、目覚ましい進化を続ける生成AIの理解を深めるため、言語モデルに用いる“ニューラルネットワーク”が、どのように言葉を学習しているのかを土木学会の最新研究を引用しながら探ります。

Share
Tweet
LINE
Hatena
前のページへ |       

画像に対して質疑応答する「VQA」で生成した「落橋防止システム」

 word2vecが登場すると、従来の深層学習の方法と、例えば連載第10回で取り上げた長期記憶を導入した「LSTM(Long Short Term Memory)」などを組み合わせる試みが始まりました。文献7では、下図のように、画像から得られた特徴量と質問文のエンベディングをLSTMに取り入れることで、損傷に対する診断を試みています※7。画像に対して質疑応答を行う仕組みは、「VQA(Visual Question Answering)」と呼ばれています。

VQAのモデル
VQAのモデル 出典:※7

 下図は、この方法によって生成された「落橋防止システム」と「対傾構の損傷に関する質疑応答」です。図中の緑字が正解で、赤字が不正解を表しています。また、VQAが画像を用いた場合の回答で、QAは画像を用いない質疑応答の場合です。画像を合わせて用いるVQAによって、精度が上がっていることが分かります。

VQAによる損傷診断。落橋防止システムの損傷(左)、対傾構の損傷(右)
VQAによる損傷診断。落橋防止システムの損傷(左)、対傾構の損傷(右) 出典:※7

※7 「橋梁点検調書の損傷写真と所見を用いた損傷診断VQAの開発」深谷壮太,全邦釘,長井宏平/AI・データサイエンス論文集4巻3号p490-500/「科学技術情報発信・流通総合システム(J-STAGE)」/2023年

 2017年に発表されたトランスフォーマーは、“エンベディング”の技術も取り入れられており、アテンションと組み合わせることで高度な言語処理が実現し、言語モデルの研究開発が急速に進みました※8。その延長上に今の生成AIや大規模言語モデル(LLM)があります。さらに、画像をはじめとした多様なデータと組み合わせることで、「マルチモーダルAI」※9の発展にもつながっています。

※8 土木×AI”で起きる建設現場のパラダイムシフト(19):「ChatGPT」など大規模言語モデルの仕組みと土木領域での可能性【土木×AI第19回】

※9 土木×AI”で起きる建設現場のパラダイムシフト(22):ChatGPTの新機能「GPT-4V」など、言語と画像のマルチモーダルAIを土木に用いるアイデア【土木×AI第22回】

著者Profile

阿部 雅人/Masato Abe

ベイシスコンサルティング 研究開発室 チーフリサーチャー。防災科学技術研究所 客員研究員。土木学会 構造工学委員会 構造工学でのAI活用に関する研究小委員会 副委員長、インフラメンテナンス国民会議 実行委員を務める。近著に、「構造物のモニタリング技術」(日本鋼構造協会編/コロナ社)がある。

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る