word2vecが登場すると、従来の深層学習の方法と、例えば連載第10回で取り上げた長期記憶を導入した「LSTM(Long Short Term Memory)」などを組み合わせる試みが始まりました。文献7では、下図のように、画像から得られた特徴量と質問文のエンベディングをLSTMに取り入れることで、損傷に対する診断を試みています※7。画像に対して質疑応答を行う仕組みは、「VQA(Visual Question Answering)」と呼ばれています。
下図は、この方法によって生成された「落橋防止システム」と「対傾構の損傷に関する質疑応答」です。図中の緑字が正解で、赤字が不正解を表しています。また、VQAが画像を用いた場合の回答で、QAは画像を用いない質疑応答の場合です。画像を合わせて用いるVQAによって、精度が上がっていることが分かります。
2017年に発表されたトランスフォーマーは、“エンベディング”の技術も取り入れられており、アテンションと組み合わせることで高度な言語処理が実現し、言語モデルの研究開発が急速に進みました※8。その延長上に今の生成AIや大規模言語モデル(LLM)があります。さらに、画像をはじめとした多様なデータと組み合わせることで、「マルチモーダルAI」※9の発展にもつながっています。
※8 土木×AI”で起きる建設現場のパラダイムシフト(19):「ChatGPT」など大規模言語モデルの仕組みと土木領域での可能性【土木×AI第19回】
※9 土木×AI”で起きる建設現場のパラダイムシフト(22):ChatGPTの新機能「GPT-4V」など、言語と画像のマルチモーダルAIを土木に用いるアイデア【土木×AI第22回】
AI:ザハ・ハディドの特徴を捉えた住宅デザインをAIが生成 mignの画像生成サービス
山岳トンネル工事:トンネル坑内作業の状況を画像解析AIが判定、施工管理業務を効率化 清水建設が開発
AI:生成AIとIoTで建設現場の“unknown”を無くす!西松建設の工事で4割時短したMODEの頼れるAI部下
現場管理:正答率94%のAI配筋自動検査システム、大林組が開発 外販も視野
温故創新の森「NOVARE」探訪(前編):新たな芽をいつか森に、清水建設がイノベーション拠点でゼネコンの枠を超えて目指す姿
現場管理:工事写真の撮影/管理を効率化するアプリをアドバンスト・メディアが開発Copyright © ITmedia, Inc. All Rights Reserved.
人気記事トップ10