検索
連載

ChatGPTの新機能「GPT-4V」など、言語と画像のマルチモーダルAIを土木に用いるアイデア【土木×AI第22回】“土木×AI”で起きる建設現場のパラダイムシフト(22)(2/2 ページ)

連載第22回は、文字だけでなく、画像入力や音声出力も可能になったChatGPTの新機能「GPT-4V」や先立つこと2021年に登場した「CLIP」など、言語と画像のマルチモーダルなAIを土木の実業務に活用するアイデアを紹介します。

Share
Tweet
LINE
Hatena
前のページへ |       

専門的な問題に対応させる「フューショット学習」

 事前に膨大な数の画像と言語のペアについて学習しておくことで、CLIPに学習していない画像を入力した場合であっても、画像と言語の関係性を表現可能であることが分かりました。このように未知の画像に対し、学習済みモデルを適用することを「ゼロショット(zero-shot)学習」と言います。さらに、CLIPと大規模マルチモーダルモデルを組み合わせることで、画像をCLIPに入力して得られる結果から説明文を生成する方法も提案されています。

 点検時の変状画像から所見の生成を試みたのが文献3です。下図に示すように、まず、CLIPに対象の変状画像を入力することで、類似した変状画像を持つ過去の点検記録を取得します。次に、過去の点検記録を数件用い、大規模マルチモーダルモデルに入力しています。極少数の事例を与えることで、専門的な問題に対する適用性を高めることは、「フューショット(few-shot)学習」と呼ばれており、この場合は、類似似損傷事例でフューショット学習をすることで、所見の精度を高める効果を狙った仕組みになっています※3

変状画像Iと類似した過去の点検記録M件にフューショット学習を適用し、所見Sを生成
変状画像Iと類似した過去の点検記録M件にフューショット学習を適用し、所見Sを生成 出典:※3

※3 「Visual language modelを用いた変状画像に対する所見の自動生成ー類似画像検索によるFew-shot learningの導入ー」渡邉優宇人,小川直輝,前田圭介,小川貴弘,長谷山美紀/AI・データサイエンス論文集4巻3号p223-232/「科学技術情報発信・流通総合システム(J-STAGE)」/2023年

 この方法で、画像から損傷の性状や進展予測などの所見を生成した結果が下図です。完全に技術者の所見を再現しているわけではありませんが、赤字で示した記述を見るとポイントとしては対応できています。

技術者と提案手法による所見の比較
技術者と提案手法による所見の比較 出典:※3

 エンベディングを用いることで、テキストを分類するなどの他のタスクを行うこともできます。文献4では、膨大な事前学習が行われている「GPT(Generative Pre-trained Transformer:生成事前学習トランスフォーマ)」を利用しています※4

※4 「土木・建設分野における大規模言語モデルの利活用に向けた検証と考察」菅田大輔,箱石健太,一言正之/AI・データサイエンス論文集4巻3号p670-676/「科学技術情報発信・流通総合システム(J-STAGE)」/2023年

 下図は、GPTを用いて、国土交通省の「NETIS(新技術情報提供システム)」掲載の技術をエンベディングし、次元を圧縮して2次元マップ上に表示したものです。図中で、「工法」と「材料」は、いずれも施工に用いられますから、入り乱れて表示されています。しかし、「システム」や「機械」は単体として分かれています。「製品」は他と離れている独自のものもありますが、施工に用いられるケースもあるので、一部は「工法」と重なっています。

新技術情報の分類と類似性
新技術情報の分類と類似性 出典:※4

 言語と画像のマルチモーダルなAIによって、実業務に近い作業のデジタルトランスフォーメーションが視野に入りつつあります。さらに、AIに土木の専門知を取り入れることで、具体的な技術課題への適用の拡大も期待されています。

著者Profile

阿部 雅人/Masato Abe

ベイシスコンサルティング 研究開発室 チーフリサーチャー。防災科学技術研究所 客員研究員。土木学会 構造工学委員会 構造工学でのAI活用に関する研究小委員会 副委員長を務めた後、現在はAI・データサイエンス実践研究小委員会 副委員長。インフラメンテナンス国民会議 実行委員も兼任。

近著に、「構造物のモニタリング技術」(日本鋼構造協会編/コロナ社)がある。

Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る