事前に膨大な数の画像と言語のペアについて学習しておくことで、CLIPに学習していない画像を入力した場合であっても、画像と言語の関係性を表現可能であることが分かりました。このように未知の画像に対し、学習済みモデルを適用することを「ゼロショット(zero-shot)学習」と言います。さらに、CLIPと大規模マルチモーダルモデルを組み合わせることで、画像をCLIPに入力して得られる結果から説明文を生成する方法も提案されています。
点検時の変状画像から所見の生成を試みたのが文献3です。下図に示すように、まず、CLIPに対象の変状画像を入力することで、類似した変状画像を持つ過去の点検記録を取得します。次に、過去の点検記録を数件用い、大規模マルチモーダルモデルに入力しています。極少数の事例を与えることで、専門的な問題に対する適用性を高めることは、「フューショット(few-shot)学習」と呼ばれており、この場合は、類似似損傷事例でフューショット学習をすることで、所見の精度を高める効果を狙った仕組みになっています※3。
この方法で、画像から損傷の性状や進展予測などの所見を生成した結果が下図です。完全に技術者の所見を再現しているわけではありませんが、赤字で示した記述を見るとポイントとしては対応できています。
エンベディングを用いることで、テキストを分類するなどの他のタスクを行うこともできます。文献4では、膨大な事前学習が行われている「GPT(Generative Pre-trained Transformer:生成事前学習トランスフォーマ)」を利用しています※4。
下図は、GPTを用いて、国土交通省の「NETIS(新技術情報提供システム)」掲載の技術をエンベディングし、次元を圧縮して2次元マップ上に表示したものです。図中で、「工法」と「材料」は、いずれも施工に用いられますから、入り乱れて表示されています。しかし、「システム」や「機械」は単体として分かれています。「製品」は他と離れている独自のものもありますが、施工に用いられるケースもあるので、一部は「工法」と重なっています。
言語と画像のマルチモーダルなAIによって、実業務に近い作業のデジタルトランスフォーメーションが視野に入りつつあります。さらに、AIに土木の専門知を取り入れることで、具体的な技術課題への適用の拡大も期待されています。
Copyright © ITmedia, Inc. All Rights Reserved.