大規模言語モデルは、膨大な文章のパターンを学習していると考えられますから、人間に近い受け答えが実現されることは自然に想像できます。しかし、それだけにとどまらず、論理的な推論や分類などでも、適切な結果を導き出すことが知られています。
下図は、AIデータサイエンスシンポジウム※5での「スマートシティー」と「スマートモビリティ」のプログラムを対象に、ChatGPTに論文タイトルのみをそのまま投げて、それぞれのカテゴリーで分類してみた結果が右表です。ここでは、左表の実際に開催したときの人の手によるプログラム分けと、よく似た結果が得られています。
黄色でハイライトした人流関係の論文をスマートモビリティに、オレンジの災害時の交通の論文をスマートシティーに分類しているところが違いますが、それでもプログラムとして成立しますので、適切に分類できていると言えましょう。このように、データの整理や分類などの作業の効率化にも役立ちます。
※5 AI・データサイエンス特別シンポジウム「デジタルツイン」 プログラム/土木学会 構造工学委員会 AI・データサイエンス論文集編集小委員会/2023年3月23日
ちなみに、スマートシティーとスマートモビリティの違いを100文字程度にまとめるように、ChatGPTに問いかけたところ、「スマートシティーは都市全体の持続可能性を向上させるための総合的なアプローチであり、サービスやインフラの統合的な管理を目指す。スマートモビリティは交通システムと移動手段に焦点を当て、効率性や持続可能性を向上させる。」との回答でした。
Transformerは、言語のみならず画像にも適用可能です。その手法である「Vision Transformer」は、下図のように画像をパッチに分け、そのパッチを一連のデータとして扱っています。大規模な一般画像データセットで事前学習した後に、専門分野でのデータを用いて追加的な学習を行うことでモデルを微調整する「ファインチューニング(fine tuning)」によって、さまざまな専門分野でも高い精度が得られます。インフラ点検の損傷画像などデータ数が限られる場合にも有望なアプローチであると考えられます。なお、大規模言語モデルでも、専門分野の文章を追加してファインチューニングできます。
下図は、点検画像と、その画像に対応するアテンションを表示したアテンションマップの例です。剥落(はくらく)やひび割れなど、損傷に関連する領域が強調されるようにアテンションが高くなっています。
このように、大規模言語モデルのベースとなるTransformerは、言語のみならず、画像などの多様なデータに適用できるのです。言語、画像、センサーデータなどを組み合わせたマルチモーダルなデータへの拡張も可能です。実務でも、点検調書のように、画像と言語からなるマルチモーダルなデータを用いる場面も多いため、大規模言語モデルの発展とともに、これから本格的に応用が広がっていくことが期待されます。
Copyright © ITmedia, Inc. All Rights Reserved.