土砂崩落やインフラ点検などで最適化するためにAI性能を評価するには?【土木×AI第13回】:“土木×AI”で起きる建設現場のパラダイムシフト(13)(1/2 ページ)
連載第13回は、AIで得られた結果のなかで、未検出や誤検出を減らすために必要なAIの評価手法について論じます。
これまでの連載で紹介してきたように、最近ではさまざまなAI手法が提案されていますが、応用や対象によって適した方法が異なる場合があります。そうした際に、自分で作ってみたAIが、どの程度の性能なのかを確かめたり、他のAIと比べてみたりしたいこともあるでしょう。では、AIから得られた結果を比較し、評価するにはどのようにすればよいのでしょうか?
AIを評価するのに一般的な「混同行列」
下図は、AIにより航空写真をもとに、土砂崩壊箇所を検出した結果です※1,2。おおむね正確に検出できていますが、細かく見ると、崩壊を検出できていない箇所(未検出)や崩壊していない健全なところを誤って検出してしまっている箇所(誤検出)が見受けられます。
★連載バックナンバー:
本連載では、土木学会 AI・データサイエンス実践研究小委員会 副委員長を務める阿部雅人氏が、AIと土木の最新研究をもとに、今後の課題や将来像について考えていきます。
AIの検出結果に、未検出な部分があると、危険な箇所を見落とす可能性があります。また、誤検出の際には、本来は安全なところを危険と誤って認識し、必要がない現場確認や余計な対応をしてしまうかもしれません。そのため、単に全体的な正解率を向上させるだけではなく、未検出や誤検出を減らしていくことも望まれます。
未検出や誤検出を含めて、AIを評価するのに一般的に用いられるのが下図の「混同行列」です※3。実際の分類とAIによる予測結果が合っていれば「真(true)」、異なっていれば「偽(false)」として、表の各項目に該当するサンプル数を整理する手法です。
新型コロナウイルスの検査で、「偽陽性」などの用語が報道などで採り上げられていたことを記憶されている方も多いかと思います。この表では、偽陰性FNが未検出、偽陽性FPが誤検出にあたります。
※3 SIPインフラ連携委員会報告「インフラ維持管理へのAI技術適用のための調査研究報告書」/土木学会 技術推進機構/2019年
混同行列の各項目のサンプル数から、以下のような指標を計算して、AIの比較や評価をすることができます。
- 全サンプルのうち正解したサンプルの割合は「正解率」(accuracy)と呼び、以下の計算式で求めます。
- 陽性(土砂崩壊)と判定したサンプルのうち、正解している割合は「適合率」(precision)。
- 陽性サンプルのうち、正解している割合は「再現率」(recall)。
適合率は誤検出をせずに検出できている割合で、再現率は未検出をせずに検出できている割合です。誤検出(FP)がなければ、適合率は100%、未検出(FN)がなければ再現率は100%となります。
Copyright © ITmedia, Inc. All Rights Reserved.