それでは簡単な例で考えてみましょう。以下の4例では、正解率は全て90%で同じとなっています。例1では、崩壊と予測されたサンプルは現実でも崩壊しているので適合率は100%ですが、健全と予測されたものにも崩壊しているサンプルが含まれているため、再現率は50%になっています。
また、例2には未検出はありませんが、崩壊と予測されたもののうち、半数は健全なので適合率は50%。例3は誤検出/未検出とも同数が含まれており、適合率/再現率とも66.7%となります。
このように、同じ正解率でも適合率や再現率は、さまざまの値をとることがあります。未検出をなくしたければ再現率、誤検出をなくしたい場合には適合率に注目する必要があります。
ここで、最初に示した航空写真をもとにした土砂災害検出結果を改めて見てみましょう。実際には、写真全体の面積に対し、土砂崩壊している面積はかなり小さいのが普通です。もともと実際に崩壊しているサンプルが健全のサンプルに比べて圧倒的に少ない「データの不均衡」が生じていると、例4のように、単に全て「健全」と推定するだけで高い正解率となってしまいます。
データの不均衡は、災害では一般的ですし※4、インフラ点検にAIを適用する際も、構造物全体からみれば損傷が発生している部位はごく一部でしかありません※5。そのため、データの不均衡があるインフラや防災に関する問題では、適合率や再現率が一層重要となります。
冒頭の例のようなセマンティックセグメンテーションやバウンディングボックスなどの物体検出AIの精度を評価するには、下図のようなIoU(Intersection over Union)という考え方も有効です。
実際の領域と予測された領域の重なり合う部分の面積の割合を表したもので、完全に重なると100%となります。上の例1〜3では、FNやFPの分布が異なりますが、TPの占める割合は同じなのでIoUは全て50%という同じ値になっています。一方で、全て健全と予測している例4では0%となっています。
AIの評価には、他にも、特異度やF値などの指標も用いられます。いずれも、混同行列から導かれるもので、適合率(precision)と再現率(recall)の考え方が基本となります。対象や問題に適した定量的な評価を行うことで、AIの開発をより効果的で効率的に行うことができるようになるのです。
Copyright © ITmedia, Inc. All Rights Reserved.