AI モデル パフォーマンスを決定するための評価指標
テクノロジー企業で働いている人に、彼らがより早く成長し、世界を変えるために役立つものは何かと聞くと、彼らは「データ」と答えるでしょう。何兆ものデータセットを分析し、人が認識しにくい一般的なパターンを見つけるために、企業はAIに目を向けています。
AIベースのシステムは、これらのデータセットに基づいて人よりもはるかに迅速に意思決定をおこなうことができます。 しかし、システムが正常に機能し、エンドユーザーにリリースされても問題がないということを、どのように知るのでしょうか。
他のシステムと同様に、AIベースのシステムは、評価指標という形で受け入れ基準を持っています。これからの指標は、AIモデルのパフォーマンスが受け入れ可能なレベルにあるかどうかを判定します。
一般的に使用される評価指標は、以下の3つがあります。
- Accuracy (正答率・精度)
- Precision (適合率)
- Recall (再現率)
AIモデルを学習する前に、開発チームはこれらの指標の許容値をまとめて決定し、AIモデルのパフォーマンスを決定する必要があります。
AIモデルの評価指標を計算する方法
これらの指標を計算する方法は次のとおりです。
- 真陽性(TP:True positives):YESを予測し、実際の出力がYESの場合
- 真陰性(TN:True negatives):NOを予測し、実際の出力がNOの場合
- 偽陽性(FP:False positives):YESと予測し、実際の出力がNOの場合
- 偽陰性(FN:False negatives):NOを予測し、実際の出力がYESの場合
パフォーマンスの例
たとえば、マグカップにひびが入っているかどうかを判断するために、AIモデルを構築するとします。 3つのマグカップを取り、このAIモデルのパフォーマンスをどのように評価するかを考えてみましょう。
- マグカップ 1:ひび割れ無し(正しい予測:NO)
- マグカップ 2:ひび割れ有り(正しい予測:YES)
- マグカップ 3:ひび割れのデザインであり、本当のひび割れではない(正しい予測:NO)
AIモデルは、上記のマグカップを分析し、次の予測を提供します。
- マグカップ 1:ひび割れ無し(実際の出力:NO)
- マグカップ 2:ひび割れ有り(実際の出力:YES)
- マグカップ 3:ひび割れ有り(実際の出力:YES)
最後のケース(マグカップ 3)では、マグカップに本当のひび割れは入っていませんが、そのデザインはひび割れに見え、AIモデルを混乱させて誤った出力を提供しました。
この例の評価指標を適用してみましょう。
AIモデルの学習を始める前に、開発チームはこれらの各指標の許容値を決定しておく必要があります。開発チームが、正答率90%以上、適合率90%以上、再現率90%以上にすると決定したとします。 その場合、このAIモデルは、3つの受け入れ基準のうち2つの基準を満たしていません。
まとめ
ROC曲線(Receiver Operating Characteristic)、AUC(Area Under the Curve)、Fスコア(F-score)などのAIモデルのパフォーマンスを決定するための評価指標があります。 それらはすべて、回帰、分類、クラスタリングなど、使用されるAIモデルのタイプによって異なります。
AIを使用するということは、単にデータをモデルにフィードしてから、結果が出たものを受け入れる必要があるという意味ではありません。 テスターは、AIモデルが期待どおりに機能しているかどうかを実際に判断でき、エンドユーザーがシステムを使用したときに予期しない結果が生じないようにします。
作者について:
Raj Subrameyerは、国際的な基調講演者、ライター、およびキャリアコーチであり、技術的なバックグラウンドを豊富に持っています。 彼のBlog(rajsubra.com/blog/)では、読者の生活に役立ち、インスピレーションを与えるニュース、リソースを投稿しています。
(この記事は、開発元 Ranorex 社 Blog 「Evaluation Metrics to Determine AI Model Performance」2021年1月20日の翻訳記事です。)