2021年2月19日 / 最終更新日時 : 2021年2月19日 user 事例・ソリューション

AI モデルパフォーマンスを決定するための評価指標

テクノロジー企業で働いている人に、彼らがより早く成長し、世界を変えるために役立つものは何かと聞くと、彼らは「データ」と答えるでしょう。何兆ものデータセットを分析し、人が認識しにくい一般的なパターンを見つけるために、企業はAIに目を向けています。

AIベースのシステムは、これらのデータセットに基づいて人よりもはるかに迅速に意思決定をおこなうことができます。しかし、システムが正常に機能し、エンドユーザーにリリースされても問題がないということを、どのように知るのでしょうか。

他のシステムと同様に、AIベースのシステムは、評価指標という形で受け入れ基準を持っています。これからの指標は、AIモデルのパフォーマンスが受け入れ可能なレベルにあるかどうかを判定します。

一般的に使用される評価指標は、以下の3つがあります。

AIモデルを学習する前に、開発チームはこれらの指標の許容値をまとめて決定し、AIモデルのパフォーマンスを決定する必要があります。

これらの指標を計算する方法は次のとおりです。

たとえば、マグカップにひびが入っているかどうかを判断するために、AIモデルを構築するとします。 3つのマグカップを取り、このAIモデルのパフォーマンスをどのように評価するかを考えてみましょう。

AIモデルは、上記のマグカップを分析し、次の予測を提供します。

最後のケース（マグカップ 3）では、マグカップに本当のひび割れは入っていませんが、そのデザインはひび割れに見え、AIモデルを混乱させて誤った出力を提供しました。

この例の評価指標を適用してみましょう。

AIモデルの学習を始める前に、開発チームはこれらの各指標の許容値を決定しておく必要があります。開発チームが、正答率90%以上、適合率90%以上、再現率90%以上にすると決定したとします。その場合、このAIモデルは、3つの受け入れ基準のうち2つの基準を満たしていません。

ROC曲線（Receiver Operating Characteristic）、AUC（Area Under the Curve）、Fスコア（F-score）などのAIモデルのパフォーマンスを決定するための評価指標があります。それらはすべて、回帰、分類、クラスタリングなど、使用されるAIモデルのタイプによって異なります。

AIを使用するということは、単にデータをモデルにフィードしてから、結果が出たものを受け入れる必要があるという意味ではありません。テスターは、AIモデルが期待どおりに機能しているかどうかを実際に判断でき、エンドユーザーがシステムを使用したときに予期しない結果が生じないようにします。

作者について：

Raj Subrameyerは、国際的な基調講演者、ライター、およびキャリアコーチであり、技術的なバックグラウンドを豊富に持っています。彼のBlog（rajsubra.com/blog/）では、読者の生活に役立ち、インスピレーションを与えるニュース、リソースを投稿しています。

（この記事は、開発元 Ranorex 社 Blog 「Evaluation Metrics to Determine AI Model Performance」2021年1月20日の翻訳記事です。）