ROC曲線とAUC計算器 - 二値分類器評価

高度な統計検定

下にモデルの予測スコアと真のラベルを入力すると、ROC曲線を生成し、曲線下面積(AUC)を計算できます。

ROC曲線とAUC計算器 - 二値分類器評価
高度な統計検定

1行につき1件、'score,label' の形式で入力してください。ラベルは 0 または 1 でなければなりません。例:0.9,1

ROC曲線とAUC計算器について

受信者動作特性(ROC)曲線は、二値分類モデルが取りうるすべての判定しきい値にわたって、識別能力を評価するための図示ツールです。しきい値が高い方から低い方へ変化するにつれて、縦軸に真陽性率(TPR、または感度)、横軸に偽陽性率(FPR、または 1 − 特異度)をプロットします。 感度(TPR)は、実際の陽性を正しく検出できた割合です:TPR = TP / (TP + FN)。特異度は、実際の陰性を正しく識別できた割合です:特異度 = TN / (TN + FP)。FPR = 1 − 特異度 = FP / (TN + FP) です。完全な分類器は左上隅(FPR = 0、TPR = 1)を通過し、ランダムな分類器の ROC 曲線は (0,0) から (1,1) への対角線上に位置します。 ROC曲線下面積(AUC)は、全体の分類性能を1つのスカラーで要約します。AUC が 1.0 なら完全な識別能力、0.5 なら識別能力なし(ランダム予測と同等)を意味します。一般に、AUC ≥ 0.9 は非常に良い、0.8–0.9 は良い、0.7–0.8 はまずまず、0.7 未満は低いとされます。 この計算器は台形則を用いて AUC を計算し、段階関数として表現された ROC 曲線の下の面積を積分します。また、Youden の J 統計量(J = 感度 + 特異度 − 1)を用いて最適なしきい値を特定します。これは感度と特異度の合計を最大化し、バランスの取れた動作点を提供します。 ROC曲線とAUCは、医療診断(疾患と健常者を分ける分類器)、機械学習(二値分類モデルの評価)、信用スコアリングで標準的な評価指標です。正解率とは異なり、AUC はクラス不均衡の影響を受けにくいため、陽性例が少ない場合に特に有用です。 このツールは、任意のスコアとラベルの組を受け付けます。スコアは確率、logit 値、または任意の連続的な順位付け値で構いません。ラベルは 0(負例)または 1(陽例)である必要があります。結果テーブルにはすべての ROC 動作点が表示され、最適なしきい値の行が見やすくハイライトされます。

ROC曲線の例

これらの例は、AUC 値が分類器の性能レベルとどのように対応するかを示しています。

スコア、ラベルの組AUC解釈
0.9,1 / 0.8,1 / 0.3,0 / 0.2,0AUC = 1.0完全な分類器
0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0AUC ≈ 0.9375非常に高い判別能力
0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1AUC ≈ 0.33逆順の順位付け — ランダムより悪い

この計算器の使い方

  1. 各行に 1 件ずつ、'score,label' 形式で入力します。score は数値予測、label は 0 または 1 です。
  2. データに陽性(label=1)と陰性(label=0)の両方が含まれていることを確認します。
  3. 「計算」をクリックして AUC を算出し、ROC 曲線の点を生成します。
  4. AUC 値と、その定性的な解釈(非常に良い、良い、まずまず、低い)を確認します。
  5. 表でハイライトされた最適なしきい値の行を見つけ、感度と特異度の最適なバランスを確認します。

よくある質問

AUC とは何ですか?なぜ重要なのですか?
AUC(ROC曲線下面積)は、すべてのしきい値にわたって、分類器が陽性例を陰性例より高く順位付けできる能力を測定します。しきい値に依存せず、クラス不均衡にも強いため、医療・機械学習・金融における二値分類モデルの標準的な指標です。
AUC が 0.5 というのはどういう意味ですか?
AUC が 0.5 というのは、分類器の性能がランダム予測と変わらないことを意味します。つまり、陽性と陰性を無作為に順位付けしている状態です。0.5 未満の AUC は、分類器が体系的に誤っており、予測を反転すると偶然以上の性能が得られることを示します。
最適なしきい値はどのように選ばれますか?
この計算器は Youden の J 統計量(J = 感度 + 特異度 − 1)を用いて最適なしきい値を選択します。感度と特異度の合計を最大化し、バランスの取れた動作点を提供します。コスト最小化や F1 スコア最大化などの別基準では、用途に応じて異なる最適しきい値になることがあります。
AUC は多クラス分類に使えますか?
標準的な AUC は二値分類用に定義されています。多クラス問題では、各クラスごとに one-vs-rest AUC を計算するか、マクロ平均または加重平均の AUC を報告します。この計算器は二値分類(ラベル 0 と 1)のみをサポートします。
感度と特異度の違いは何ですか?
感度(再現率または TPR)は、真の陽性をどれだけ検出できるかを表し、TP / (TP + FN) で計算します。特異度は、誤警報をどれだけ避けられるかを表し、TN / (TN + FP) で計算します。陽性の見逃しコストが高い場合(例:疾患スクリーニング)は高い感度が重要で、偽陽性のコストが高い場合(例:確認検査)は高い特異度が重要です。
AUC は常にモデル評価の最良指標ですか?
AUC はしきい値をまたいだモデル比較や不均衡データに非常に有用ですが、常に最良とは限りません。極端に不均衡なデータでは、Precision-Recall AUC(PR-AUC)の方が有益なことが多いです。特定の判定しきい値では、F1 スコア、正解率、Matthews 相関係数の方が関連性が高い場合があります。