ROC 曲線與 AUC 計算器 - 二元分類器評估
進階統計檢定
在下方輸入模型的預測分數與真實標籤,即可產生 ROC 曲線並計算曲線下面積(AUC)。
ROC 曲線與 AUC 計算器 - 二元分類器評估
進階統計檢定
每行輸入一筆觀測值,格式為 'score,label'。標籤必須是 0 或 1。範例:0.9,1
關於 ROC 曲線與 AUC 計算器
受試者工作特徵(ROC)曲線是一種用來評估二元分類模型在所有可能決策閾值下區辨能力的圖形工具。當決策閾值由高到低變化時,它會將縱軸的真陽性率(TPR,或靈敏度)與橫軸的假陽性率(FPR,或 1 − 特異度)繪製出來。
靈敏度(TPR)是被正確辨識的實際陽性所占比例:TPR = TP / (TP + FN)。特異度是被正確辨識的實際陰性所占比例:特異度 = TN / (TN + FP)。FPR = 1 − 特異度 = FP / (TN + FP)。完美分類器會通過左上角(FPR = 0,TPR = 1),而隨機分類器的 ROC 曲線則位於從 (0,0) 到 (1,1) 的對角線上。
ROC 曲線下面積(AUC)會將整體分類效能濃縮成單一純量。AUC 為 1.0 代表完全區辨;0.5 代表沒有區辨能力(等同隨機猜測)。一般而言,AUC ≥ 0.9 為極佳,0.8–0.9 為良好,0.7–0.8 為一般,低於 0.7 為較差。
本計算器使用梯形法計算 AUC,也就是對階梯函數形式的 ROC 曲線下方面積進行積分。它還會使用 Youden 的 J 統計量(J = 靈敏度 + 特異度 − 1)找出最佳決策閾值,該指標會最大化靈敏度與特異度之和,並提供平衡的操作點。
ROC 曲線與 AUC 是醫學診斷(二元分類器區分患病與健康者)、機器學習(二元分類模型評估)以及信用評分中的標準評估指標。與準確率不同,AUC 不受類別不平衡影響,因此在陽性個案稀少時特別有價值。
此工具接受任何分數-標籤配對清單。分數可以是機率、logit 值或任何連續排序值。標籤必須是 0(負類)或 1(正類)。結果表會顯示所有 ROC 操作點,並高亮最佳閾值列以便快速參考。
ROC 曲線範例
這些範例顯示不同的 AUC 值如何對應不同層級的分類器表現。
| 分數、標籤配對 | AUC | 解讀 |
|---|---|---|
| 0.9,1 / 0.8,1 / 0.3,0 / 0.2,0 | AUC = 1.0 | 完美分類器 |
| 0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0 | AUC ≈ 0.9375 | 區辨能力極佳 |
| 0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1 | AUC ≈ 0.33 | 反向排序——比隨機還差 |
如何使用此計算器
- 每行輸入一筆觀測值,格式為 'score,label',其中 score 為數值預測,label 為 0 或 1。
- 確保資料中同時包含正類(label=1)與負類(label=0)樣本。
- 點擊 '計算' 以計算 AUC 並產生 ROC 曲線點。
- 查看 AUC 數值及其定性解讀(極佳、良好、一般或較差)。
- 找到表格中高亮的最佳閾值列,以取得最平衡的靈敏度/特異度權衡。
常見問題
什麼是 AUC,為什麼它很重要?
AUC(ROC 曲線下面積)衡量分類器在所有閾值下將正樣本排在負樣本之前的能力。它不依賴閾值,且對類別不平衡具有魯棒性,因此是醫學、機器學習與金融領域二元分類模型的標準基準。
AUC 為 0.5 代表什麼?
AUC 為 0.5 表示分類器的表現不比隨機猜測更好——它會隨機地對正負樣本排序。任何低於 0.5 的 AUC 都表示分類器系統性地判斷錯誤,反轉其預測後會得到高於隨機的表現。
最佳閾值是如何選擇的?
本計算器使用 Youden 的 J 統計量(J = 靈敏度 + 特異度 − 1)來選擇最佳閾值。它會最大化靈敏度與特異度之和,提供一個平衡的操作點。根據應用情境不同,最小化成本或最大化 F1 分數等其他準則可能會得到不同的最佳閾值。
AUC 可以用於多分類嗎?
標準 AUC 是為二元分類定義的。對於多分類問題,可以分別為每個類別計算 one-vs-rest AUC,或報告宏平均或加權平均 AUC。此計算器僅支援二元分類(標籤 0 和 1)。
靈敏度和特異度有什麼差別?
靈敏度(召回率或 TPR)衡量分類器偵測真正陽性的能力:TP / (TP + FN)。特異度衡量其避免誤報的能力:TN / (TN + FP)。當漏掉陽性的代價很高時(例如疾病篩檢),高靈敏度至關重要;當誤報的代價很高時(例如確認性檢驗),高特異度更重要。
AUC 總是最適合模型評估的指標嗎?
AUC 很適合用來跨閾值比較模型以及處理類別不平衡資料,但並不總是最佳選擇。對於高度不平衡的資料,精確率-召回率曲線下面積(PR-AUC)通常更有資訊量。對於特定決策閾值,F1 分數、準確率或馬修斯相關係數可能更相關。