ROC-Kurve und AUC-Rechner - Bewertung binärer Klassifikatoren

Fortgeschrittene statistische Tests

Geben Sie unten die Vorhersagescores und die echten Labels Ihres Modells ein, um eine ROC-Kurve zu erzeugen und die Fläche unter der Kurve (AUC) zu berechnen.

ROC-Kurve und AUC-Rechner - Bewertung binärer Klassifikatoren
Fortgeschrittene statistische Tests

Geben Sie eine Beobachtung pro Zeile im Format 'score,label' ein. Die Labels müssen 0 oder 1 sein. Beispiel: 0.9,1

Über den ROC-Kurven- und AUC-Rechner

Die ROC-Kurve (Receiver Operating Characteristic) ist ein grafisches Werkzeug zur Bewertung der Trennfähigkeit eines binären Klassifikationsmodells über alle möglichen Entscheidungsschwellen hinweg. Sie trägt die True-Positive-Rate (TPR, oder Sensitivität) auf der y-Achse gegen die False-Positive-Rate (FPR, oder 1 − Spezifität) auf der x-Achse auf, während die Entscheidungsschwelle von hoch nach niedrig variiert. Sensitivität (TPR) ist der Anteil der tatsächlich positiven Fälle, die korrekt erkannt werden: TPR = TP / (TP + FN). Spezifität ist der Anteil der tatsächlich negativen Fälle, die korrekt erkannt werden: Spezifität = TN / (TN + FP). FPR = 1 − Spezifität = FP / (TN + FP). Ein perfekter Klassifikator würde durch die linke obere Ecke (FPR = 0, TPR = 1) verlaufen, während die ROC-Kurve eines Zufallsklassifikators auf der Diagonalen von (0,0) nach (1,1) liegt. Die Fläche unter der ROC-Kurve (AUC) fasst die gesamte Klassifikationsleistung als einen einzelnen Skalar zusammen. Eine AUC von 1.0 bedeutet perfekte Trennschärfe; 0.5 bedeutet keine Trennschärfe (entspricht Zufallsraten). Üblicherweise gilt: AUC ≥ 0.9 als hervorragend, 0.8–0.9 als gut, 0.7–0.8 als mäßig und unter 0.7 als schwach. Dieser Rechner berechnet die AUC mit der Trapezregel, die die Fläche unter der stufenförmigen ROC-Kurve integriert. Außerdem bestimmt er den optimalen Entscheidungsschwellenwert mithilfe der Youden-J-Statistik (J = Sensitivität + Spezifität − 1), die die Summe aus Sensitivität und Spezifität maximiert und einen ausgewogenen Betriebspunkt liefert. ROC-Kurven und AUC sind Standardkennzahlen in der medizinischen Diagnostik (wenn Klassifikatoren Kranke von Gesunden trennen), im maschinellen Lernen (Bewertung binärer Modelle) und im Kredit-Scoring. Anders als die Genauigkeit ist AUC unempfindlich gegenüber Klassenungleichgewicht und daher besonders wertvoll, wenn positive Fälle selten sind. Dieses Werkzeug akzeptiert jede Liste von Score-Label-Paaren. Scores können Wahrscheinlichkeiten, Logit-Werte oder beliebige kontinuierliche Rangwerte sein. Labels müssen 0 (negative Klasse) oder 1 (positive Klasse) sein. Die Ergebnistabelle zeigt alle ROC-Betriebspunkte, wobei die Zeile mit dem optimalen Schwellenwert zur einfachen Orientierung hervorgehoben wird.

ROC-Kurven-Beispiele

Diese Beispiele zeigen, wie AUC-Werte verschiedenen Leistungsniveaus eines Klassifikators entsprechen.

Score-Label-PaareAUCInterpretation
0.9,1 / 0.8,1 / 0.3,0 / 0.2,0AUC = 1.0Perfekter Klassifikator
0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0AUC ≈ 0.9375Hervorragende Trennschärfe
0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1AUC ≈ 0.33Umgekehrte Rangfolge — schlechter als Zufall

So verwenden Sie diesen Rechner

  1. Geben Sie eine Beobachtung pro Zeile im Format 'score,label' ein, wobei score eine numerische Vorhersage und label 0 oder 1 ist.
  2. Stellen Sie sicher, dass Ihre Daten sowohl positive (label=1) als auch negative (label=0) Beispiele enthalten.
  3. Klicken Sie auf 'Berechnen', um die AUC zu ermitteln und die ROC-Kurvenpunkte zu erzeugen.
  4. Überprüfen Sie den AUC-Wert und seine qualitative Einordnung (hervorragend, gut, mäßig oder schwach).
  5. Suchen Sie die hervorgehobene Zeile mit dem optimalen Schwellenwert, um den besten Kompromiss zwischen Sensitivität und Spezifität zu finden.

Häufig gestellte Fragen

Was ist AUC und warum ist sie wichtig?
AUC (Area Under the ROC Curve) misst die Fähigkeit eines Klassifikators, positive Instanzen über alle Schwellen hinweg höher als negative Instanzen zu rangieren. Sie ist schwellenunabhängig und robust gegenüber Klassenungleichgewicht, weshalb sie ein Standardmaß für binäre Klassifikationsmodelle in Medizin, maschinellem Lernen und Finanzwesen ist.
Was bedeutet eine AUC von 0.5?
Eine AUC von 0.5 bedeutet, dass der Klassifikator nicht besser ist als Zufallsraten — er ordnet positive und negative Instanzen zufällig. Jede AUC unter 0.5 deutet darauf hin, dass der Klassifikator systematisch falsch liegt, und durch Umkehren seiner Vorhersagen würde eine Leistung über Zufall erzielt.
Wie wird der optimale Schwellenwert ausgewählt?
Dieser Rechner verwendet die Youden-J-Statistik (J = Sensitivität + Spezifität − 1), um den optimalen Schwellenwert auszuwählen. Sie maximiert die Summe aus Sensitivität und Spezifität und liefert so einen ausgewogenen Betriebspunkt. Alternative Kriterien wie Kostenminimierung oder Maximierung des F1-Scores können je nach Anwendung andere optimale Schwellenwerte ergeben.
Kann AUC für Mehrklassenklassifikation verwendet werden?
Die Standard-AUC ist für binäre Klassifikation definiert. Für Mehrklassenprobleme kann für jede Klasse separat eine One-vs-Rest-AUC berechnet oder eine Makro- bzw. gewichtete Durchschnitts-AUC berichtet werden. Dieser Rechner unterstützt nur binäre Klassifikation (Labels 0 und 1).
Was ist der Unterschied zwischen Sensitivität und Spezifität?
Sensitivität (Recall oder TPR) misst, wie gut der Klassifikator echte Positive erkennt: TP / (TP + FN). Spezifität misst, wie gut er Fehlalarme vermeidet: TN / (TN + FP). Hohe Sensitivität ist entscheidend, wenn das Übersehen eines positiven Falls teuer ist (z. B. Krankheitscreening). Hohe Spezifität ist wichtig, wenn Fehlalarme teuer sind (z. B. Bestätigungstests).
Ist AUC immer die beste Metrik zur Modellevaluation?
AUC eignet sich hervorragend zum Vergleichen von Modellen über Schwellen hinweg und für unausgewogene Datensätze, ist aber nicht immer die beste Wahl. Bei stark unausgewogenen Daten ist die Precision-Recall-AUC (PR-AUC) oft aussagekräftiger. Für einen bestimmten Entscheidungsschwellenwert können Metriken wie F1-Score, Genauigkeit oder Matthews-Korrelationskoeffizient relevanter sein.