Curva ROC y calculadora AUC - Evaluación de clasificador binario
Pruebas estadísticas avanzadas
Ingresa abajo las puntuaciones de predicción de tu modelo y las etiquetas reales para generar una curva ROC y calcular el área bajo la curva (AUC).
Curva ROC y calculadora AUC - Evaluación de clasificador binario
Pruebas estadísticas avanzadas
Ingresa una observación por línea en formato 'score,label'. Las etiquetas deben ser 0 o 1. Ejemplo: 0.9,1
Acerca de la calculadora de curva ROC y AUC
La curva ROC (Receiver Operating Characteristic) es una herramienta gráfica para evaluar la capacidad de discriminación de un modelo de clasificación binaria a través de todos los umbrales de decisión posibles. Representa la tasa de verdaderos positivos (TPR, o sensibilidad) en el eje y frente a la tasa de falsos positivos (FPR, o 1 − especificidad) en el eje x a medida que el umbral de decisión varía de alto a bajo.
La sensibilidad (TPR) es la proporción de positivos reales correctamente identificados: TPR = TP / (TP + FN). La especificidad es la proporción de negativos reales correctamente identificados: Especificidad = TN / (TN + FP). La FPR = 1 − Especificidad = FP / (TN + FP). Un clasificador perfecto pasaría por la esquina superior izquierda (FPR = 0, TPR = 1), mientras que la curva ROC de un clasificador aleatorio se encuentra sobre la diagonal de (0,0) a (1,1).
El área bajo la curva ROC (AUC) resume el rendimiento global de clasificación como un único escalar. Un AUC de 1.0 representa una discriminación perfecta; 0.5 representa ausencia de discriminación (equivalente a adivinar al azar). Convencionalmente: AUC ≥ 0.9 es excelente, 0.8–0.9 es buena, 0.7–0.8 es aceptable y por debajo de 0.7 es deficiente.
Esta calculadora calcula el AUC mediante la regla del trapecio, que integra el área bajo la curva ROC escalonada. También identifica el umbral de decisión óptimo usando la estadística J de Youden (J = sensibilidad + especificidad − 1), que maximiza la suma de sensibilidad y especificidad y proporciona un punto de operación equilibrado.
Las curvas ROC y el AUC son métricas estándar de evaluación en diagnóstico médico (donde los clasificadores separan pacientes enfermos de sanos), aprendizaje automático (evaluación de modelos de clasificación binaria) y scoring crediticio. A diferencia de la exactitud, el AUC es insensible al desequilibrio de clases, lo que lo hace especialmente valioso cuando los casos positivos son raros.
Esta herramienta acepta cualquier lista de pares puntuación-etiqueta. Las puntuaciones pueden ser probabilidades, valores logit o cualquier ordenamiento continuo. Las etiquetas deben ser 0 (clase negativa) o 1 (clase positiva). La tabla de resultados muestra todos los puntos operativos de la ROC, con la fila del umbral óptimo resaltada para facilitar la consulta.
Ejemplos de curva ROC
Estos ejemplos muestran cómo los valores de AUC corresponden a distintos niveles de rendimiento del clasificador.
| Pares puntuación, etiqueta | AUC | Interpretación |
|---|---|---|
| 0.9,1 / 0.8,1 / 0.3,0 / 0.2,0 | AUC = 1.0 | Clasificador perfecto |
| 0.9,1 / 0.8,1 / 0.75,1 / 0.6,0 / 0.55,1 / 0.45,0 / 0.4,0 / 0.35,0 | AUC ≈ 0.9375 | Discriminación excelente |
| 0.9,0 / 0.8,1 / 0.7,0 / 0.6,1 / 0.5,0 / 0.4,1 | AUC ≈ 0.33 | Orden inverso — peor que el azar |
Cómo usar esta calculadora
- Ingresa una observación por línea en el formato 'score,label', donde score es una predicción numérica y label es 0 o 1.
- Asegúrate de que tus datos incluyan ejemplos tanto positivos (label=1) como negativos (label=0).
- Haz clic en 'Calcular' para obtener el AUC y generar los puntos de la curva ROC.
- Revisa el valor de AUC y su interpretación cualitativa (excelente, buena, aceptable o deficiente).
- Busca la fila del umbral óptimo (resaltada en la tabla) para el mejor equilibrio entre sensibilidad y especificidad.
Preguntas frecuentes
¿Qué es AUC y por qué es importante?
AUC (Área Bajo la Curva ROC) mide la capacidad de un clasificador para ordenar instancias positivas por encima de las negativas en todos los umbrales. Es independiente del umbral y robusto ante el desequilibrio de clases, por lo que es una referencia estándar para modelos de clasificación binaria en medicina, aprendizaje automático y finanzas.
¿Qué significa un AUC de 0.5?
Un AUC de 0.5 significa que el clasificador no lo hace mejor que adivinar al azar: ordena instancias positivas y negativas aleatoriamente. Cualquier AUC por debajo de 0.5 sugiere que el clasificador está sistemáticamente equivocado, y al invertir sus predicciones se obtendría un rendimiento superior al azar.
¿Cómo se selecciona el umbral óptimo?
Esta calculadora usa la estadística J de Youden (J = sensibilidad + especificidad − 1) para seleccionar el umbral óptimo. Maximiza la suma de sensibilidad y especificidad, proporcionando un punto de operación equilibrado. Criterios alternativos, como minimizar el coste o maximizar la puntuación F1, pueden producir umbrales óptimos distintos según la aplicación.
¿Se puede usar AUC para clasificación multiclase?
El AUC estándar se define para clasificación binaria. En problemas multiclase, se puede calcular un AUC one-vs-rest para cada clase por separado, o informar un AUC macropromedio o ponderado. Esta calculadora solo admite clasificación binaria (etiquetas 0 y 1).
¿Cuál es la diferencia entre sensibilidad y especificidad?
La sensibilidad (recall o TPR) mide qué tan bien el clasificador detecta los verdaderos positivos: TP / (TP + FN). La especificidad mide qué tan bien evita falsas alarmas: TN / (TN + FP). Una sensibilidad alta es crucial cuando omitir un caso positivo es costoso (por ejemplo, cribado de enfermedades). Una especificidad alta es importante cuando los falsos positivos son costosos (por ejemplo, pruebas confirmatorias).
¿Es AUC siempre la mejor métrica para evaluar un modelo?
AUC es excelente para comparar modelos a través de umbrales y para conjuntos desbalanceados, pero no siempre es la mejor opción. Para datos muy desbalanceados, el área bajo la curva Precisión-Recall (PR-AUC) suele ser más informativa. Para un umbral de decisión específico, métricas como F1-score, exactitud o coeficiente de correlación de Matthews pueden ser más relevantes.