Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)
Compara dos muestras independientes con la prueba no paramétrica de Wilcoxon de suma de rangos (Mann-Whitney U). Obtén U, Z y p sin asumir normalidad.
Introduce tus dos muestras independientes como números separados por comas, elige el nivel de significancia y el tipo de cola, y luego haz clic en Calcular.
Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)
Compara dos muestras independientes con la prueba no paramétrica de Wilcoxon de suma de rangos (Mann-Whitney U). Obtén U, Z y p sin asumir normalidad.
Acerca de la prueba de Wilcoxon de suma de rangos
La prueba de Wilcoxon de suma de rangos, también conocida como prueba U de Mann-Whitney, es una prueba de hipótesis estadística no paramétrica que se usa para determinar si dos muestras independientes provienen de poblaciones con la misma distribución. A diferencia de la prueba t para muestras independientes, no asume que los datos sigan una distribución normal, por lo que es una alternativa potente para datos ordinales, distribuciones sesgadas o muestras pequeñas en las que no puede establecerse la normalidad.
La prueba fue propuesta originalmente por Frank Wilcoxon en 1945 y luego ampliada por Mann y Whitney en 1947 hasta la forma que se usa hoy con mayor frecuencia. El estadístico U de Mann-Whitney cuenta cuántas veces un valor de un grupo supera a un valor del otro grupo. Un U grande para una muestra, en relación con la otra, aporta evidencia de que las medianas o las tendencias centrales de las dos poblaciones difieren.
El procedimiento de cálculo comienza combinando ambas muestras y ordenando todas las observaciones de menor a mayor. Los valores empatados reciben el promedio de los rangos que ocuparían de otro modo. Luego se calcula por separado la suma de rangos de cada grupo; a partir de esas sumas se derivan los estadísticos U. Para muestras más grandes, la distribución de U se aproxima bien por una distribución normal, y se usa una puntuación Z para obtener el p-valor.
La hipótesis nula establece que las dos poblaciones son idénticas: no hay una diferencia sistemática en sus distribuciones. La hipótesis alternativa puede ser de dos colas (cualquier diferencia), de cola derecha (el grupo 1 tiende a ser mayor) o de cola izquierda (el grupo 1 tiende a ser menor). La cola adecuada depende de tu pregunta de investigación y debe decidirse antes de recolectar los datos para evitar inflar el error de Tipo I.
El p-valor se interpreta en relación con el nivel de significancia α elegido (comúnmente 0.05). Si p < α, rechazas la hipótesis nula y concluyes que existe una diferencia estadísticamente significativa entre los grupos. Si p ≥ α, no hay evidencia suficiente para concluir que existe una diferencia.
La prueba se usa ampliamente en medicina para comparar resultados de pacientes entre grupos de tratamiento y control cuando el resultado puede no estar distribuido normalmente. En psicología, puede comparar respuestas de encuestas tipo Likert entre grupos demográficos. En ecología, puede probar si las mediciones en dos sitios difieren significativamente. En educación, compara las calificaciones de estudiantes enseñados con métodos distintos.
Para obtener los mejores resultados, asegúrate de que las observaciones dentro de cada muestra sean independientes entre sí y que las dos muestras sean independientes una de la otra. La prueba es más potente para detectar diferencias de ubicación (cambios en la mediana) cuando las distribuciones subyacentes tienen formas similares.
Ejemplos prácticos
Explora estos escenarios comunes para ver cómo se aplica la prueba de Wilcoxon de suma de rangos.
| Entrada | Salida | Nota |
|---|---|---|
| S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailed | U=4, Z≈−2.24, p≈0.025 | Tiempos de recuperación de un medicamento — diferencia significativa; el grupo del fármaco se recupera más rápido. |
| S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailed | U=6, Z≈1.92, p≈0.027 | Puntuaciones de método de enseñanza — el nuevo método produce puntuaciones significativamente más altas. |
| S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailed | U=2, Z≈−2.88, p≈0.002 | Rendimiento de cultivos con fertilizante — el fertilizante B produce significativamente más. |
Cómo usar la calculadora
- Ingresa los valores numéricos de la muestra 1 en el primer campo, separados por comas o espacios.
- Ingresa los valores de la muestra independiente 2 en el segundo campo.
- Selecciona el nivel de significancia α (0.01, 0.05 o 0.10) haciendo clic en el botón correspondiente.
- Elige el tipo de cola: dos colas para cualquier diferencia, cola derecha si esperas que la muestra 1 sea mayor, o cola izquierda si esperas que la muestra 1 sea menor.
- Haz clic en Calcular para ver el estadístico U, la puntuación Z, el p-valor y la decisión estadística.
Preguntas frecuentes
¿Cuál es la diferencia entre la prueba de Wilcoxon de suma de rangos y la prueba U de Mann-Whitney?
Son la misma prueba con nombres y formulaciones distintas. Wilcoxon definió el estadístico como la suma de rangos, mientras que Mann y Whitney definieron U como el conteo de comparaciones por pares que favorecen a un grupo. Los dos estadísticos están relacionados linealmente y producen los mismos p-valores.
¿Cuándo debo usar la prueba de Wilcoxon de suma de rangos en lugar de la prueba t?
Usa la prueba de Wilcoxon cuando tus datos sean ordinales, cuando se viole el supuesto de normalidad (especialmente en muestras pequeñas) o cuando haya valores atípicos. En muestras grandes con distribuciones aproximadamente normales, la prueba t y la prueba de Wilcoxon dan resultados similares, pero la prueba t tiene un poco más de potencia estadística.
¿Qué significa una prueba de dos colas frente a una de una sola cola?
Una prueba de dos colas busca cualquier diferencia entre los grupos, sin importar la dirección. Una prueba de cola derecha verifica si la muestra 1 tiende a ser mayor que la muestra 2, y una prueba de cola izquierda verifica lo contrario. Siempre decide el tipo de cola según tu hipótesis antes de recolectar datos.
¿Cómo maneja la calculadora los valores empatados?
Los valores empatados en el conjunto de datos combinado reciben el promedio de los rangos que ocuparían. Por ejemplo, si dos observaciones empatan en los rangos 3 y 4, ambas reciben 3.5. Esta corrección por rango medio mantiene válidas las sumas de rangos y hace que la aproximación Z siga siendo precisa.
¿Qué tamaño de muestra necesito para una aproximación fiable de la puntuación Z?
Por lo general, la aproximación normal se considera adecuada cuando n₁ y n₂ son al menos 8–10. Para muestras muy pequeñas (n < 8), debe usarse la distribución exacta de U. Esta calculadora usa la aproximación normal, así que interpreta los p-valores con cautela cuando las muestras sean muy pequeñas.
¿Puedo usar esta prueba con datos no numéricos u ordinales?
Sí. Siempre que puedas asignar rangos significativos a las observaciones, como en respuestas de escala Likert (1=totalmente en desacuerdo, 5=totalmente de acuerdo), la prueba de Wilcoxon de suma de rangos es apropiada. Solo necesitas poder ordenar las observaciones; no se requieren distancias numéricas exactas.