Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)

Vergleiche zwei unabhängige Stichproben mit dem nichtparametrischen Wilcoxon-Rangsummentest (Mann-Whitney U). Erhalte U, Z und p ohne Normalverteilungsannahme.

Gib deine beiden unabhängigen Stichproben als durch Kommas getrennte Zahlen ein, wähle ein Signifikanzniveau und den Testtyp und klicke dann auf Berechnen.

Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)
Vergleiche zwei unabhängige Stichproben mit dem nichtparametrischen Wilcoxon-Rangsummentest (Mann-Whitney U). Erhalte U, Z und p ohne Normalverteilungsannahme.

Über den Wilcoxon-Rangsummentest

Der Wilcoxon-Rangsummentest, auch bekannt als Mann-Whitney-U-Test, ist ein nichtparametrischer statistischer Hypothesentest, mit dem festgestellt wird, ob zwei unabhängige Stichproben aus Populationen mit derselben Verteilung stammen. Anders als der t-Test für unabhängige Stichproben setzt er keine Normalverteilung der Daten voraus und ist daher eine leistungsstarke Alternative für ordinale Daten, schiefe Verteilungen oder kleine Stichproben, bei denen eine Normalität nicht nachgewiesen werden kann. Der Test wurde ursprünglich 1945 von Frank Wilcoxon vorgeschlagen und 1947 von Mann und Whitney in die heute gebräuchliche Form erweitert. Die Mann-Whitney-U-Statistik zählt, wie oft ein Wert aus einer Gruppe einen Wert aus der anderen Gruppe übertrifft. Ein großes U für eine Stichprobe im Vergleich zur anderen liefert Hinweise darauf, dass sich die Mediane oder zentralen Tendenzen der beiden Populationen unterscheiden. Das Verfahren beginnt damit, beide Stichproben zusammenzuführen und alle Beobachtungen von klein nach groß zu rangieren. Gebundene Werte erhalten den Durchschnitt der Ränge, die sie sonst einnehmen würden. Danach wird die Rangsumme jeder Gruppe separat berechnet; aus diesen Rangsumme werden die U-Statistiken abgeleitet. Bei größeren Stichproben lässt sich die Verteilung von U gut durch eine Normalverteilung annähern, und ein Z-Wert wird zur Berechnung des p-Werts verwendet. Die Nullhypothese besagt, dass die beiden Populationen identisch sind — es gibt keinen systematischen Unterschied in ihren Verteilungen. Die Alternativhypothese kann zweiseitig (beliebiger Unterschied), rechtsseitig (Gruppe 1 ist tendenziell größer) oder linksseitig (Gruppe 1 ist tendenziell kleiner) sein. Die richtige Seitenwahl hängt von deiner Fragestellung ab und sollte vor der Datenerhebung festgelegt werden, um eine Erhöhung des Fehlers 1. Art zu vermeiden. Der p-Wert wird im Verhältnis zum gewählten Signifikanzniveau α (üblich 0,05) interpretiert. Wenn p < α, verwirfst du die Nullhypothese und schließt auf einen statistisch signifikanten Unterschied zwischen den Gruppen. Wenn p ≥ α, gibt es nicht genügend Evidenz für einen Unterschied. Der Test wird in der Medizin häufig verwendet, um Behandlung und Kontrolle zu vergleichen, wenn das Ergebnis möglicherweise nicht normalverteilt ist. In der Psychologie kann er Likert-Antworten zwischen demografischen Gruppen vergleichen. In der Ökologie lässt sich damit prüfen, ob sich Messwerte an zwei Standorten signifikant unterscheiden. In der Bildung vergleicht er Testergebnisse von Schülern, die mit unterschiedlichen Methoden unterrichtet wurden. Für beste Ergebnisse sollten die Beobachtungen innerhalb jeder Stichprobe voneinander unabhängig sein und die beiden Stichproben unabhängig voneinander sein. Der Test ist am stärksten, wenn es um Lageunterschiede (Medianverschiebungen) bei ähnlich geformten Verteilungen geht.

Praktische Beispiele

Sieh dir diese typischen Szenarien an, um zu verstehen, wie der Wilcoxon-Rangsummentest angewendet wird.

EingabeAusgabeHinweis
S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailedU=4, Z≈−2.24, p≈0.025Arznei-Erholungszeiten — signifikanter Unterschied; die Medikamentengruppe erholt sich schneller.
S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailedU=6, Z≈1.92, p≈0.027Punkte zur Lehrmethode — die neue Methode erzielt signifikant höhere Werte.
S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailedU=2, Z≈−2.88, p≈0.002Düngerertrag — Dünger B erzielt signifikant mehr Ertrag.

So verwendest du den Rechner

  1. Gib die numerischen Werte für Stichprobe 1 im ersten Feld ein, getrennt durch Kommas oder Leerzeichen.
  2. Gib die Werte der unabhängigen Stichprobe 2 im zweiten Feld ein.
  3. Wähle das Signifikanzniveau α (0,01, 0,05 oder 0,10), indem du auf die entsprechende Schaltfläche klickst.
  4. Wähle den Seitentyp: Zweiseitig für jeden Unterschied, Rechtsseitig wenn du erwartest, dass Stichprobe 1 größer ist, oder Linksseitig wenn du erwartest, dass Stichprobe 1 kleiner ist.
  5. Klicke auf Berechnen, um U-Statistik, Z-Wert, p-Wert und die statistische Entscheidung zu sehen.

FAQ

Was ist der Unterschied zwischen dem Wilcoxon-Rangsummentest und dem Mann-Whitney-U-Test?
Es handelt sich um denselben Test mit unterschiedlichen Namen und Formulierungen. Wilcoxon definierte die Teststatistik als Rangsumme, während Mann und Whitney U als Anzahl der paarweisen Vergleiche zugunsten einer Gruppe definierten. Die beiden Statistiken sind linear verknüpft und liefern identische p-Werte.
Wann sollte ich den Wilcoxon-Rangsummentest statt des t-Tests verwenden?
Verwende den Wilcoxon-Test, wenn deine Daten ordinal sind, wenn die Normalverteilungsannahme verletzt ist (insbesondere bei kleinen Stichproben) oder wenn Ausreißer vorhanden sind. Bei großen Stichproben aus ungefähr normalverteilten Daten liefern t-Test und Wilcoxon-Test ähnliche Ergebnisse, aber der t-Test hat etwas mehr statistische Power.
Was bedeutet ein zweiseitiger gegenüber einem einseitigen Test?
Ein zweiseitiger Test prüft auf jeden Unterschied zwischen den Gruppen, unabhängig von der Richtung. Ein rechtsseitiger Test prüft, ob Stichprobe 1 stochastisch größer als Stichprobe 2 ist, und ein linksseitiger Test prüft das Gegenteil. Entscheide den Seitentyp immer vor der Datenerhebung anhand deiner Hypothese.
Wie behandelt der Rechner gebundene Werte?
Gebundene Werte im kombinierten Datensatz erhalten den Durchschnitt der Ränge, die sie einnehmen würden. Wenn beispielsweise zwei Beobachtungen die Ränge 3 und 4 teilen, erhalten beide 3.5. Diese Midrank-Korrektur hält die Rangsummen gültig und die Z-Approximation genau.
Welche Stichprobengröße brauche ich für eine verlässliche Z-Wert-Approximation?
Im Allgemeinen gilt die Normalapproximation als ausreichend, wenn sowohl n₁ als auch n₂ mindestens 8–10 betragen. Für sehr kleine Stichproben (n < 8) sollte die exakte Verteilung von U verwendet werden. Dieser Rechner verwendet die Normalapproximation, daher sind p-Werte bei sehr kleinen Stichproben vorsichtig zu interpretieren.
Kann ich diesen Test mit nicht-numerischen oder ordinalen Daten verwenden?
Ja. Solange du den Beobachtungen sinnvolle Ränge zuweisen kannst — etwa bei Likert-Skalen (1=stimme überhaupt nicht zu bis 5=stimme voll zu) — ist der Wilcoxon-Rangsummentest geeignet. Du musst die Beobachtungen nur ordnen können; exakte numerische Abstände sind nicht erforderlich.