Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)

使用非参数 Wilcoxon 秩和检验(Mann-Whitney U)比较两组独立样本。无需正态性假设,即可获得 U 统计量、Z 分数和 p 值。

请输入两组独立样本(用逗号分隔的数字),选择显著性水平和检验方向,然后点击计算。

Wilcoxon Rank Sum Test Calculator (Mann-Whitney U)
使用非参数 Wilcoxon 秩和检验(Mann-Whitney U)比较两组独立样本。无需正态性假设,即可获得 U 统计量、Z 分数和 p 值。

关于 Wilcoxon 秩和检验

Wilcoxon秩和检验又称 Mann-Whitney U 检验,是一种非参数统计假设检验,用于判断两组独立样本是否来自具有相同分布的总体。与独立样本 t 检验不同,它不要求数据服从正态分布,因此非常适合有序数据、偏态分布或无法验证正态性的小样本。 该检验最初由 Frank Wilcoxon 于 1945 年提出,随后由 Mann 和 Whitney 于 1947 年扩展为如今最常用的形式。Mann-Whitney U 统计量衡量的是一组取值大于另一组取值的次数。相对于另一组来说,某个样本的 U 值越大,就越能说明两个总体的中位数或中心趋势存在差异。 计算过程首先将两组样本合并,并按从小到大为所有观测值排序。若存在并列值,则这些值会取得它们本应占据的秩的平均值。然后分别计算每组的秩和,并据此得到 U 统计量。对于较大的样本,U 的分布可很好地用正态分布近似,因此会使用 Z 分数来计算 p 值。 零假设认为两个总体完全相同——它们的分布不存在系统性差异。备择假设可以是双尾(存在任意差异)、右尾(第1组倾向于更大)或左尾(第1组倾向于更小)。应根据研究问题在收集数据之前确定合适的尾部,以避免第一类错误膨胀。 p 值需要结合所选显著性水平 α 来解释(通常为 0.05)。如果 p < α,则拒绝零假设,并认为两组之间存在统计显著差异;如果 p ≥ α,则证据不足,不能认为存在差异。 该检验在医学中常用于比较治疗组与对照组的患者结局,尤其是在结局未必服从正态分布时。在心理学中,它可用于比较不同人口群体的李克特量表问卷结果。在生态学中,它可用于检验两个地点的测量值是否存在显著差异。在教育领域,它可用于比较采用不同教学方法的学生成绩。 为了获得最佳结果,请确保每个样本内部的观测彼此独立,且两组样本之间也相互独立。当底层分布形状相近时,该检验对位置差异(中位数平移)的检出能力最强。

实用示例

浏览这些常见场景,了解 Wilcoxon 秩和检验的应用方式。

输入输出说明
S1: 7, 8, 8, 9, 10, 12 — S2: 9, 11, 12, 13, 14, 15 — α=0.05, two-tailedU=4, Z≈−2.24, p≈0.025药物恢复时间——差异显著;药物组恢复更快。
S1: 85, 90, 78, 92, 88, 76 — S2: 72, 80, 81, 75, 68, 79 — α=0.05, right-tailedU=6, Z≈1.92, p≈0.027教学方法得分——新方法显著提高了分数。
S1: 120, 125, 130, 110, 115, 122, 128 — S2: 130, 135, 140, 128, 132, 138, 142 — α=0.01, left-tailedU=2, Z≈−2.88, p≈0.002肥料作物产量——B肥料的产量显著更高。

如何使用计算器

  1. 在第一个输入框中输入样本1的数值,使用逗号或空格分隔。
  2. 在第二个输入框中输入独立的样本2数值。
  3. 点击对应按钮选择显著性水平 α(0.01、0.05 或 0.10)。
  4. 选择尾部类型:双尾表示任何差异;如果预期样本1更大,选择右尾;如果预期样本1更小,选择左尾。
  5. 点击计算即可查看 U 统计量、Z 分数、p 值和统计结论。

常见问题

Wilcoxon秩和检验和 Mann-Whitney U 检验有什么区别?
它们是同一个检验,只是名称和表述不同。Wilcoxon 将检验统计量定义为秩和,而 Mann 和 Whitney 将 U 定义为偏向某一组的成对比较次数。这两个统计量线性相关,得到的 p 值完全相同。
什么时候应该使用 Wilcoxon 秩和检验而不是 t 检验?
当数据为有序变量、正态性假设被违反(尤其是小样本时)或存在离群值时,应使用 Wilcoxon 检验。对于来自近似正态分布的大样本,t 检验和 Wilcoxon 检验的结果通常相近,但 t 检验的统计功效略高。
双尾检验和单尾检验是什么意思?
双尾检验用于检查两组之间是否存在任何方向的差异。右尾检验用于检查样本1是否在随机意义上大于样本2,左尾检验则检查相反情况。尾部类型应在收集数据之前根据你的假设确定。
计算器如何处理并列值?
合并数据集中的并列值会取它们应占秩位的平均值。例如,如果两个观测并列第3和第4名,则两者都记为 3.5。这样的中秩修正可确保秩和有效,并使 Z 近似保持准确。
需要多大的样本量才能得到可靠的 Z 分数近似?
通常认为当 n₁ 和 n₂ 都至少为 8–10 时,正态近似就足够了。对于非常小的样本(n < 8),应使用 U 的精确分布。本计算器使用正态近似,因此在样本很小时请谨慎解释 p 值。
可以将此检验用于非数值或有序数据吗?
可以。只要你能够为观测赋予有意义的秩,例如李克特量表回应(1=非常不同意,5=非常同意),Wilcoxon 秩和检验就是合适的。你只需要能够对观测进行排序,不需要精确的数值间距。