slug
type
status
category
date
summary
tags
password
icon
Wilcoxon Signed-Rank Test in Details
如果你曾经遇到过两组配对数据,想知道它们是否有差异,但又不确定数据是否满足正态分布假设,那么 Wilcoxon符号秩检验 可能是你的救星。作为一种非参数统计方法,它简单而强大,广泛用于医学、教育和心理学等领域。今天,我们将深入探讨它的原理、步骤和应用场景,并通过多个实例让你轻松上手。
什么是 Wilcoxon 符号秩检验?
Wilcoxon符号秩检验由 Frank Wilcoxon 于 1945 年提出,是一种用于比较两组相关样本(配对数据)差异的非参数方法。它不要求数据服从正态分布,而是基于秩次(ranks)来检验两组数据的分布是否相同。换句话说,它回答的问题是:“两组配对数据的差值中位数是否为零?”
适用场景
- 配对数据:例如,同一组人在治疗前后的测量结果。
- 非正态数据:当数据偏态或有异常值时。
- 小样本或大样本:它在不同样本量下都有适用方法。
基本假设
- 数据是成对的,且差值有意义。
- 差值的分布关于中位数对称(不要求正态)。
- 每对观测值之间独立。
计算步骤:从小样本到大样本
Wilcoxon符号秩检验的核心是计算差值的秩次和,然后根据样本量选择检验方法。以下是详细步骤。
小样本(查表法)
- 计算差值:\( D_i = X_{1i} - X_{2i} \),剔除差值为零的对。
- 取绝对值并排序:对 \( |D_i| \) 从小到大排序,赋予秩次(并列取平均秩)。
- 带符号秩次:根据差值的正负,给秩次加上符号。
- 计算统计量:
- \( W^+ \):正秩和。
- \( W^- \):负秩和。
- \( W = \min(W^+, W^-) \)。
- 查表:根据样本量 \( n \) 和显著性水平 \( \alpha \)(如 0.05),查临界值表。
实例 1:治疗前后血压变化
假设 6 名患者治疗前后的血压如下:
| 患者 | 治疗前 | 治疗后 | 差值 (\( D_i \)) | \( |D_i| \) | 秩次 | 带符号秩次 |
|------|--------|--------|------------------|---------|------|------------|
| 1 | 120 | 115 | 5 | 5 | 2.5 | 2.5 |
| 2 | 130 | 125 | 5 | 5 | 2.5 | 2.5 |
| 3 | 140 | 135 | 5 | 5 | 2.5 | 2.5 |
| 4 | 115 | 120 | -5 | 5 | 2.5 | -2.5 |
| 5 | 125 | 130 | -5 | 5 | 2.5 | -2.5 |
| 6 | 135 | 125 | 10 | 10 | 6 | 6 |
- \( W^+ = 2.5 + 2.5 + 2.5 + 6 = 13.5 \),
- \( W^- = 2.5 + 2.5 = 5 \),
- \( W = \min(13.5, 5) = 5 \)。
查表(\( n = 6 \),双尾 \( \alpha = 0.05 \)),临界值 = 2,\( W = 5 > 2 \),不拒绝 \( H_0 \),即治疗前后血压无显著差异。
大样本(正态近似)
当 \( n > 20 \) 时,\( W \) 近似服从正态分布:
- 期望值:\( E(W) = \frac{n(n+1)}{4} \),
- 方差:\( Var(W) = \frac{n(n+1)(2n+1)}{24} \),
- \( Z = \frac{W - E(W)}{\sqrt{Var(W)}} \)。
实例 2:两种教学方法的成绩比较
30 名学生在两种教学方法下的成绩差值(部分数据):
| 学生 | 方法A | 方法B | 差值 (\( D_i \)) | \( |D_i| \) | 秩次 | 带符号秩次 |
|------|-------|-------|------------------|---------|------|------------|
| 1 | 85 | 88 | -3 | 3 | 3 | -3 |
| 2 | 90 | 87 | 3 | 3 | 3 | 3 |
| 3 | 78 | 82 | -4 | 4 | 5 | -5 |
| ... | ... | ... | ... | ... | ... | ... |
假设 \( W^+ = 240 \),\( W^- = 225 \):
- \( n = 30 \),\( E(W) = \frac{30 \times 31}{4} = 232.5 \),
- \( Var(W) = \frac{30 \times 31 \times 61}{24} = 2363.75 \),
- \( W = 225 \),\( Z = \frac{225 - 232.5}{48.62} \approx -0.154 \),
- 双尾 \( p = 2 \times P(Z > 0.154) \approx 0.877 \),
- \( |Z| < 1.96 \),不拒绝 \( H_0 \)。
连续性校正:要不要用?
在大样本正态近似中,\( W \) 是离散的,而正态分布是连续的,可能需要连续性校正:
- 未校正:\( Z = \frac{W - E(W)}{\sqrt{Var(W)}} \),
- 校正后:\( Z = \frac{|W - E(W)| - 0.5}{\sqrt{Var(W)}} \)。
实例 2 续:加入校正
- 未校正:\( Z = -0.154 \),\( p \approx 0.877 \),
- 校正后:\( |225 - 232.5| - 0.5 = 7 - 0.5 = 6.5 \),\( Z = \frac{6.5}{48.62} \approx -0.134 \)(带符号),\( p \approx 0.893 \)。
差异很小,大样本下影响不大。通常 \( n > 50 \) 时可忽略校正,但若 \( W \) 接近 \( E(W) \),校正更保守。
单尾 vs. 双尾检验:深入原理与应用
在进行 Wilcoxon 符号秩检验时,一个关键的选择是使用单尾检验还是双尾检验。这不仅影响 \( p \) 值的计算,还反映了你的研究假设和数据解读方式。让我们详细探讨它们的区别、背后的统计原理,以及如何在实际中应用。
基本概念
- 双尾检验:检测两组配对数据是否存在任意方向的差异,即差值中位数是否显著偏离零(可能是正或负)。
- 原假设 (\( H_0 \)):差值中位数 = 0。
- 备择假设 (\( H_1 \)):差值中位数 ≠ 0。
- 显著性水平 \( \alpha \)(如 0.05)均分到正态分布的两端,每端 \( \alpha/2 \)(如 0.025)。
- 单尾检验:检测两组数据是否在特定方向上存在差异,例如第一组是否显著大于或小于第二组。
- \( H_0 \): 差值中位数 ≤ 0(或 ≥ 0,取决于方向)。
- \( H_1 \): 差值中位数 > 0(或 < 0)。
- \( \alpha \) 全部集中在分布的一端。
原理:为什么需要区分?
Wilcoxon 符号秩检验的核心统计量是正秩和 \( W^+ \)(正差值的秩次之和)和负秩和 \( W^- \)(负差值的秩次之和)。它们反映了数据的偏向性:
- \( W^+ \) 大:第一组倾向于大于第二组。
- \( W^- \) 大:第一组倾向于小于第二组。
在假设检验中,我们用 \( W \)(通常取 \( W^+ \) 或 \( W^- \) 的较小值)或其标准化形式 \( Z \) 来判断显著性。单尾和双尾的区别在于:
- 双尾:关注两组的总体差异,不预设方向,因此需要检查正负两端的极端值。
- 单尾:基于研究假设,只关注一个方向的偏离,提高该方向的检测能力。
双尾检验的原理
双尾检验假设 \( H_0 \) 下,\( W^+ \) 和 \( W^- \) 的分布是对称的,差值中位数为零的概率最高。如果 \( W^+ \) 或 \( W^- \) 异常大(即 \( Z \) 的绝对值大),说明数据偏离 \( H_0 \)。因为方向未知,显著性水平 \( \alpha \) 分到两尾:
- \( p = 2 \times P(Z > |Z|) \):两端概率之和。
- 临界值(如 \( \alpha = 0.05 \) 时 ±1.96)反映双向极端。
单尾检验的原理
单尾检验假设你有理论依据预判差异方向。例如,若 \( H_1 \): 差值中位数 > 0,则只关心 \( W^+ \) 是否显著大(\( Z > 0 \)),忽略负方向的极端值:
- \( p = P(Z > Z_{\text{obs}}) \):仅右尾概率。
- 临界值(如 \( \alpha = 0.05 \) 时 1.645)只在一侧。 这提高了统计效能,但要求方向与 \( H_1 \) 一致。
计算上的差异
小样本(查表)
- 双尾:用 \( W = \min(W^+, W^-) \),查双尾临界值表。
- 单尾:根据 \( H_1 \) 选择:
- \( H_1 \): 差值 > 0,用 \( W^+ \)。
- \( H_1 \): 差值 < 0,用 \( W^- \)。
大样本(正态近似)
- 计算 \( Z = \frac{W - E(W)}{\sqrt{Var(W)}} \):
- 双尾:\( p = 2 \times P(Z > |Z|) \)。
- 单尾:
- \( H_1 \): 差值 > 0,\( p = P(Z > Z) \),
- \( H_1 \): 差值 < 0,\( p = P(Z < Z) \)。
实例解析
实例 3:新药效果(单尾,小样本)
10 名患者新药 vs. 安慰剂效果:
| 患者 | 新药 | 安慰剂 | 差值 (\( D_i \)) | \( |D_i| \) | 秩次 | 带符号秩次 |
|------|------|--------|------------------|---------|------|------------|
| 1 | 8 | 6 | 2 | 2 | 2 | 2 |
| 2 | 7 | 7 | 0 | - | - | - |
| 3 | 9 | 6 | 3 | 3 | 4 | 4 |
| ... | ... | ... | ... | ... | ... | ... |
假设 \( n = 9 \)(剔除零),\( W^+ = 40 \),\( W^- = 5 \):
- \( H_1 \): 新药 > 安慰剂(差值 > 0),用 \( W^+ \),
- 查表(\( n = 9 \),单尾 \( \alpha = 0.05 \)),临界值 = 8,
- \( W^+ = 40 > 8 \),拒绝 \( H_0 \),新药效果显著更好。
若用双尾(\( \alpha = 0.05 \)),临界值 = 5,\( W = \min(40, 5) = 5 = 5 \),不显著。单尾更敏感,因为它集中了统计效能。
实例 4:教学方法(大样本,双尾 vs. 单尾)
30 名学生两种方法成绩,\( W^+ = 300 \),\( W^- = 165 \):
- \( E(W) = 232.5 \),\( Var(W) = 2363.75 \),
- \( Z = \frac{300 - 232.5}{48.62} \approx 1.39 \)。
- 双尾:
- \( H_1 \): 差值 ≠ 0,
- \( p = 2 \times P(Z > 1.39) \approx 0.1646 \),
- \( |Z| < 1.96 \),不拒绝 \( H_0 \)。
- 单尾(\( H_1 \): 方法A > 方法B):
- \( p = P(Z > 1.39) \approx 0.0823 \),
- \( 1.39 < 1.645 \),不拒绝 \( H_0 \)。
- 单尾(\( H_1 \): 方法A < 方法B):
- \( Z = 1.39 > 0 \),方向相反,\( p = P(Z < 1.39) \approx 0.9177 \),不显著。
原理说明:双尾分散了 \( \alpha \),单尾集中于 \( H_1 \) 方向,若方向正确,单尾更容易发现显著性。
实例 5:锻炼对心率的影响(单尾,大样本)
50 人锻炼前后心率,假设 \( W^- = 400 \)(负差值多,心率降低):
- \( E(W) = \frac{50 \times 51}{4} = 637.5 \),
- \( Var(W) = \frac{50 \times 51 \times 101}{24} \approx 10731.25 \),
- \( Z = \frac{400 - 637.5}{103.6} \approx -2.29 \),
- \( H_1 \): 心率减少(差值 < 0),\( p = P(Z < -2.29) \approx 0.011 \),
- \( -2.29 < -1.645 \),拒绝 \( H_0 \),锻炼显著降低心率。
如何选择?
- 双尾:无方向性假设,探索性研究。
- 单尾:有理论支持(如“新药应优于安慰剂”),需预先声明方向。
- 注意:单尾方向不能事后根据数据调整,否则增加假阳性风险。
优缺点与实际应用
优点
- 不需正态假设,对异常值不敏感。
- 适用于小样本和大样本。
缺点
- 假设差值分布对称。
- 效能低于参数检验(如 t 检验)。
软件实现
- R:
wilcox.test(x, y, paired = TRUE)
,
- Python:
scipy.stats.wilcoxon(x, y)
。
总结
Wilcoxon符号秩检验是一个灵活的工具,无论你的数据是小样本还是大样本,单尾还是双尾,它都能帮你分析配对数据的差异。通过实例,我们看到它如何从小样本查表过渡到大样本正态近似,甚至处理连续性校正和方向性假设。希望这篇博客让你对它有了更深的理解——下次遇到配对数据时,不妨试试它!
如果你有自己的数据想分析,欢迎留言,我可以帮你一步步计算!
这篇博客整合了所有内容,单尾与双尾部分尤其详细,包含原理和实例。如果你需要进一步调整(如缩短或补充),请告诉我!
- 作者:现代数学启蒙
- 链接:https://www.math1234567.com/article/wicoxonsignedranktest
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章