关于算法:R语言中的Wilcoxon符号秩检验与配对学生t检验

原文链接：http://tecdat.cn/?p=3172

在这篇文章中，咱们将摸索比拟两组依赖（即配对）定量数据的测验：Wilcoxon符号秩测验和配对学生t测验。这些测验之间的要害区别在于Wilcoxon的测验是非参数检验，而t测验是参数检验。在下文中，咱们将探讨这种差别的结果。

睡眠数据集

咱们来思考睡眠数据集。数据集通过提供服用药物后睡眠工夫与基线相比的变动来比照两种催眠药物（即安眠药）的成果：

_extra_示意与基线测量相比睡眠中的减少/缩小（正/负值），_组_示意药物，_ID_示意患者ID。为了更分明，我将_组_重命名为_药物_：

##    extra group ID## 1    0.7     1  1## 2   -1.6     1  2## 3   -0.2     1  3## 4   -1.2     1  4## 5   -0.1     1  5## 6    3.4     1  6## 7    3.7     1  7## 8    0.8     1  8## 9    0.0     1  9## 10   2.0     1 10## 11   1.9     2  1## 12   0.8     2  2## 13   1.1     2  3## 14   0.1     2  4## 15  -0.1     2  5## 16   4.4     2  6## 17   5.5     2  7## 18   1.6     2  8## 19   4.6     2  9## 20   3.4     2 10

留神，睡眠数据集蕴含每个患者的两个测量值。因而，它适宜于展现配对测验，例如咱们正在解决的测验。

咱们测验的是什么？

假如咱们在一家制药公司工作，这些是刚从临床试验中取得的数据。当初，咱们必须决定你应该推出哪两种药物用于市场。抉择药物的正当办法是确定体现更好的药物。

为了直观理解这两种药物的有效性，让咱们绘制相应的值：

该图显示药物1的睡眠工夫的中值减少靠近0，而药物2的中值减少靠近2小时。因而，依据这些数据，仿佛药物2比药物1更无效。然而，咱们仍须要确定咱们的发现是否具备统计学意义。

零假如

测验的零假如是，两种药物之间的额定睡眠工夫没有任何差异。因为咱们想晓得药物2是否优于药物1，所以咱们不须要双尾测验（测验任何一种药物是否具备优越性能），而是须要单尾检验。因而，备选假如是，药物2比药物1更优。

Wilcoxon符号秩测验

因为测验统计量是基于排名而不是测量值自身，因而Wilcoxon符号秩测验能够被认为是测验两组之间中值变动。

要在R中执行测验，咱们能够应用该wilcox.test。然而，咱们必须明确设置_配对_参数，以表明咱们正在解决匹配的察看。要指定单尾检验，咱们将_代替_参数设置为_更大_。以这种形式，测验的代替计划是药物2是否与睡眠持续时间减少相关联而不是药物1。

wilcox(x, y, paired = TRUE,                    alternative = "greater"

正告

在取得后果之前，咱们应该考察执行检验所产生的两个正告。

正告1：关系

第一个正告产生的起因是，该测试对成对的额定数值的差别进行排名。如果两对有雷同的差别，在排名时就会呈现并列。咱们能够通过计算配对之间的差别来验证这一点

x - y##  \[1\] 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4

并发现第3和第4对都有雷同的差值1.3。为什么并列是一个问题？调配给并列关系的等级是基于它们所逾越的等级的平均值。因而，如果有许多并列，这就升高了测试统计的表现力，使Wilcoxon测试不适合。因为咱们这里只有一个并列，这不是一个问题。

正告2：零值

第二个正告波及差别为0的对。在睡眠数据集中，来自第5个患者的状况就是这种状况（见上文）。为什么零是个问题？请记住，零假如是对的差别以0为核心。然而，察看值恰好为0的差别并不能为咱们提供任何回绝零的信息。因而，在计算测验统计量时抛弃这些配对。如果许多配对的状况如此，则测验的统计成果将大幅降落。同样，这不是问题，因为只存在一个零值。

调查结果

测验的次要后果是它的p值，能够通过以下形式取得：

res$p.value## \[1\] 0.004545349

因为p值小于5%的显著性程度，这意味着咱们能够回绝无效假设。因而，咱们偏向于承受备选假如，即药物2优于药物1。

配对学生的t测验

配对Student's t测验是对两组配对定量测量方法的参数检验。这里，参数意味着t测验假如样本之间的均匀差别是正态分布的。测验依赖于确定两组的测量值的均匀差别，X¯d大于 d， d通常设置为0查找是否存在任何差别。

在R中，咱们能够用t.test函数进行配对t测验。请留神，t.test假设人口变异是不相等的。在这种状况下，该测验也被称为韦尔奇的t测验。要取得假设种群方差相等的原始t测验，咱们能够间接将equal.var参数设置为TRUE。在这里，咱们将只应用默认设置。

print(t.result$p.value)## \[1\] 0.001416

同样，P值小于0.05。因而，咱们偏向于承受另一个假如：药物2比药物1在均匀睡眠工夫上有更大的增长。

查看学生t测验的假如

t测验要求样本均值是正态分布。依据核心极限定理，在有足够数量的样本时，群体中的样本均值靠近正态分布。因而，只有有足够数量的样本，即便对于非正态测量，也能满足t测验的假如。因为睡眠数据只蕴含10个成对的测量值，应该有理由放心。因而，咱们应该查看测量值之间的差别是否为正态分布，以验证t测验是否无效。

ggplot(diff.df, aes(x = diff))

看一下直方图，数据仿佛相当平均，而不是正态分布。为了更认真地察看，咱们用Q-Q图将差别与正态分布的期望值进行比拟。

 qqp(diff.df$diff)

QQ图显示，除了重尾之外，差别相当合乎正态模型。由此，咱们能够得出结论，t测验的假如失去了充沛的满足。不过，咱们还是对t测验是否是这些数据最合适的抉择感到不确定。

总结：Wilcoxon符号秩测验与配对学生t测验

在这项剖析中，Wilcoxon符号秩测验和配对学生t测验导致回绝零假如。但总的来说，哪种测验更适合？答案是，这取决于几个规范：

假如：学生t测验是比拟平均值的测验，而Wilcoxon测验是测验数据的排序。例如，如果你在剖析有许多离群值的数据，如集体财产（多数亿万富翁会极大地影响后果），Wilcoxon测验可能更适合。
解释：尽管也能够为Wilcoxon测验计算置信区间，但在t测验中争执平均数的置信区间可能比Wilcoxon测验的假说更天然。
假如的实现：对于小规模的样本，学生t测验的假如可能无奈满足。在这种状况下，抉择一个非参数检验往往是比拟平安的。然而，如果满足t测验的假如，它的统计能力比Wilcoxon测验大。

因为睡眠数据集的样本量较小，对于这些数据，我更偏向于采纳Wilcoxon的测验。

你会用哪种测验？