关于mysql:统计科学之卡方检验讲解

咱们后面讲过方差分析，方差分析的利用场景是什么样子的呢？不记得同学能够翻回去看看。当咱们要比拟两组或者多组均值有没有显著性差别的时候，咱们能够用方差分析。请留神，这外面咱们提到是两组或者多组之间的均值比拟时，咱们用方差分析，想一下什么类型的数据能够求均值呢？是不是只有数值类型的数据才能够求均值。也就是所谓的连续型变量。那如果咱们要比拟两组或者多组之间的分类型变量之间是否有显著性差别呢？这个时候就不能够应用方差分析了，就须要应用专门用于分类变量比拟的卡方测验。

接下来咱们具体看一下卡方剖析是怎么做的。

当初某个钻研机构为了验证一下吸烟与肺病的关系，通过抽样调查失去如下数据：

咱们先假如是否吸烟与是否患肺病之间是没有必然联系的，也就是不论是否患肺病的群体中吸烟者比例都应该等于共计中吸烟者比例，即 33%。咱们来看一下，如果各组的吸烟者比例都为 33% 的时候，各组的人数散布状况是什么样的。咱们通过上表能够看出肺病患者外面的吸烟比例为 48%，显著高于非肺病患者中的吸烟比例 20%。可是这能间接阐明两者之间有显著性差别吗？咱们须要来验证一下到底显著不显著呢？那具体该怎么验证呢？

通过比照后面的两个表，咱们能够发现各组的人数都不太一样，造成不太一样的起因次要有两个，一个就是抽样误差导致的，另一个就是咱们的假如是谬误的，也就是各组之间的数据原本就是有差别的。那咱们怎么来判断到底是哪种谬误呢？这个时候就须要引入卡方测验了。

Ai 为理论频数 (呈现的次数)，Ti 为实践频数。

咱们把第一个表中各组的值称为理论频数，把第二个表中各组的值称为实践频数。卡方测验的值用来反映实践频数和理论频数的差别大小。实践频数和理论频数差异越大 (分子越大)，卡方测验值越大；反之，卡方测验值越小。

如果只是因为抽样误差造成的理论频数和实践频数的差别，那卡方测验的值应该很小，因为咱们置信咱们的抽样还是比拟正当的，所以误差不会特地大；如果卡方测验值太大，就不太可能用误差来解释，只能阐明原假如不成立，即各组之间的数据原本就有差别。

咱们在下面的形容中用到了两个词，卡方值很小或太大，什么样的卡方值算很小，什么样的卡方值算太大呢？这个时候就须要引入咱们的卡方散布了，如下图所示，就和 Z 测验中的正态分布一样。

上图中的 n 为自由度，不同自由度对应的卡方散布是不一样的。而自由度又与特色维度无关，自由度 = (行数 -1)*(列数 -1)，咱们下面的例子是两行两列的数据，所以最初自由度为 1。咱们晓得了自由度当前，就能够通过卡方散布的临界值表去找到这个自由度对应的不同边界值以及 P 值。

通过下图能够看出，当自由度为 1 时，临界值 3.84 对应的 P 值为 0.05，也就是当卡方值的大于 3.84 时，右侧面积小于 0.05，能够认为是小概率事件，不可能产生。

卡方散布的临界值表：

https://wenku.baidu.com/view/…

咱们计算后面提到的两个表的卡方值：

计算出来的卡方值 60.53 远远大于 3.84，所以能够认为咱们的原假如是不成立的，即是否患肺病与是否吸烟是有关系的。

以上就是对于卡方测验的一个整体过程。