关于mysql:统计科学之方差分析

38次阅读

共计 2299 个字符,预计需要花费 6 分钟才能阅读完成。

上一篇讲了假设检验,这一篇讲讲方差分析。

1. 背景:

如果你们当初针对用户提出了三种进步客单价的策略 A、B、C,当初想看一下这三种策略最初对进步客单价的成果有什么不同,那咱们怎么能力晓得这三种策略成果有什么不同?最简略的办法就是做一个试验,咱们能够随机筛选一部分用户,而后把这些用户分成三组 A、B、C 组,A 组用户应用 A 策略、B 组用户应用 B 策略、C 组用户应用 C 策略,等策略施行一段时间当前,咱们来看一下这三组别离的客单价是什么程度?哪组均匀客单价高,就阐明哪组策略有成果。真的能够得出这的论断吗?是能够,然而不够谨严。

为什么说不够谨严呢?是因为咱们用来做试验的用户是随机筛选的,有可能客单价高的那局部用户 (比方高价值用户) 自身就要比其余用户群体的客单价高,那为了防止这种可能是因为随机抽样造成的后果不统一问题,咱们就须要去证实下,到底是不是因为随机筛选的起因,如果不是,咱们就能够去比拟各组的均匀客单价,哪组客单价较高,就阐明哪组策略更有成果。

咱们的最终目标其实就是为了比拟各组的均匀客单价,然而在比拟均值之前,咱们须要先证实下各组之间的后果不同是因为策略的起因还是随机筛选的起因,咱们把这个过程叫做方差分析。

2. 三个假如:

方差分析有三个假如:

1. 每组样本数据对应的总体应该 遵从正态分布
2. 每组样本数据对应的总体 方差要相等 ,方差相等又叫方差齐性;
3. 每组之间的值是 互相独立的,就是 A、B、C 组的值不会相互影响。

正态测验次要有两种大的办法,一种是统计测验的办法:次要有基于峰度和偏度的 SW 测验、基于拟合度的 KS、CVM、AD 测验;另一种是用形容的办法:Q- Q 图和 P - P 图、茎叶图,利用四分位数间距和标准差来判断。

方差齐性的次要判断办法有:方差比、Hartley 测验、Levene 测验、BF 法。

因为篇幅问题,对于下面波及到的办法当前专门来讲,有趣味的同学能够先自行查阅。

3. 方差分析流程

3.1 建设假如

H0:各组的客单价均值相等;
H1:各组的客单价均值不相等或不全等。

测验水准为 0.05。

3.2 计算测验统计量 F 值

F 值 = 组间方差 / 组内方差。咱们次要是通过比拟 F 值的大小来判断各组之间是否存在显著差别。

所谓的组间方差就是用来反映组与组之间的差别水平,组内方差就是用来反映各组外部数据的差别水平。

如果各组之间的客单价相等,即假如 H0 成立,也就意味着各组之间是没啥区别的,也就是组间方差会很小甚至为 0,与之对应的方差很大的概率会很低,所以如果 F 值越大,表明在假如 H0 成立的前提下呈现呈现这一后果的概率越小,相当于咱们后面提到的小概率事件,如果一旦小概率事件产生了,咱们就有理由去回绝原假如。

要来计算方差,咱们须要先计算平方和。为了让大家可能更加了解,咱们来举个例子来解说各个指标怎么计算。

当初有两组数据:

第一组:80、85、96
第二组:110、125、130、145、160

第一组和第二组的总算术平均值为:
(80+85+96+110+125+130+145+160)/8 = 116.375。

第一组的算术平均值:(80+85+96)/3 = 87

第二组的算术平均值:

(110+125+130+145+160)/5 = 134

组间平方和(SSA):
= 第一组平均值与总体平均值的平方和×第一组样本数 + 第二组平均值与总体平均值的平方和×第二组样本数
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875

组内平方和(SSE):
= 第一组平方和 + 第二组平方和
=(80-87)^2+(85-87)^2+(96-87)^2

+(110-134)^2+(125-134)^2+(130-134)^2

+(145-134)^2+(160-134)^2
=134+1470=1604

总体平方和(SST):
= 所有样本数据与总体平均值之间的平方和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2

+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2

+(145-116.375)^2+(160-116.375)^2
=5745.875

通过以上数据,咱们能够看出 SST = SSA + SSE

总平方和会有一个问题,就是随着数据量越大,这个值会越大,所以咱们引入另外一个概念:均方。均方 = 平方和 / 自由度 ,其中 自由度是样本数 -1

组间均方 (MSA) = SSA/ 自由度 = 4141.875/(2-1) = 4141.875
组内均方(MSE) = SSE/ 自由度 = 1604/(8-2) = 267.333

MSA 又称为组间方差,MSE 称为组内方差。

F = MSA/MSE = 4141.875/267.333 = 15.4933

3.3 确定边界值并做出决策

此时咱们就能够通过查 F 表,来取得置信度为 95% 时的 F 边界值:

如果 F <F 边界值外表各组数据之间没有显著差别,承受 H0 假如;
如果 F≥F 边界值外表各组数据之间存在显著差别,回绝 H0 假如,承受 H1 假如。

如果咱们证实了各组数据之间是存在显著差别的,这个时候就能够去拿各组的均值来进行比拟,均值越大,能够阐明策略成果越好。

F 值表:
https://wenku.baidu.com/view/…

个别最初咱们都能够失去上面这么一个表:

以上就是简略的方差分析的基本原理与流程,也是单因素方差分析(单因素,就是只有策略这一个维度),还有双因素方差分析,就是不止思考策略这一个维度,还须要别的维度,比方工夫、地区之类的,还有穿插作用的双因素剖析,就是不止策略和地区别离的影响,这两者联合在一起可能会产生第三种影响。对于方差分析的更多内容,咱们之后再来分享。

正文完
 0