关于mysql:统计科学之多因素方差分析

48次阅读

共计 2376 个字符,预计需要花费 6 分钟才能阅读完成。

01. 前言

在后面咱们讲过简略的单因素方差分析,这一篇咱们讲讲双因素方差分析以及多因素方差分析,双因素方差分析是最简略的多因素方差分析。

单因素剖析就是只思考一个因素会对要比拟的均值产生影响,而多因素剖析是有多个因素会对均值产生影响。

须要留神的是一个因素可能会有不同的程度值,即不同的取值。比方要判断某一款药对某种病症有没有成果,服用不同的剂量成果应该是不一样的,尽管因素都是服药这一个因素,然而不同的药剂量代表不同的程度。

双因素(多因素)方差分析又能够分为两种,一种是有交互作用的,一种是没有交互作用的。啥意思呢?什么是交互作用呢?

比方咱们大家所熟知的,牛奶和药是不能够一起吃的,如果独自喝牛奶有助于身材蛋白质的补充,如果独自吃药能够有助于医治病症,然而牛奶和药同时吃就会把两者的作用对消掉。这种两者之间的相互作用就能够了解成是交互作用,当然了,有的时候交互是正向呢,有的时候是负向的。

02. 无交互作用方差分析

当初有如下一份不同品牌不同地区的产品销量数据表,想要看一下不同品牌和不同地区这两个因素是否对销量有显著性影响:

咱们先来看看无交互作用的双因素方差分析具体怎么做呢,所谓的无交互也就是假如品牌和地区之间是没有交互作用的,互相不影响,只是彼此独自对销量产生影响。

后面单因素方差分析中,咱们是用 F 值去测验显著性的,多因素方差分析也同样是用 F 值.

F = 组间方差 / 组内方差。

对于没有交互作用的多因素,能够单纯了解为多个单因素。也就是你能够独自去看品牌对销量的影响,而后再独自去看地区对销量的影响。

那独自怎么看呢?这就回到了咱们后面讲过的单因素方差分析。

咱们先来计算品牌的组内平方和:

SSA = (每个品牌的均值 - 全副销量均值)^2* 每个品牌内样本数
    = (344.20-328.45)^2*5 + (347.80-328.45)^2*5 + (337.00-328.45)^2*5 + (284.80-328.45)^2*5
    = 13004.55

咱们再来计算地区的组内平方和:

SSB = (每个地区的均值 - 整体销量均值)^2* 每个地区内样本数
    = (339.00-328.45)^2*4 + (330.25-328.45)^2*4 + (339.25-328.45)^2*4 + (318.25-328.45)^2*4
    = 2011.7

接着咱们来计算全副平方和:

SST = (每个值 - 总体均值)^2
    = 17888.95

除此之外还有一个平方和:

SSE = SST - SSA - SSB

这部分是除品牌和地区以外的其余因素所产生的,称为随机误差平方和。

有了平方和当前,咱们同样须要求取均方,而均方 = 平方和 / 自由度。

SST 的自由度 = 总程度数 – 1 = 19
SSA 的自由度 = 品牌的程度数 – 1 = 3
SSB 的自由度 = 地区的程度数 – 1 = 4
SSE 的自由度 = SSA 的自由度 *SSB 的自由度 = 12

平方和有了,自由度也有了,均方 MS 也就能够求进去了,接下来进入到最重要的 F 值求取,

品牌因素的 F 值 = SSA/SSE
地区因素的 F 值 = SSB/SSE

最初能够通过查 F 值表取得在置信度为 95% 的状况下时的 F 边界值表,而后和理论的 F 值作比拟,最初做出是否显著的判断。如下表:

03. 有交互作用方差分析

某交通部门想要晓得高峰期与路段是否会对汽车的行车时间有影响,通过人工采集失去了如下数据:

本次剖析须要思考峰期与路段之间的交互作用,某些路段的峰期行车时间可能异样偏高或偏低等。

和无交互作用的多因素方差分析流程相似,咱们先计算峰期的平方和:

SSA = (每个峰期内的均值 - 总体均值)^2* 每个峰期内样本数
    = (23.2-20.25)^2*10 + (17.3-20.25)^2*10
    = 174.05

再来计算路段的平方和:

SSB = (每个路段内的均值 - 总体均值)^2* 每个路段内样本数
    = (22.4-20.25)^2*10 + (18.1-20.25)^2*10
    = 92.45

再来计算交互作用的平方和:

SSAB = (每个路段 & 峰期内的均值 - 该路段内的均值 - 该峰期内的均值 + 总体均值)^2* 每个区间内的样本数
     = (25.4-23.2-22.4+20.25)^2*5 + (21-23.2-18.1+20.25)^2*5 + (19.4-17.3-22.4+20.25)^2*5 + (15.2-17.3-18.1+20.25)^2*5
     = 0.05

接着计算全副平方和:

SST = (每个值 - 总体均值)^2
    = 329.75

最初来计算误差平方和:

SSE = SST - SSA - SSB - SSAB

SST 的自由度 = 总样本数 – 1 = 19
SSA 的自由度 = 峰期数 – 1 = 1
SSB 的自由度 = 路段数 – 1 = 1
SSAB 的自由度 = SSA 的自由度 *SSB 的自由度 = 1
SSE 的自由度 = SST 的自由度 – SSA 的自由度 – SSB 的自由度 – SSAB 的自由度

通过求均方,查 F 表,就可失去如下表:

04. 方差分析与回归剖析异同

下面通过以有无交互作用的双因素方差分析为例,给大家把多因素方差分析中波及到的计算过程都演示了一遍,理论工作中咱们是不须要本人手动进行计算的,间接通过 Excel、Python 都能够计算失去。当前专门解说工具如何实现。

通过下面的多因素方差分析,咱们就能够得进去不同因素对某一目标值 (销量 / 行车时间等) 的影响状况,你可能会有这样的疑难,那这和多元回归有什么区别呢?多元回归不也是求取多个 x 和一个 y 的关系么?那这两个是一样的吗?

还是有些不太一样的,方差分析只是通知你某个因素的影响显著不显著,而没有告你影响有多大,回归剖析是通知你具体影响有多大。方差分析是一种定性分析,解决有没有的问题;回归剖析是一种定量分析,解决有多少的问题。

正文完
 0