关于mysql:统计学之一元线性回归分析

9次阅读

共计 1894 个字符,预计需要花费 5 分钟才能阅读完成。

1. 回归模型简介

咱们先来看一下什么是回归模型,以下解释来源于百度百科:

回归模型是一种预测性的建模技术,它钻研的是因变量(指标)和自变量(预测器)之间的关系。这种技术通常用于 预测剖析 ,工夫序列模型以及发现变量之间的 因果关系

回归模型最重要的两个利用场景就是预测剖析和因果关系剖析,比方咱们上学的时候学过的一元一次方程组 y = kx + b 就是一个最简略的回归模型,当咱们晓得一个 x 时,比方此时的 x 是月份,就能够通过方程求出这个这个 x 对应的 y,这里的 y 能够是销量,这个通过 x 求取 y 的过程就是一个预测的过程。

回归模型次要分为一元线性回归和多元线性回归,这一节先给大家讲一下一元线性回归。

2. 参数估计

参数估计是做什么的呢?是预计什么参数呢?就是用来预计方程 y = kx + b 中的 k 和 b 的。可能有的人会有这样的疑难,为什么要预计呢?而不是间接去算。咱们在上学的时候是能够间接去算的,那是因为只有两个点,通过这两个点的直线是确定的,所以对应的参数也是固定的。

而在理论利用中,咱们的数据点往往都是多个,这多个点往往不在一条直线上,然而呢,咱们又心愿这些点尽可能的都在一条直线上,所以咱们须要找到这么一条直线,这条直线到每个数据点的间隔都很近(靠近于 0),这样咱们就能够用这条间隔每个点都尽可能近的直线来近似示意这些点的一个趋势。这条线对应的 k 和 b 就是咱们预计进去的参数。

咱们在找这一条直线的有一个准则,就是每个点到这条线的间隔尽可能的小,最初让所有点到直线的间隔最小,咱们把这种办法称为最小二乘法,最小二乘法是参数估计的一种办法。

对于最小二乘法的更多内容,大家能够自行学习。

3. 拟合水平判断

通过下面的参数估计,咱们曾经失去了一条能够反映数据点趋势的线,可是这条线到底准确度如何,也就是和理论数据点走势的拟合水平是怎么样的,咱们须要来判断一下。

这里介绍几个对于判断拟合水平的概念。

总平方和(SST):理论值与其平均值之间间隔的平方和,能够了解为方差(而非理论方差),用来反映理论值 y 稳定大小的。

回归平方和 (SSR):回归值(即预测进去的 y 值) 与理论值均值 之间间隔的平方和。这一部分变动是因为自变量的变动引起的,是能够由回归直线来解释的。

残差平方和 (SSE):回归值与 理论值 之间间隔的平方和。这一部分是除了自变量影响之外的其余影响因素造成的,属于不可解释局部。

SST = SSR + SSE,

上述公式外表理论值 y 的稳定状况由两局部因素决定,一部分是因为自变量 x 不一样导致的 y 的变动(回归平方和),另一部分是因为除自变量以外的因素决定(残差平方和)。

咱们现实状况下,理论值 y 的稳定尽可能都可能都是因为自变量 x 变动引起的,而且这个占比越高越能够阐明咱们的回归直线拟合的好。咱们把这个指标称为 R^2 = SSR/SST。

R^2 越大,阐明拟合度越好,介于 [0,1] 之间。

4. 显著性测验

通过后面的步骤参数也求进去了,也就是 y = kx + b 中的 k 和 b 求进去了,那咱们是不是就能够间接拿来用了呢?很显然不太能,为什么呢?因为你参数估计是依据你现有样本数据预计进去的,所以直线反映的也是现有数据状况下的趋势,这些数据的趋势是否代表全量数据的趋势呢?咱们须要测验一下,这就是显著性测验。

回归直线其实是用来反映 x 和 y 之间的线性关系的,所以咱们首先要测验的就是线性关系是否显著,那怎么来测验,还是用咱们之前讲过的假设检验的办法。

咱们先假如 x 和 y 之间是没有线性关系的,如果没有线性关系是不是 k 就等于 0,那既然这样总平方和的的稳定是不是就齐全由残差平方和决定了,那是不是意味着 SSR/SSE 根本为 0,这是咱们通过如果没有线性关系这个假如得进去的论断。

还是后面方差分析中提到的,平方和会随着样本数据的减少而减少,所以咱们就须要把平方和转换成均方,即平方和 / 自由度。

在一元线性回归中,回归平方和的自由度为 1(即自变量的个数),残差平方和的自由度为 n -2。

统计量 F

=(SSR/1)/(SSE/(n-2))

=MSR/MSE。

依据样本数据计算得出 F 值,确定显著性程度,查显著性程度对应的 F 边界值,如果 F >F 边界值,则回绝原假如,否则不回绝原假如。

5. 回归方程利用

一元回归方差次要用来做预测,分为点预测与区间预测,点预测就是通过回归方程预测往年 12 月份的具体销量是多少;区间预测是通过回归方程失去往年 12 月份销量的范畴大略是在哪一区间内。

点预测比较简单,间接把 x 代入到方程中就能够得出后果。区间预测略微比较复杂一些,然而区间预测的实质还是咱们之前讲过的置信区间 [聊聊置信度与置信区间] 的求取,关键点就两个,一个是样本均值,一个是标准差。样本均值也比较简单,标准差的公式如下:

正文完
 0