关于机器学习:机器学习算法基础六线性回归与逻辑回归

43次阅读

共计 5265 个字符,预计需要花费 14 分钟才能阅读完成。

@TOC

线性回归

对于分类的问题,数据是离散的。对于回归,目标值是间断的。线性回归其目标是为了寻找肯定的趋势。

在一个 n 维的模型中。其模型能够应用

$$f(x)=w_1x_1+w_2x_2+…+w_dx_d+b$$
示意模型称为线性模型。w 称为权重,b 称为偏置项。

回归是一种迭代的算法,对于预测不可能和理论值统一,因而咱们须要一个值来形容预测是否精确。这个定义为损失函数。

对于最小二乘法,其损失函数为误差的平方和。

梯度降落

对于函数中的 w 参数值,对于數據量较多的状况下,咱们无奈进行间接算法得出因而须要另外一种办法来计算参数值。

$$w=w_0+\alpha\frac{\partial f}{\partial w_0}$$
f 为损失函数,$\\alpha$ 为学习速率须要手动指定。$\\frac{\\partial f}{\\partial w_0}$ 示意方向,须要沿着这个函数降落的方向找,最初能找最低点。

参考文章:https://www.cnblogs.com/itmor…

批量梯度降落 BGD

在批量降落中每次计算 一次一个参数的梯度降落 都须要计算所有的样本点。

随机梯度降落 SGD(大坑待填)

随机梯度在批量降落中每次计算 以一个随机的点为根底计算 所须要降落的梯度。

小批量随机梯度降落(大坑待填)

小批量梯度降落介于 BGD 与 SGD 之间每次取一部分来计算梯度降落的方向。

回归性能评估

均方误差(MSE)

线性回归特点

线性回归器是最简略、易用的回归模型,然而其并不能解决过拟合问题。

共线性特色

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间因为存在较准确相干关系或高度相干关系而使模型预计失真或难以估计精确。齐全共线性的状况并不多见,个别呈现的是在肯定水平上的共线性,即近似共线性。

过拟合与欠拟合(线性回归)

过拟合的起因
1、原始特色过多,存在一些嘈杂特色,模型过于简单
解决办法
1、进行特征选择,打消关联性大的特色
2、穿插验证
3、正则化

欠拟合的起因
1、原始特色较少
解决办法
1、进行特征选择,打消关联性大的特色
2、穿插验证

正则化

作用:能够使得 W 的每个元素很小,都靠近与 0
长处:越小的参数阐明模型越简略,越简略的参数越不容易产生过拟合景象

正则化就是通过对模型参数进行调整(数量和大小),升高模型的复杂度,以达到能够防止过拟合的成果。正则化是机器学习中的一种叫法,其它畛域内叫法各不相同:

机器学习把 L1 和 L2 叫正则化,统计学畛域叫惩办项,数学畛域叫范数。

正则化是一个典型的用于抉择模型的办法。它是构造危险最小化策略的实现,是在教训危险上加一个正则化项或惩办项。正则化项个别是模型复杂度的枯燥递增函数,模型越简单,正则化值就越大。

$$R(f)=\frac1N\sum_{i=1}^n{L(y_i,f(x_i))}+\lambda J(f)$$

  • 第一项即损失函数的示意
  • 后一项中的 J(f)就示意模型的复杂度,它是定义在假如空间 F 上的泛函(通常是指一种定义域为函数,而值域为实数的“函数”。换句话说,就是从函数组成的一个向量空间到实数的一个映射。也就是说它的输出为函数,而输入为实数,来自维基百科),模型 f 越简单,复杂度 J(f)就越大;反之,模型越简略,复杂度 J(f)就越小。也就是说,复杂度示意了对简单模型的惩办。λ≥0 是系数,用以衡量教训危险和模型复杂度。构造危险小的模型往往对训练数据以及地位的测试数据都有较好的预测。
Lasso 回归

具备 L1 正则化的线性最小二乘法。

岭回归

具备 L2 正则化的线性最小二乘法。
岭回归:回归失去的回归参数更符合实际,更牢靠,另外,能让预计参数的稳定范畴变小,变得更稳固。在存在病态数据较多的钻研中具备较大的实用价值。

ElasticNet 回归

具备 L1 与 L2 正则化的线性最小二乘法。

逻辑回归

一种实用于解决因变量为分类变量的回归问题,最常见的是二分类或者二项分布问题。例如通过一个人的身高体重,肤色等断定是否容易生病。0 示意生病,1 示意不生病。这类问题被称为逻辑回归问题。尽管说是回归,然而 逻辑回归其实是一种分类问题

狭义线性模型(GLM)

对于线性回归,其模型为
$$y=\theta^Tx$$
对于线性模型来说其数值为连续性的,无奈间接用于分类问题。须要对于预测值进行一次再解决,这个解决的函数称之为连贯函数(link function), 即下图中的 $G$ 函数。解决后的到的 GLM 如下图所示:

狭义线性模型是一种利用灵便的线性模型,它认为因变量是属于指数簇散布的(可了解为是一种限度),即对于输出的 $X$,$Y$ 具备如下模式的散布:

指数族散布

如果一类散布能够写成如下模式,则它能够叫做 指数族散布 (exponential family distributions)。


如果散布中的 T,A,h 固定,当 $\\eta$ 扭转时,将在这个家族中取得不同的散布。

伯努利散布(也叫两点散布,0- 1 散布)泊松散布 高斯分布 都属于指数族散布

sigmod 函数

Sigmoid 函数是一个有着柔美 S 形曲线的数学函数,在逻辑回归、人工神经网络中有着宽泛的利用。Sigmoid 函数的数学模式是:

$$f\left(x\right)=\frac1{1+e^{-x}}$$

当 X 为负无穷时,sigmoid 函数趋近于 0,当 X 为正无穷时,sigmoid 函数趋近于 1。同时这个函数间断,润滑,间断枯燥。因而被用在逻辑回归模型的分类器上。Sigmod 值能够将其了解为概率值。

为什么选用 sigmod 函数?

其基本的起因在于逻辑回归前提是,咱们假如了变量是遵从伯努利散布的(也就是 0 - 1 散布,这也是为什么逻辑回归是实用于二分类问题的)

通过推导后咱们得出结论,当因变量遵从伯努利散布时,狭义线性模型就为逻辑回归

逻辑回归公式

$$h_\theta\left(x\right)=g\left(\theta^Tx\right)=\frac1{1+e^{-\theta^Tx}}$$

逻辑回归的损失函数、优化

与线性回归原理雷同,然而因为是分类问题,只能通过梯度降落求解。

对于逻辑回归分为两种后果,即一类的后果,二类的后果。其损失函数理论含意能够形容为预测逻辑回归的准确性,当预测齐全精确时,损失函数为 0 。其残缺的损失函数能够如下示意:

$$\cos t\left(h_\theta\left(x\right),y\right)=\sum_{i=1}^m-y_i\log\left(h_\theta\left(x\right)\right)-\left(1-y_i\right)\log\left(1-h_\theta\left(x\right)\right)$$

损失函数的模式为穿插熵。

逻辑回归的损失函数为什么不抉择 MSE(均方差)?

LR 的根本模式如下

如果一元逻辑回归,如果应用梯度降落的办法对 w 和 b 进行更新,那么就须要将损失函数对这两个参数进行求导。

![\[公式 \]](https://img-blog.csdnimg.cn/2…

![\[公式 \]](https://img-blog.csdnimg.cn/2…
能够看到 w,b 的更新速率与以后的预测值 sigmoid 函数的导数无关,sigmoid 的图像如下

所以,如果以后模型的输入靠近 0 或者 1 时,梯度降落更新的参数值就会十分小,靠近 0,使得求得的梯度很小,损失函数收敛的很慢。

逻辑回归的参数估计

对于二回归问题,咱们假设

从中能够失去概率个别式

由最大似然预计能够失去

依据梯度的定义,就能够失去逻辑回归的梯度降落公式:

SoftMax 分类

一种基于逻辑回归的 K 分类问题

逻辑回归与线性回归

逻辑回归与线性回归的区别与分割

  • 区别

线性回归假如响应变量遵从正态分布,逻辑回归假如响应变量遵从伯努利散布
线性回归优化的指标函数是均方差(最小二乘),而逻辑回归优化的是似然函数(穿插熵)
线性归回要求自变量与因变量呈线性关系,而逻辑回归没有要求
线性回归剖析的是因变量本身与自变量的关系,而逻辑回归钻研的是因变量取值的概率与自变量的概率
逻辑回归解决的是分类问题,线性回归解决的是回归问题,这也导致了两个模型的取值范畴不同:0- 1 和实数域
参数估计上,都是用极大似然预计的办法预计参数(高斯分布导致了线性模型损失函数为均方差,伯努利散布导致逻辑回归损失函数为穿插熵)

  • 分割

两个都是线性模型,线性回归是一般线性模型,逻辑回归是狭义线性模型
表达形式上,逻辑回归是线性回归套上了一个 Sigmoid 函数

判断模型与生成模型

__ 判断模型 生成含意
__ 逻辑回归 奢侈贝叶斯
解决问题 二分类 多分类
利用场景 癌症,二分类须要概率 文本分类
参数 正则化力度 没有
同类算法 K 近邻、决策树,随机森林,神经网络 隐含马尔科夫模型

对于判断模型与生成模型的区别在于:生成模型须要晓得先验概率即历史数据,能力进行判断属于某个分类

ROC 曲线

在一个二分类模型中,对于所失去的间断后果,假如已确定一个阀值,比如说 0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到 0.5,诚然能辨认出更多的正类,也就是进步了辨认出的正例占所有正例的比类,即TPR(在所有理论为阳性的样本中,被正确地判断为阳性之比率。TPR=TP/(TP+FN)),但同时也将更多的负实例当作了正实例,即进步了 FPR (在所有理论为阴性的样本中,被错误判断为阳性的概率,称为 FPR,FPR=FP/(FP+TN))。为了形象化这一变动,在此引入 ROC,ROC 曲线能够用于评估一个分类器。

AUC 面积

当存在两个分类器时,咱们能够通过分类器之间是否有互相笼罩得出某个分类器是较为优良的。也能够通过覆盖面积判断。
AUC 面积为 ROC 曲线的覆盖面积,其覆盖面积的大小示意分类器的好坏。

  • AUC = 1,是完满分类器。
  • AUC = [0.85, 0.95], 成果很好
  • AUC = 0.5,跟随机猜想一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜想还差.
AR 自回归模型

利用后期若干时刻的随机变量的线性组合来形容当前某时刻随机变量的线性回归模型。该模型认为通过工夫序列过来时点的线性组合加上白噪声即可预测以后时点,它是随机游走的一个简略扩大。下图中展现了一个工夫如果能够示意成如下构造,那么就阐明它遵从 p 阶的自回归过程,示意为 AR(p)。其中,ut 示意白噪声,是工夫序列中的数值的随机稳定,然而这些稳定会互相对消,最终是 0。$\\theta$ 示意自回归系数。
$$x(t)=\theta_1x(t-1)+\theta_2x(t-2)+\cdots+\theta_mx(m-1)+u(t)$$

MA

MA(Moving Average Model)挪动均匀模型。通过将一段时间的白噪声序列进行加权和,能够失去挪动均匀方程。示意为 MA(q)$\\theta$ 示意挪动回归系数,ut 示意不同工夫点的白噪声。

$$x(t)=\theta_1u(t-1)+\theta_2u(t-2)+\cdots+\theta_mu(m-1)+u(t)$$

ARMA

ARMA(Auto Regressive and Moving Average Model)自回归挪动均匀模型,自回归挪动均匀模型是自回归和挪动均匀模型两局部组成。所以能够示意为 ARMA(p,q)。p 是自回归阶数,q 是挪动均匀阶数。

$$x(t)=\theta_1x(t-1)+\theta_2x(t-2)+\cdots+\theta_mx(m-1)+\theta_1u(t-1)+\theta_2u(t-2)+\cdots+\theta_mu(m-1)+u(t)$$
从式子中能够看出,自回归模型联合了两个模型的特点,其中 AR 能够解决以后数据与前期数据之间的关系,MA 能够解决随机变动也就是噪声的问题。

工夫序列剖析

工夫序列,就是按工夫顺序排列的,随工夫变动的数据序列。
生存中各畛域各行业太多工夫序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温。。。

随机过程的特色有均值、方差、协方差等。
如果随机过程的特色随着工夫变动,则此过程是非安稳的;相同,如果随机过程的特色不随工夫而变动,就称此过程是安稳的。
下图所示,右边非稳固,左边稳固。


非安稳工夫序列剖析时,若导致非安稳的起因是确定的,能够用的办法次要有趋势拟合模型、节令调整模型、挪动均匀、指数平滑等办法。
若导致非安稳的起因是随机的,办法次要有 ARIMA(autoregressive integrated moving average)及自回归条件异方差模型等。

ARIMA

ARIMA(Auto Regressive Integrate Moving Average Model)差分自回归挪动均匀模型。ARIMA 模型是为了解决在 ARMA 根底上,非安稳 系列的模型。也是基于安稳的工夫序列的或者差分化后是稳固的,另外后面的几种模型都能够看作 ARIMA 的某种非凡模式。示意为 ARIMA(p, d, q)。p 为自回归阶数,q 为挪动均匀阶数,d 为工夫成为安稳时所做的差分次数,也就是 Integrate 单词的在这里的意思。

正文完
 0