关于机器学习:机器学习笔记3多元线性回归和正规方程

39次阅读

共计 2266 个字符，预计需要花费 6 分钟才能阅读完成。

下边咱们介绍多个特色量的线性回归模式，并通过向量乘法示意。例如，之前的预测房价例子中，咱们只有一个特征向量（屋宇大小），来预测屋宇价格。然而，实际上屋宇价格不仅仅与大小无关，还与卧室数量、楼层数、应用年限等多个特征向量无关

相干符号含意

在多元线性回归中，m 仍示意数据集的数据数量，上标 i 示意第 i 个训练样本；n 示意每个数据的特征值数量，下标示意数据的第 i 个特色

多元假如函数的引入

例如在房价预测的例子中，可用上图的多元线性函数作为假如函数。随着面积、楼层数、此屋宇所在楼层增大，房价增大；随着屋宇年限增大，房价变小

用向量模式示意多元假如函数

设 x0=1，即定义了额定的特色量，但取值总为 1. 这样特色量可用一个 n + 1 维向量示意，同样咱们把参数看做 n + 1 维的行向量。两个向量相乘，就失去咱们的假如函数

前边咱们提到了多元线性回归的假如模式，下边咱们看一下如何找到满足假如最拟合的参数。即如何应用梯度降落法，解决多特色的线性回归问题
多元线性回归的梯度降落法与一元线性回归相似，都是先写出代价函数式子，而后将代价函数代入梯度降落公式中，通过计算失去参数 j 的偏导数项。一直的用参数 j，减去学习速率 a * 参数 j 的偏导数，直到参数收敛

多元梯度降落的参数更新规定实际上和一元梯度降落也是雷同的。只是把 x0 设为 1 而已

在学习完多特色的线性回归模型后，咱们来看一下梯度降落算法的应用技巧

梯度缩放

当机器学习问题有多个特色时，若特色都处于相近的范畴内，梯度降落算法会更快地收敛。若特色范畴相差较大，如预测房价问题中，面积大小在 0~2000 间，卧室数目在 1~5 之间，那么轮廓图就变成了十分瘦长的椭圆（相似地形图，卧室数目单位影响更大，所以变动更快，而地形图中变动快的线密集）。这个时候咱们应用梯度降落法，就会来回稳定，降落迟缓

这样的状况下，咱们就会进行特色缩放，让特色的范畴尽可能靠近。这样轮廓图就会就会靠近圆，不再是瘦长的椭圆。这时梯度降落的速率就会变快

一般来说，特色缩放将特色缩放到 - 1 和 1 之间。然而实际上范畴能够大于小于这个范畴，只有别太过分就行

如上图，0~3、-2~0.5 是能够承受不必缩放的，然而 -100~100、0.001 就相差太远，须要用特色缩放。一般来说，-3~3 和 -1/3~1/ 3 是能够承受的，超出就要思考特色缩放

均值归一化

除了梯度学习，也能够通过均值归一化，即让特征值具备 0 的平均值，来让梯度降落更快。减去平均值，除以范畴（最大值 - 最小值）。不肯定齐全准确，大略就行

前边学习了多特色的线性回归，下边咱们来看一下如何抉择适合的特色或者办法

抉择适合的特色：能够本人发明新的特色

在预测房价的例子中，若给予宽度深度两个特色，而真正确定房价的特色应该是面积。所以咱们用深度 * 宽度，失去新的特色面积，用一元线性回归进行预测

即咱们不是给什么特色就用什么特色，而是从特色和标签的角度扫视问题，必要时通过定义新的特色，失去更好地模型

抉择适合的假如函数：理解各种函数的走势

在机器学习中，有时线性函数不能很好的拟合数据，可能要用到非线性函数。如预测房价中，显然直线是不能拟合的；若应用二次函数的话，后边会降回来，然而房价不会因为面积过大降回来，不符合实际；因而咱们思考应用三次函数拟合
正规方程：求最优解参数的另一种办法
- 在前边的线性回归问题中，咱们始终应用梯度降落法求假如函数的最优解参数，这种办法须要通过屡次迭代，来收敛到参数的全局最小值。这里，咱们再引入正规方程的办法，通过矩阵计算，一步得出参数的最优解

先对正规方程有一个直观了解

先从一个参数看起，求最优解，就是求导，而后导数置零失去的参数值
当有多个参数时，对每个参数求偏导数，全副置零时失去的每个参数的值。然而偏微分办法太过简单，因而咱们不应用遍历微分的办法，而是通过矩阵计算失去参数值
假如有 m = 4 个样本数据，首先构建前边的 x 矩阵。每个样本给出本人的特征向量（依然 x0=1），转置后，将第一个数据的向量作为第一行，第二个数据的向量作为第二行，以此类推。而后进行下边的矩阵计算，失去的后果就是参数值

正规方程和梯度降落的比拟

梯度降落法：

（1）若参数不在相近的范畴内，须要梯度缩放或者特色归一化，解决到相近范畴内；特征方程则不须要
（2）须要人为抉择学习速率，尝试不同的学习速率，运行屡次找到最好的那个，带来了额定的工作和麻烦
（3）须要屡次迭代，计算慢

特征方程：

（1）不须要抉择学习速率
（2）运行一次即可
（3）不须要画出曲线查看收敛性

看了上边，仿佛正规方程远优于梯度降落。然而，特征方程须要样本数目 m 和特色量 n 值比拟小。因为矩阵运算相当于矩阵维度的三次方计算，当 m 或 n 太大时，计算会十分慢，还不如用梯度降落快。个别，咱们把一万作为分界点，超过一万就只思考梯度降落法，一万以内正规方程比拟好

而且随着算法越来越简单，后边的分类算法等只能用梯度降落，不能用特征方程解决
##### 应用正规方程的问题：矩阵的不可逆性

当应用正规方程时发现矩阵不可逆怎么办？通常由两种起因引起

（1）某些特色间存在一个固定关系。例如预测房价中，把面积英寸和平方米作为特色，两者存在 3.28 的换算（线性）关系，这会造成矩阵的不可逆
（2）特色数量远大于数据个数。假如咱们有 10 个训练样本，却有 100 个特征值，要从 10 个样本中找到 100 个参数值，太艰难。可能造成矩阵的不可逆。对于 m >>n 的问题，咱们能够通过正则化的线性代数办法，删除某些反复或低效特色解决 m >>n 的问题

正文完

机器学习

发表至：机器学习

2020-08-03

0

关于机器学习:基于管线的混合渲染

关于机器学习:南瓜书第一章

关于机器学习:动手造轮子自己实现人工智能神经网络ANN解决鸢尾花分类问题Golang118实现

关于机器学习:MindSporeThe-operation-does-not-support-the-type-kMetaTypeNone

关于javascript:slicecallarguments原理解析

关于机器学习:机器学习笔记3多元线性回归和正规方程

多元线性回归的假如函数

相干符号含意

多元假如函数的引入

用向量模式示意多元假如函数

多元线性回归的梯度降落法

梯度降落算法的应用技巧

梯度缩放

均值归一化

如何抉择适合的特色和假如函数

抉择适合的特色：能够本人发明新的特色

抉择适合的假如函数：理解各种函数的走势

正规方程：求最优解参数的另一种办法

先对正规方程有一个直观了解

正规方程和梯度降落的比拟

Just My Socks（注册教程内含优惠码）

关于机器学习:机器学习笔记3多元线性回归和正规方程

多元线性回归的假如函数

相干符号含意

多元假如函数的引入

用向量模式示意多元假如函数

多元线性回归的梯度降落法

梯度降落算法的应用技巧

梯度缩放

均值归一化

如何抉择适合的特色和假如函数

抉择适合的特色：能够本人发明新的特色

抉择适合的假如函数：理解各种函数的走势

正规方程：求最优解参数的另一种办法

先对正规方程有一个直观了解

正规方程和梯度降落的比拟

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）