关于机器学习:机器学习SVM支持向量机原理推导

54次阅读

共计 1455 个字符，预计需要花费 4 分钟才能阅读完成。

据说 SVM 是机器学习的分水岭，翻过这座大山机器学习就在眼前。本篇将具体介绍 SVM 的原理推导过程，包含线性、近线性、非线性、优化办法等，大量思维都源自于《统计学习办法》和刘顺祥《零根底入门 python 数据挖掘与剖析》。

首先咱们介绍数学中的 间隔公式：

d 示意二位空间的一个点到直线 Ax+By+C= 0 的间隔。

引申出函数距离的概念
此概念是所有 SVM 推导的外围，咱们用式子示意：

式子并不简单，咱们别离介绍参数名称及含意：
等式右边代表 函数距离 ，《统计学习办法》称硬距离。
yi 为样本点类别 yi={1,-1}, 分类用的 - 1 和 1，没有应用 1 和 0 是因为和前面计算无关。
xi 为样本点。
W’ 为超平面参数矩阵 W 的转置。
b 为超平面参数
函数距离性质：
1、函数距离永大于 0，因为样本在超平面两侧正负号不同，分类的正负号也不同。
2、直线 y =W’x+ b 为通过某一样本点的直线，同比例减少 W ’ 和 b 直线不变，然而函数距离会成比例减少，因而咱们须要对原来函数距离进行单位化解决。

此时咱们的函数距离就和间隔公式的间隔是一样的模式了。
此时的 γ 具备几何意义，故城几何距离。

机器学习的要害我认为是结构指标函数，指标函数间接决定了模型的性质。

结构指标函数

这里咱们略微讲一下 SVM 的外围思路，咱们找到一个最大限度辨别样本的超平面。说的十分宽泛无数学含意，咱们能够举个例子，比方印度贫富差距大，但贫富的散布是和天文有关系的，假如某一地区能够用一条线把富人区和贫民区齐全且完满的宰割开来，线是没有面积的，然而咱们心愿这条线尽可能的宽，越宽咱们分的越清晰，甚至咱们能够贴着样本划线获得最宽 宰割带（超平面）。比方挖一条河河越宽两岸的分界线就越显著，剖析预测就越牢靠。放到下面就是咱们要求最大的几何距离 γ，并且咱们所有点都必须在超平面之外，即所有样本点到超平面的间隔都必须大于最大几何距离 γ。

如果超平面参数 w，b 同比例增长，函数距离会成增长，然而几何距离不会，上述关系也不会受到影响。对于函数距离：yi 类别的取值就能够定为任意值，-2,2，-0.1,0.1 这种都行。这样咱们能够使最近的几何距离对应的函数距离取 1。
《统计学习办法》也只是略微提了一下对函数优化没有影响所以取 1，这里我把它细化一下，咱们取的是离超平面最近间隔的点的函数距离取 1，无论你是增缩 yi，还是超平面参数 w、b，都能够做到而且对优化函数没有影响。
如图下图转换函数：

这就转化为一个凸二次布局的问题，普遍存在于机器学习问题。所以要把握。

拉格朗日乘数法：

首先看一下拉格朗日乘数发的模式：

图片展现的是最小的指标函数 f(x)在受到 g(x)>0 的约束条件时的拉格朗日函数模式。其中，λ i 即为拉格朗日乘子，且 λ i >0。上式就称为狭义拉格朗日函数的极小极大问题。在求解极小值问题时，还须要利用对偶性将极小极大问题转换为极大极小问题，即

依据如上介绍的拉格朗日数乘法，就能够将指标函数从新示意为

看似未知变量挺多，然而是能够求最优的问题。
首先咱们求 minw,b 局部，满足最小的指标函数的参数值。
对 w、b 别离求导并令其导函数为 0：

在将求出的 w 值带入原式子，求 max α 的局部。

原来的指标函数通过拉格朗日乘子法的变换，把二次布局的问题变成对于拉格朗日乘子 α 求函数最大值的问题。接下来咱们的问题就是求满足条件的 α。
即：

因为限度条件是个等式，在最优化的时候会好求的多，如果所有的解都不能满足以上条件，则代表 α 只能在边界获得最优化值，带入多个边界值，比拟最优解。
这种算法十分繁琐，于是延长出一种十分好用的算法 SMO 算法。