拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档]
在机器学习畛域,分类的指标是指将具备类似特色的对象汇集。而一个线性分类器则透过特色的线性组合来做出分类决定,以达到此种目标。对象的特色通常被形容为特征值,而在向量中则形容为特征向量。
- 理论知识
1.1 从线性回归到线性多分类
回归是基于给定的特色,对感兴趣的变量进行值的预测的过程。在数学上,回归的目标是建设从输出数值到监督数值的函数:$$ \hat y=f(x_1,…,x_m) $$ 线性回归限度函数为线性模式,即为:$$ f(x_1,…x_m)=w_0+w_1x_1+…+w_mx_m=\bold x\bold w $$ 其中,$$ \bold x = [1,x_1,x_2,…,x_m]\ \bold w = [w_0,w_1,w_2,…,w_m]^T $$ 也就是找一组参数 ${w_k}^m_{k=1}$,使得在训练集上,函数与预测值尽可能靠近。
对于本次的分类问题来说,线性回归的输入值与分类工作中的目标值不兼容。线性回归的后果范畴为整体实数,而对于本次试验的多分类问题,变量后果即属于的类别,换言之,咱们冀望的后果标签的品种数量和训练样本的总类别数量统一。因而思考应用 softmax 函数来将回归后果映射到品种上,从而示意分类后果。对于 K 分类问题,有:$$ softmax_i(\bold z)=\frac{e^{z_i}}{\sum^K_{k=1}e^{z_k}}\ f_i(\bold x)=softmax_i(\bold{xW})=\frac{e^{\bold{xw_i}}}{\sum^K_{k=1}e^{\bold{xw_k}}} $$ 其中,$\bold W$ 为:$$ \bold W\triangleq \left[\begin{matrix}{\bold w_1,\bold w_2…,\bold w_K}\end{matrix}\right] $$ 易见,所有类的 softmax 函数值之和为 1。每一类的函数值就为它的概率。
1.2 损失函数示意与优化
通过下面的探讨与操作,对于多分类问题,预测后果是在每一类上的概率,即维度数等于类数的向量。与之对应的理论后果能够用独热向量示意,即是本类的那一维度为 1,其余维度为 0 的向量。为了使得预测后果与理论后果尽量靠近,咱们思考用损失函数用于掂量预测后果和理论后果的差距。在数学上,该分类问题等价于找到适合的向量 $\bold w$,使得损失函数最小化。根据本次试验的要求,损失函数须要别离思考穿插熵损失和均方误差损失,即损失函数别离为:$$ L_1(\bold w_1,\bold w_2,…,\bold w_K)=-\frac1N\sum^N_{l=1}\sum^K_{k=1}y_k^{(l)}\log softmax_k(\bold x^{(l)}\bold W)\ L_2(\bold w_1,\bold w_2,…,\bold w_K)=\frac1N\sum^N_{l=1}\sum^K_{k=1}(softmax_k(\bold x^{(l)}\bold W)-y^{(l)}_k)^2 $$ 其中,$y_k^{(l)}$ 是第 $k$ 个 $y^{(l)}$ 的元素。
思考应用梯度降落法使得损失函数最小化。两个损失函数的梯度别离为:$$ \frac{\part L(\bold W)}{\part\bold W}=\frac1N\sum^N_{l=1}\bold x^{(l)T}(softmax(\bold x^{(l)}\bold W)-\bold y^{(l)})\ \frac{\part L(\bold W)}{\part\bold W}=\frac2N\sum^N_{l=1}\bold x^{(l)T}(softmax(\bold x^{(l)}\bold W)-\bold y^{(l)})*(diag(softmax(\bold x^{(l)}\bold W)-softmax(\bold x^{(l)}\bold W)*softmax(\bold x^{(l)}\bold W)^T) $$
梯度降落法的参数更新形式为:$$ \bold W^{(t+1)}=\bold W^{(t)}-r\left.\frac{\part L(\bold W)}{\part\bold W}\right|_{\bold W=\bold W^{(t)}} $$
其中 $r$ 为学习率。对于凹函数,通过适当的学习率,对模型参数进行迭代更新,最终能够收敛到最小值点。