关于机器学习:深度学习中的正则化一

39次阅读

共计 1093 个字符，预计需要花费 3 分钟才能阅读完成。

本文首发自公众号：RAIS，点击间接关注。

本系列文章为《Deep Learning》读书笔记，能够参看原书一起浏览，成果更佳。本文咱们聊一聊深度学习中的正则化。

一般来说，深度学习所要做的事件是用已有的训练集训练一个网络模型，而后针对新的数据给出预测，咱们冀望咱们的模型在训练集和测试集上都有良好的体现，然而有的时候两者不可兼得。一种状况是在训练集上体现很好，在测试集上体现不好或体现个别；另一种状况是在训练集上体现不好或体现个别，在测试集上体现很好。相比较而言咱们更偏向于后者，因为这是咱们训练模型的目标。

为什么会呈现这种状况，难道不是应该训练集上体现的越好在测试集上体现越好吗？不是的，咱们在后面的文章中剖析过，适度的拟合一个训练集往往会放大哪些没有那么重要的向量或因素，过拟合会导致泛化能力的降落，正则化就是为了减小测试误差的，尽管有的时候可能会以增大训练误差为代价，然而这是值得的，这些策略统称为正则化。上面给出一个简略的非谨严的正则化定义：

正则化：减小泛化误差而不是训练误差所做的对算法的批改

咱们常常会对预计进行正则化，预计的正则化采取的形式是以偏差的增大来换取方差的减小，尤其是显著的减小方差而较小的增大偏差往往是咱们谋求的指标。接下来咱们就别离剖析介绍一下正则化的策略。

$$
\widetilde{J}(θ; X, y) = J(θ; X, y) + αΩ(θ), α∈[0, ∞)
$$

α 是惩办参数，当 α 为 0 时代表没有惩办；Ω 是范数惩办项；J 为指标。神经网络中，参数包含每一层的仿射变换的权重和偏置，咱们只对权重做惩办。

L2 正则化 (权重衰减)

感知有较高方差输出，与输入指标协方差较小的特色的权重会膨胀。

$$
指标函数：\widetilde{J}(θ; X, y) = J(θ; X, y) + \frac{α}{2}w^Tw,Ω(θ)=\frac{1}{2}||w||^2_2
$$

$$
梯度：\nabla_w\widetilde{J}(θ;X,y)=αw+\nabla_wJ(θ;X,y)
$$

$$
单步梯度降落更新权重：w\leftarrow w-\epsilon(αw+\nabla_wJ(θ;X,y))
$$

L1 正则化

$$
指标函数：\widetilde{J}(θ; X, y) = J(θ; X, y) + α||w||_1
$$

$$
梯度：\nabla_w\widetilde{J}(θ;X,y)=αsign(w)+\nabla_wJ(θ;X,y)
$$

本文形容了正则化策略中最常见的一种，参数范数惩办，并介绍了 L2 和 L1 两种最常见的范数惩办策略。

本文首发自公众号：RAIS，点击间接关注。

正文完

机器学习

发表至：机器学习

2020-07-19

0

哈工大版Dynamic-ReLU自适应参数化ReLU调参记录23Cifar109547

关于机器学习:EE1612

关于机器学习:OpenAI-和谷歌最怕的是一张开源笑脸

关于机器学习:搞定数据管道会-SQL-查询就够了

关于javascript:邂逅react十一-react中的插槽

关于机器学习:深度学习中的正则化一

前言

深度学习中的正则化

正则化的策略

参数范数惩办

L2 正则化 (权重衰减)

L1 正则化

总结

Just My Socks（注册教程内含优惠码）

关于机器学习:深度学习中的正则化一

前言

深度学习中的正则化

正则化的策略

参数范数惩办

L2 正则化 (权重衰减)

L1 正则化

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）