关于神经网络:L1L2正则化

43次阅读

共计 1220 个字符，预计需要花费 4 分钟才能阅读完成。

p 范数的定义

p= 1 时 $\|\boldsymbol{x}\|_{1}:=\sum_{i=1}^{n}\left|x_{i}\right|$
p= 2 时 $\|\boldsymbol{x}\|_{2}:=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{2}\right)^{\frac{1}{2}}$
L1 范数是指向量中各个元素绝对值之和，L2 范数是指向量各元素的平方和而后求平方根。
事实上，等价于在求最优化问题上加一个约束条件。

$t\left(\mathbf{x}_{j}\right)$ 为实在值，$\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)$ 为预测值，在 loss 函数中退出 $\lambda \sum_{i=1}^{k}\left|w_{i}\right|$ 做 l1 正则化。

把问题简单化，当只有两个权重变量 $w_1$ ,$w_2$ 时剖析。椭圆为原指标函数的一条等高线，最优解在 $w_{lin}$ 处，此时的 $w_1$ ,$w_2$ 会造成模型过拟合。退出 L1 范数做为约束条件，保障 $w$ 的地位不能来到红外矩阵，蓝色箭头 $E_{in}$ 为指标函数在该处的梯度方向，$w$ 只能沿着边界向左上方挪动。最终 $w$ 将稳固在顶点处，达到最优解 $w^*$，此时，$w_1$=0，这也就是采纳 l1 范数会使 $w$ 产生 稠密性 的起因。

$\sum_{i=1}^{k} w_{i}^{2}$ 当 i = 2 时，l2 范数为圆。梯度降落法更新 $w$，只能朝着范数球上的 $w$ 处的切线方向更新，既绿色箭头的地位。当静止到 $w^*$ 时切线方向重量为 0，无奈继续移动，达到最优解。
以上剖析基于二维状况，扩大到高维同理。

正文完

神经网络

发表至：神经网络

2021-03-16

0

关于神经网络:强化学习从基础到进阶案例与实践71深度确定性策略梯度DDPG算法详解项目实战

关于神经网络:DWSiam更宽更深的孪生网络

关于神经网络:系列教程-用Jina搭建PDF搜索引擎Part-1

关于神经网络:图片风格迁移基于实例缓解细节丢失人脸风格化失败问题

关于python:BFS算法示例-解开密码锁的最少次数

关于神经网络:L1L2正则化

P 范数

$\|\mathbf{x}\|_{p}:=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}$

L1-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k}\left|w_{i}\right|$

L2-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k} w_{i}^{2}$

L1 范数能够进行特征选择，即让特色的系数变为 0，L2 范数能够避免过拟合，晋升模型的泛化能力。

Just My Socks（注册教程内含优惠码）

关于神经网络:L1L2正则化

P 范数

$\|\mathbf{x}\|_{p}:=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}$

L1-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k}\left|w_{i}\right|$

L2-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k} w_{i}^{2}$

L1 范数能够 进行特征选择 ，即让特色的系数变为 0，L2 范数能够 避免过拟合，晋升模型的泛化能力。

Just My Socks（注册教程 内含优惠码）

L1 范数能够进行特征选择，即让特色的系数变为 0，L2 范数能够避免过拟合，晋升模型的泛化能力。

Just My Socks（注册教程内含优惠码）