关于神经网络:L1L2正则化

3次阅读

共计 1220 个字符,预计需要花费 4 分钟才能阅读完成。

P 范数

p 范数的定义

$\|\mathbf{x}\|_{p}:=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}$

p= 1 时 $\|\boldsymbol{x}\|_{1}:=\sum_{i=1}^{n}\left|x_{i}\right|$
p= 2 时 $\|\boldsymbol{x}\|_{2}:=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{2}\right)^{\frac{1}{2}}$
L1 范数是指向量中各个元素绝对值之和,L2 范数是指向量各元素的平方和而后求平方根。
事实上,等价于在求最优化问题上加一个约束条件。

L1-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k}\left|w_{i}\right|$

$t\left(\mathbf{x}_{j}\right)$ 为实在值,$\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)$ 为预测值,在 loss 函数中退出 $\lambda \sum_{i=1}^{k}\left|w_{i}\right|$ 做 l1 正则化。

把问题简单化,当只有两个权重变量 $w_1$ ,$w_2$ 时剖析。椭圆为原指标函数的一条等高线,最优解在 $w_{lin}$ 处,此时的 $w_1$ ,$w_2$ 会造成模型过拟合。退出 L1 范数做为约束条件,保障 $w$ 的地位不能来到红外矩阵,蓝色箭头 $E_{in}$ 为指标函数在该处的梯度方向,$w$ 只能沿着边界向左上方挪动。最终 $w$ 将稳固在顶点处,达到最优解 $w^*$,此时,$w_1$=0,这也就是采纳 l1 范数会使 $w$ 产生 稠密性 的起因。

L2-regularization

$\mathbf{w}^{*}=\arg \min _{\mathbf{w}} \sum_{j}\left(t\left(\mathbf{x}_{j}\right)-\sum_{i} w_{i} h_{i}\left(\mathbf{x}_{j}\right)\right)^{2}+\lambda \sum_{i=1}^{k} w_{i}^{2}$


$\sum_{i=1}^{k} w_{i}^{2}$ 当 i = 2 时,l2 范数为圆。梯度降落法更新 $w$,只能朝着范数球上的 $w$ 处的切线方向更新,既绿色箭头的地位。当静止到 $w^*$ 时切线方向重量为 0,无奈继续移动,达到最优解。
以上剖析基于二维状况,扩大到高维同理。

L1 范数能够 进行特征选择 ,即让特色的系数变为 0,L2 范数能够 避免过拟合,晋升模型的泛化能力。

正文完
 0