关于算法:注意力机制的激活函数自适应参数化ReLU激活函数

本文在综述传统激活函数和注意力机制的根底上,解读了一种注意力机制下的激活函数,即自适应参数化修改线性单元(Adaptively Parametric Rectifier Linear Unit,APReLU)。

1.激活函数

激活函数是人工神经网络的重要组成部分,其作用是实现人工神经网络的非线性化。咱们首先介绍几种最常见的激活函数,即Sigmoid、Tanh和ReLU激活函数,别离如下图:

Sigmoid和Tanh激活函数的梯度取值范畴别离是(0,1)和(-1,1)。当层数较多时,神经网络可能会遭逢梯度隐没的问题。ReLU激活函数的梯度要么是零,要么是一,可能很好地防止梯度隐没和梯度爆炸的问题,因而在近年来失去了宽泛的利用。

然而,ReLU激活函数仍然存在一点瑕疵。如果在人工神经网络的训练过程中,遇到了特色全副小于零的状况,那么ReLU激活函数的输入就全副为零。这个时候就训练失败了。为了防止这种状况,有些学者就提出了leaky ReLU激活函数,不将小于零的特色置为零,而是将小于零的特色乘以一个很小的系数,例如0.1和0.01。

在leaky ReLU中,这个系数的取值是人工设置的。然而人工设置的系数未必是最佳的,因而何恺明等人提出了Parametric ReLU激活函数(参数化ReLU激活函数,PReLU激活函数),将这个系数设置为一个能够训练失去的参数,在人工神经网络的训练过程中和其余参数一起采纳梯度降落法进行训练。然而,PReLU激活函数有一个特点:一旦训练过程实现,则PReLU激活函数中的这个系数就变成了固定的值。换言之,对于所有的测试样本,PReLU激活函数中这个系数的取值是雷同的。

到这里咱们就大略介绍了几种罕用的激活函数。这些激活函数有什么问题呢?咱们能够思考一下,如果一个人工神经网络采纳上述的某种激活函数,抑或是上述多种激活函数的组合,那么这个人工神经网络在训练实现之后,在被利用于测试样本时,对全副测试样本所采纳的非线性变换是雷同的。也就是说,所有的测试样本,都会经验雷同的非线性变换。这其实是一种比拟板滞的形式。

如下图所示,咱们如果以右边的散点图示意原始特色空间,以左边的散点图示意人工神经网络所学习失去的高层特色空间,以散点图中的小圆点和小方块代表两种不同类别的样本,以F、G和H示意非线性函数。那么这些样本是通过雷同的非线性函数实现原始特色空间到高层特色空间的变换的。也就是说,图片中的“=”意味着,对于这些样本,它们所经验的非线性变换是完全相同的。

那么,咱们能不能依据每个样本的特点,独自为每个样本设置激活函数的参数、使每个样本经验不同的非线性变换呢?本文后续所要介绍的APReLU激活函数,就做到了这一点。

2.注意力机制

本文所要介绍的APReLU激活函数借鉴了经典的Squeeze-and-Excitation Network(SENet),而SENet是一种经典的、注意力机制下的深度学习办法。SENet的基本原理如下图所示:

这里介绍一下SENet所蕴含的思维。对于许多样本而言,其特色图中的各个特色通道的重要水平很可能是不同的。例如,样本A的特色通道1十分重要,特色通道2不重要;样本B的特色通道1不重要,特色通道2很重要;那么在这个时候,对于样本A,咱们就应该把注意力集中在特色通道1(即赋予特色通道1更高的权重);反过来,对于样本B,咱们应该把注意力集中在特色通道2(即赋予特色通道2更高的权重)。

为实现这个目标,SENet通过一个小型的全连贯网络,学习失去了一组权重系数,对原先特色图的各个通道进行加权。通过这种形式,每个样本(包含训练样本和测试样本)都有着本人独特的一组权重,用于本身各个特色通道的加权。这其实是一种注意力机制,即留神到重要的特色通道,进而赋予其较高的权重。

3.自适应参数化修改线性单元(APReLU)激活函数

APReLU激活函数,在实质上,就是SENet和PReLU激活函数的集成。在SENet中,小型全连贯网络所学习失去的权重,是用于各个特色通道的加权。APReLU激活函数也通过一个小型的全连贯网络取得了权重,进而将这组权重作为PReLU激活函数里的系数,即正数特色的权重。

APReLU激活函数的基本原理如下图所示。

咱们能够看出,在APReLU激活函数中,其非线性变换的函数模式是和PReLU激活函数截然不同的。惟一的差异在于,APReLU激活函数里对正数特色的权重系数,是通过一个小型全连贯网络学习失去的。当人工神经网络采纳APReLU激活函数时,每个样本都能够有本人独特的权重系数,即独特的非线性变换(如下图所示)。同时,APReLU激活函数的输出特色图和输入特色图有着雷同的尺寸,这意味着APReLU能够被轻易地嵌入到现有的深度学习算法之中。

综上所述,APReLU激活函数使每个样本都能够有本人独特的一组非线性变换,提供了一种更灵便的非线性变换形式,具备进步模式识别准确率的后劲。

参考文献:

Zhao M., Zhong S., Fu X., et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458.

【腾讯云】轻量 2核2G4M,首年65元

阿里云限时活动-云数据库 RDS MySQL  1核2G配置 1.88/月 速抢

本文由乐趣区整理发布,转载请注明出处,谢谢。

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据