这是我最近才看到的一篇论文,它提出了动静ReLU (Dynamic ReLU, DY-ReLU),能够将全局上下文编码为超函数,并相应地调整分段线性激活函数。与传统的ReLU相比,DY-ReLU的额定计算成本能够忽略不计,但示意能力明显增强,并且实现简略,所以能够非常简单的对咱们现有的模型进行批改。
Dynamic ReLU (DY-ReLU)
对于给定的输出向量(或张量)x,DY-ReLU被定义为具备可学习参数(x)的函数f(x)(x),该参数适应于输出x,它包含两个性能:
超函数(x):用于计算激活函数的参数。
激活函数f(x)(x):应用参数(x)生成所有通道的激活。
1、函数定义
设传统的或动态的ReLU为y = max(x, 0)。ReLU能够推广为每个通道c的参数分段线性函数。
其中coeffcients (akc, bkc)是超函数(x)的输入,如下:
其中K是函数的个数,C是通道的个数。论文中K=2。
2、超函数(x)的实现
应用轻量级网络对超函数进行建模,这个超函数相似于SENet中的SE模块(稍后会介绍)。
输入有2KC个元素,对应于a和b的残差。2(x)-1用于对-1到1之间的残差进行归一化,其中(x)示意s型函数。最终输入计算为初始化和残差之和,如下所示:
其中是标量,这个公式也就是咱们下面的图
3、与先前钻研的关系
能够看到DY-ReLU的三种非凡状况相当于ReLU、Leaky ReLU和PReLU。
4、DY-ReLU的变体
DY-ReLU-A:激活函数是空间和通道共享的。
DY-ReLU-B:激活函数是空间共享和通道相干的。
DY-ReLU-C:激活的是空间和通道离开的。
后果展现
1、融化钻研
所有三种变动都比基线有所改善,但通道离开的DY-ReLU(变动B和C)显著优于通道共享的DY-ReLU(变动A)。
所以依据下面后果,应用DY-ReLU-B进行ImageNet分类,应用DY-ReLU-C进行COCO关键点检测。
2、ImageNet分类
应用MobileNetV2 (×0.35和×1.0), 用不同的激活函数代替ReLU。所提出的办法显著优于所有先前的工作,包含具备更多计算成本的Maxout。这表明DY-ReLU不仅具备更强的示意能力,而且计算效率高。
上图绘制了5万张验证图像在不同区块(从低到高)的DY-ReLU输入输出值。能够看到学习到的DY-ReLU在特色上是动静的,因为对于给定的输出x,激活值(y)在一个范畴内(蓝点笼罩的范畴)变动。
下图剖析DY-ReLU中两段之间的夹角(即斜率差|a1c-a2c|)。激活函数在较高水平上具备较低的蜿蜒。
3、COCO关键点预计
当应用MobileNetV3作为骨干时,删除SENet模块,应用DY-ReLU代替ReLU和h-Swish后,后果也有进步。
总结
能够看到,只是应用DY-ReLU替换现有的激活函数,模型的体现显著优于基线模型。
这是ECCV2020的一篇论文,咱们这里间接贴出paperswithcode的地址,这样能够间接拿来进行应用
https://avoid.overfit.cn/post/8db206f03cd54167b9eb2d06ebaffc6b
作者:sh-tsang