关于人工智能:Dynamic-ReLU根据输入动态确定的ReLU

5次阅读

共计 1325 个字符,预计需要花费 4 分钟才能阅读完成。

这是我最近才看到的一篇论文,它提出了动静 ReLU (Dynamic ReLU, DY-ReLU),能够将全局上下文编码为超函数,并相应地调整分段线性激活函数。与传统的 ReLU 相比,DY-ReLU 的额定计算成本能够忽略不计,但示意能力明显增强,并且实现简略,所以能够非常简单的对咱们现有的模型进行批改。

Dynamic ReLU (DY-ReLU)

对于给定的输出向量 (或张量)x,DY-ReLU 被定义为具备可学习参数 θ(x) 的函数 fθ(x)(x),该参数适应于输出 x,它包含两个性能:

超函数 θ(x): 用于计算激活函数的参数。

激活函数 fθ(x)(x): 应用参数 θ(x)生成所有通道的激活。

1、函数定义

设传统的或动态的 ReLU 为 y = max(x, 0)。ReLU 能够推广为每个通道 c 的参数分段线性函数。

其中 coeffcients (akc, bkc)是超函数 (x) 的输入,如下:

其中 K 是函数的个数,C 是通道的个数。论文中 K =2。

2、超函数 θ(x)的实现

应用轻量级网络对超函数进行建模,这个超函数相似于 SENet 中的 SE 模块(稍后会介绍)。

输入有 2KC 个元素,对应于 a 和 b 的残差。2σ(x)- 1 用于对 - 1 到 1 之间的残差进行归一化,其中 σ(x)示意 s 型函数。最终输入计算为初始化和残差之和,如下所示:

其中 λ 是标量,这个公式也就是咱们下面的图

3、与先前钻研的关系

能够看到 DY-ReLU 的三种非凡状况相当于 ReLU、Leaky ReLU 和 PReLU。

4、DY-ReLU 的变体

DY-ReLU-A: 激活函数是空间和通道共享的。

DY-ReLU-B: 激活函数是空间共享和通道相干的。

DY-ReLU-C: 激活的是空间和通道离开的。

后果展现

1、融化钻研

所有三种变动都比基线有所改善,但通道离开的 DY-ReLU(变动 B 和 C)显著优于通道共享的 DY-ReLU(变动 A)。

所以依据下面后果,应用 DY-ReLU- B 进行 ImageNet 分类,应用 DY-ReLU- C 进行 COCO 关键点检测。

2、ImageNet 分类

应用 MobileNetV2 (×0.35 和×1.0),用不同的激活函数代替 ReLU。所提出的办法显著优于所有先前的工作,包含具备更多计算成本的 Maxout。这表明 DY-ReLU 不仅具备更强的示意能力,而且计算效率高。

上图绘制了 5 万张验证图像在不同区块 (从低到高) 的 DY-ReLU 输入输出值。能够看到学习到的 DY-ReLU 在特色上是动静的,因为对于给定的输出 x,激活值 (y) 在一个范畴内 (蓝点笼罩的范畴) 变动。

下图剖析 DY-ReLU 中两段之间的夹角(即斜率差 |a1c-a2c|)。激活函数在较高水平上具备较低的蜿蜒。

3、COCO 关键点预计

当应用 MobileNetV3 作为骨干时,删除 SENet 模块,应用 DY-ReLU 代替 ReLU 和 h -Swish 后,后果也有进步。

总结

能够看到,只是应用 DY-ReLU 替换现有的激活函数,模型的体现显著优于基线模型。

这是 ECCV2020 的一篇论文,咱们这里间接贴出 paperswithcode 的地址,这样能够间接拿来进行应用

https://avoid.overfit.cn/post/8db206f03cd54167b9eb2d06ebaffc6b

作者:sh-tsang

正文完
 0