关于人工智能:CV知识点扫盲激活函数篇

最近正值秋招季，很多同学都在忙着温习深度学习相干的基础知识应答面试和口试。这段时间，正好发现自己基础知识也比拟单薄，想系统性的温习和整顿一下。基于这样一个出发点，最近筹备开始一个名为【CV知识点扫盲】的专题文章，帮忙本人和更多人温习计算机视觉中的基础知识，也心愿可能对正在找工作的同学有帮忙。

1、什么是激活函数？

在神经网络中，一个节点的激活函数(Activation Function)定义了该节点在给定的输出变量或输出汇合下的输入。wiki中以计算机芯片电路为例，规范的计算机芯片电路能够看作是依据输出失去开（1）或关（0）输入的数字电路激活函数。激活函数次要用于晋升神经网络解决非线性问题的能力。激活函数各式各样，各有优缺点，目前罕用的有 ReLU、sigmoid、tanh等。

2、为什么须要激活函数？

当不必激活函数时，神经网络的权重和偏差只会进行线性变换。线性方程很简略，然而解决简单问题的能力无限。没有激活函数的神经网络本质上就是一个线性回归模型。为了不便了解，以一个简略的例子来阐明。思考如下网络

在不必激活函数的状况下，该图可用如下公式示意

$$
output =w 7( input 1 * w 1+i n p u t 2 * w 2)+w 8(i n p u t 1 * w 3+i n p u t 2 * w 4)+w 9(i n p u t 1 * w 5+i n p u t 2 * w 6)
$$

本质就是上面的线性方程：

$$
output =\left[\begin{array}{c}w 1 * w 7+w 3 * w 8+w 5 * w 9 \\ w 2 * w 7+w 4 * w 8+w 6 * w 9\end{array}\right] *\left[\begin{array}{c}\text { input } 1 \\ \text { input } 2\end{array}\right] \Longrightarrow Y=W X
$$

若在暗藏层引入激活函数$h(y)=\max (y, 0)$，那么原始式子就无奈用简略线性方程示意了。

$$
output =w 7 * \max ( input 1 * w 1+i n p u t 2 * w 2,0)+w B * \max ( input 1 * w 3+i n p u t 2 * w 4,0)+w 9 * \max ( input 1 * w 5+i n p u t 2 * w 6,0)
$$

3、激活函数的一些个性

非线性(Nonlinear) 当激活函数是非线性的，那么一个两层神经网络也证实是一个通用近似函数通用近似实践。而恒等激活函数则无奈满足这一个性，当多层网络的每一层都是恒等激活函数时，该网络本质等同于一个单层网络。

间断可微(Continuously differentiable) 通常状况下，当激活函数间断可微，则能够用基于梯度的优化办法。（也有例外，如ReLU函数虽不是间断可微，应用梯度优化也存在一些问题，如ReLU存在因为梯度过大或学习率过大而导致某个神经元输入小于0，从而使得该神经元输入始终是0，并且无奈对与其相连的神经元参数进行更新，相当于该神经元进入了“休眠”状态，但ReLU还是能够应用梯度优化的。）二值阶跃函数在0处不可微，并且在其余中央的导数是零，所以梯度优化办法不适用于该激活函数。

枯燥(Monotonic) 当激活函数为枯燥函数时，单层模型的误差曲面肯定是凸面。即对应的误差函数是凸函数，求得的最小值肯定是全局最小值。

一阶导枯燥(Smooth functions with a monotonic derivative) 通常状况下，这些函数体现更好。

原点近似恒等函数(Approximates identity near the origin) 若激活函数有这一个性，神经网络在随机初始化较小的权重时学习更高效。若激活函数不具备这一个性，初始化权重时必须特地小心。

4、机器学习畛域常见的激活函数？

Identity(恒等函数)

形容：一种输出和输入相等的激活函数，比拟适宜线性问题，如线性回归问题。但不适用于解决非线性问题。

方程式：$f(x)=x$

一阶导：$f^{\prime}(x)=1$

图形：

Binary step(单位阶跃函数)

形容： step与神经元激活的含意最贴近，指当刺激超过阈值时才会激发。然而因为该函数的梯度始终为0，不能作为深度网络的激活函数

方程式：$f(x)=\left\{\begin{array}{ll}0 & \text { for } x<0 \\ 1 & \text { for } x \geq 0\end{array}\right.$

一阶导：$f^{\prime}(x)=\left\{\begin{array}{ll}0 & \text { for } x \neq 0 \\ ? & \text { for } x=0\end{array}\right.$

图形：

Sigmoid(S函数又称Logistic逻辑函数)

形容：应用很广的一类激活函数，具备指数函数形态，在物理意义上最靠近生物神经元。并且值域在(0,1)之间，能够作为概率示意。该函数也通常用于对输出的归一化，如Sigmoid穿插熵损失函数。Sigmoid激活函数具备梯度隐没和饱和的问题，一般来说，sigmoid网络在5层之内就会产生梯度隐没景象。

方程式：$f(x)=\sigma(x)=\frac{1}{1+e^{-x}}$

一阶导：$f^{\prime}(x)=f(x)(1-f(x))$

图形：

TanH(双曲正切函数)

形容： TanH与Sigmoid函数相似，在输出很大或很小时，输入简直平滑，梯度很小，不利于权重更新，容易呈现梯度隐没和饱和的问题。不过TanH函数值域在(-1,1)之间，以0为核心拥护称，且原点近似恒等，这些点是加分项。个别二分类问题中，暗藏层用tanh函数，输入层用sigmod函数。

方程式：$f(x)=\tanh (x)=\frac{\left(e^{x}-e^{-x}\right)}{\left(e^{x}+e^{-x}\right)}$

一阶导：$f^{\prime}(x)=1-f(x)^{2}$

图形：

ArcTan(反正切函数)

形容： ArcTen从图形上看相似TanH函数，只是比TanH平缓，值域更大。从一阶导看出导数趋于零的速度比较慢，因而训练比拟快。

方程式：$f(x)=\tan ^{-1}(x)$

一阶导：$f^{\prime}(x)=\frac{1}{x^{2}+1}$

图形：

Softsign函数

形容： Softsign从图形上看也相似TanH函数，以0为核心拥护称，训练比拟快。

方程式：$f(x)=\frac{x}{1+\|x\|}$

一阶导：$f^{\prime}(x)=\frac{1}{(1+\|x\|)^{2}}$

图形：

Rectified linear unit(线性整流函数,ReLU)

形容：比拟风行的激活函数，该函数保留了相似step那样的生物学神经元机制，即高于0才激活，不过因在0以下的导数都是0，可能会引起学习迟缓甚至神经元死亡的状况。

方程式：$f(x)=\left\{\begin{array}{ll}0 & \text { for } x \leq 0 \\ x & \text { for } x>0\end{array}\right.$

一阶导：$f^{\prime}(x)=\left\{\begin{array}{ll}0 & \text { for } x \leq 0 \\ 1 & \text { for } x>0\end{array}\right.$

图形：

Leaky rectified linear unit(带泄露随机线性整流函数,Leaky ReLU)

形容： relu的一个变动，即在小于0局部不等于0，而是加一个很小的不为零的斜率，缩小神经元死亡带来的影响。

方程式：$f(x)=\left\{\begin{array}{ll}0.01 x & \text { for } x<0 \\ x & \text { for } x \geq 0\end{array}\right.$

一阶导：$f^{\prime}(x)=\left\{\begin{array}{ll}0.01 & \text { for } x<0 \\ 1 & \text { for } x \geq 0\end{array}\right.$

图形：

Parameteric rectified linear unit(参数化线性整流函数,PReLU)

形容：也是ReLU的一个变动，与Leaky ReLU相似，只不过PReLU将小于零局部的斜率换成了可变参数α。这种变动使值域会根据α不同而不同。

方程式：$f(\alpha, x)=\left\{\begin{array}{ll}\alpha x & \text { for } x<0 \\ x & \text { for } x \geqslant 0\end{array}\right.$

一阶导：$f^{\prime}(\alpha, x)=\left\{\begin{array}{ll}\alpha & \text { for } x<0 \\ 1 & \text { for } x \geq 0\end{array}\right.$

图形：

Randomized leaky rectified linear unit(带泄露随机线性整流函数,RReLU)

形容：在PReLU根底上将α变成了随机数。

方程式：$f(\alpha, x)=\left\{\begin{array}{ll}\alpha x & \text { for } x<0 \\ x & \text { for } x \geqslant 0\end{array}\right.$

一阶导：$f^{\prime}(\alpha, x)=\left\{\begin{array}{ll}\alpha & \text { for } x<0 \\ 1 & \text { for } x \geq 0\end{array}\right.$

图形：

Exponential linear unit(指数线性函数,ELU)

形容： ELU小于零的局部采纳了负指数模式，相较于ReLU权重能够有负值，并且在输出取较小值时具备软饱和的个性，晋升了对噪声的鲁棒性

方程式：$f(\alpha, x)=\left\{\begin{array}{ll}\alpha\left(e^{x}-1\right) & \text { for } x \leq 0 \\ x & \text { for } x>0\end{array}\right.$

一阶导：$f^{\prime}(\alpha, x)=\left\{\begin{array}{ll}f(\alpha, x)+\alpha & \text { for } x \leq 0 \\ 1 & \text { for } x>0\end{array}\right.$

图形：

Scaled exponential linear unit(扩大指数线性函数,SELU)

形容： ELU的一种变动，引入超参λ和α，并给出了相应取值，这些取值在原论文中（Self-Normalizing Neural Networks）具体推导过程

方程式：$f(\alpha, x)=\lambda\left\{\begin{array}{ll}\alpha\left(e^{x}-1\right) & \text { for } x<0 \\ x & \text { for } x \geq 0\end{array}\right.$$with \quad \lambda=1.0507 \quad and \quad \alpha=1.67326$

一阶导：$f^{\prime}(\alpha, x)=\lambda\left\{\begin{array}{ll}\alpha\left(e^{x}\right) & \text { for } x<0 \\ 1 & \text { for } x \geq 0\end{array}\right.$

图形：

S-shaped rectified linear activation unit(S型线性整流激活函数,SReLU)

形容：也是ReLU的一种变动，不同的是该函数有三个分段，四个超参数，这种设置使函数图形看起来像S型。

方程式：

$$
f_{t_{l}, a_{l}, t_{r}, a_{r}}(x)=\left\{\begin{array}{ll}t_{l}+a_{l}\left(x-t_{l}\right) & \text { for } x \leq t_{l} \\ x & \text { for } t_{l}<x<t_{r} \\ t_{r}+a_{r}\left(x-t_{r}\right) & \text { for } x \geq t_{r}\end{array}\right.
$$

一阶导：

$$
f_{t_{l}, a_{l}, t_{r}, a_{r}}^{\prime}(x)=\left\{\begin{array}{ll}a_{l} & \text { for } x \leq t_{l} \\ 1 & \text { for } t_{l}<x<t_{r} \\ a_{r} & \text { for } x \geq t_{r}\end{array}\right.
$$

图形：

SoftPlus函数

形容：是ReLU的平滑代替，函数在任何中央间断且值域非零，防止了死神经元。不过因不对称且不以零为核心，能够影响网络学习。因为导数必然小于1，所以也存在梯度隐没问题。

方程式：

$$
f(x)=\ln \left(1+e^{x}\right)
$$

一阶导：

$$
f^{\prime}(x)=\frac{1}{1+e^{-x}}
$$

图形：

Bent identity(蜿蜒恒等函数)

形容：能够了解为identity和ReLU之间的一种折中，不会呈现死神经元的问题，不过存在梯度隐没和梯度爆炸危险。

方程式：

$$
f(x)=\frac{\sqrt{x^{2}+1}-1}{2}+x
$$

一阶导：

$$
f^{\prime}(x)=\frac{x}{2 \sqrt{x^{2}+1}}+1
$$

图形：

Sinusoid(正弦函数)

形容： Sinusoid作为激活函数，为神经网络引入了周期性，且该函数处处分割，以零点对称。

方程式：

$$
f(x)=\sin (x)
$$

一阶导：

$$
f^{\prime}(x)=\cos (x)
$$

图形：

Sinc函数

形容： Sinc函数在信号处理中尤为重要，因为它表征了矩形函数的傅立叶变换。作为激活函数，它的劣势在于处处可微和对称的个性，不过容易产生梯度隐没的问题。

方程式：

$$
f(x)=\left\{\begin{array}{ll}1 & \text { for } x=0 \\ \frac{\sin (x)}{x} & \text { for } x \neq 0\end{array}\right.
$$

一阶导：

$$
f^{\prime}(x)=\left\{\begin{array}{ll}0 & \text { for } x=0 \\ \frac{\cos (x)}{x}-\frac{\sin (x)}{x^{2}} & \text { for } x \neq 0\end{array}\right.
$$

图形：

Gaussian(高斯函数)

形容：高斯激活函数不罕用。

方程式：

$$
f(x)=e^{-x^{2}}
$$

一阶导：

$$
f^{\prime}(x)=-2 x e^{-x^{2}}
$$

图形：

Hard Sigmoid(分段近似Sigmoid函数)

形容：是Sigmoid函数的分段线性近似，更容易计算，不过存在梯度隐没和神经元死亡的问题
方程式：

$$
f(x)=\left\{\begin{array}{ll}0 & \text { for } x<-2.5 \\ 0.2 x+0.5 & \text { for }-2.5 \geq x \leq 2.5 \\ 1 & \text { for } x>2.5\end{array}\right.
$$

一阶导：

$$
f^{\prime}(x)=\left\{\begin{array}{ll}0 & \text { for } x<-2.5 \\ 0.2 & \text { for }-2.5 \geq x \leq 2.5 \\ 0 & \text { for } x>2.5\end{array}\right.
$$

图形：

Hard Tanh(分段近似Tanh函数)

形容： Tanh激活函数的分段线性近似。

方程式：

$$
f(x)=\left\{\begin{array}{ll}-1 & \text { for } x<-1 \\ x & \text { for }-1 \geq x \leq 1 \\ 1 & \text { for } x>1\end{array}\right.
$$

一阶导：

$$
f^{\prime}(x)=\left\{\begin{array}{ll}0 & \text { for } x<-1 \\ 1 & \text { for }-1 \geq x \leq 1 \\ 0 & \text { for } x>1\end{array}\right.
$$

图形：

LeCun Tanh(也称Scaled Tanh,按比例缩放的Tanh函数)

形容： Tanh的缩放版本

方程式：

$$
f(x)=1.7519 \tanh \left(\frac{2}{3} x\right)
$$

一阶导：

$$
\begin{aligned} f^{\prime}(x) &=1.7519 * \frac{2}{3}\left(1-\tanh ^{2}\left(\frac{2}{3} x\right)\right) \\ &=1.7519 * \frac{2}{3}-\frac{2}{3 * 1.7519} f(x)^{2} \end{aligned}
$$

图形：

Symmetrical Sigmoid(对称Sigmoid函数)

形容：是Tanh的一种代替办法，比Tanh形态更扁平，导数更小，降落更迟缓。

方程式：

$$
\begin{aligned} f(x) &=\tanh (x / 2) \\ &=\frac{1-e^{-x}}{1+e^{-x}} \end{aligned}
$$

一阶导：

$$
\begin{aligned} f^{\prime}(x) &=0.5\left(1-\tanh ^{2}(x / 2)\right) \\ &=0.5\left(1-f(x)^{2}\right) \end{aligned}
$$

图形：

Complementary Log Log函数

形容：是Sigmoid的一种代替，相较于Sigmoid更饱和。

方程式：

$$
f(x)=1-e^{-e^{x}}
$$

一阶导：

$$
f^{\prime}(x)=e^{x}\left(e^{-e^{x}}\right)=e^{x-e^{x}}
$$

图形：

Absolute(绝对值函数)

形容：导数只有两个值。

方程式：

$$
f(x)=|x|
$$

一阶导：

$$
f^{\prime}(x)=\left\{\begin{array}{ll}-1 & \text { for } x<0 \\ 1 & \text { for } x>0 \\ ? & \text { for } x=0\end{array}\right.
$$

图形：

5、transformer FFN层用的激活函数是什么？为什么？

ReLU。ReLU的长处是收敛速度快、不会呈现梯度隐没or爆炸的问题、计算复杂度低。

6、 Bert、GPT、GPT2中用的激活函数是什么？为什么？

Bert、GPT、GPT2、RoBERTa、ALBERT都是用的Gelu。

$$
\operatorname{GELU}(x)=x P(X \leq x)=x \Phi(x)
$$

直观了解：x做为神经元的输出，P(X<=x)越大，x就越有可能被保留；否则越小，激活函数输入就趋近于0.

7、如何抉择激活函数

用于分类器时，二分类为Sigmoid，多分类为Softmax，这两类个别用于输入层；
对于长序列的问题，暗藏层中尽量避免应用Sigmoid和Tanh，会造成梯度隐没的问题；
Relu在Gelu呈现之前在大多数状况下比拟通用，但也只能在隐层中应用；
当初2022年了，暗藏层中次要的抉择必定优先是Gelu、Swish了。

8、ReLU的优缺点？

长处：

从计算的角度上，Sigmoid和Tanh激活函数均须要计算指数，复杂度高，而ReLU输出一个数值即可失去激活值；
ReLU函数被认为有生物上的解释性，比方单侧克制、宽兴奋边界（即兴奋水平也能够十分高）人脑中在同一时刻大略只有1 ∼ 4%的神经元处于沉闷状态，所以单侧克制提供了网络的稠密表达能力，宽激活边界则能无效解决梯度隐没等问题。

毛病：

ReLU和Sigmoid一样，每次输入都会给后一层的神经网络引入偏置偏移，会影响梯度降落的效率。
ReLU神经元死亡的问题，不失常的一次参数更新，可能是使得激活项为0，当前的梯度更新也为0，神经元死亡。

【技术交换】

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

举荐退出FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

面向小白的顶会论文外围代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向科研小白的YOLO指标检测库：https://github.com/iscyy/yoloair

参考：

https://www.jianshu.com/p/466e54432bac

https://zhuanlan.zhihu.com/p/354013996

https://blog.csdn.net/qq\_22795223/article/details/106184310

本文由mdnice多平台公布

关于人工智能:CV知识点扫盲激活函数篇

1、什么是激活函数？

2、为什么须要激活函数？

3、激活函数的一些个性

4、机器学习畛域常见的激活函数？

Identity(恒等函数)

Binary step(单位阶跃函数)

Sigmoid(S函数又称Logistic逻辑函数)

TanH(双曲正切函数)

ArcTan(反正切函数)

Softsign函数

Rectified linear unit(线性整流函数,ReLU)

Leaky rectified linear unit(带泄露随机线性整流函数,Leaky ReLU)

Parameteric rectified linear unit(参数化线性整流函数,PReLU)

Exponential linear unit(指数线性函数,ELU)

Scaled exponential linear unit(扩大指数线性函数,SELU)

S-shaped rectified linear activation unit(S型线性整流激活函数,SReLU)

SoftPlus函数

Bent identity(蜿蜒恒等函数)

Sinusoid(正弦函数)

Sinc函数

Gaussian(高斯函数)

Hard Sigmoid(分段近似Sigmoid函数)

Hard Tanh(分段近似Tanh函数)

LeCun Tanh(也称Scaled Tanh,按比例缩放的Tanh函数)

Symmetrical Sigmoid(对称Sigmoid函数)

Complementary Log Log函数

Absolute(绝对值函数)

5、transformer FFN层用的激活函数是什么？为什么？

6、 Bert、GPT、GPT2中用的激活函数是什么？为什么？

7、如何抉择激活函数

8、ReLU的优缺点？

【技术交换】

参考：

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复