参考文章:Attention Is All You Need 用于 NLP 的解说
注意力机制 (Attention)
目标:是用于捕获图像的感触野。
Transformer
-
Transformer 的实质是一个 Encoder-Decoder 的构造。在 encoder 中,数据首先会通过一个叫做‘self-attention’的模块失去一个加权之后的特征向量 \(Z\),这个 \(Z\) 便是论文公式 1 中的 \(Attention(Q,K,V)\):
$$
Attention(Q,K,V)=softmax((QK^T)/√(d_k))V(1)
$$ -
失去 \(Z\) 之后,它会被送到 encoder 的下一个模块,即 Feed Forward Neural Network。这个全连贯有两层,第一层的激活函数是 ReLU,第二层是一个线性激活函数,能够示意为
$$
FFN(Z)=max(0,ZW_1+b_1)W_2+b_2(2)
$$