关于深度学习:Attention-Is-All-You-Need图像上使用

参考文章：Attention Is All You Need 用于 NLP 的解说

目标：是用于捕获图像的感触野。

Transformer 的实质是一个 Encoder-Decoder 的构造。在 encoder 中，数据首先会通过一个叫做‘self-attention’的模块失去一个加权之后的特征向量 $Z$，这个 $Z$ 便是论文公式 1 中的 $Attention(Q,K,V)$：

$$
Attention(Q,K,V)=softmax((QK^T)/√(d_k))V（1）
$$
失去 $Z$ 之后，它会被送到 encoder 的下一个模块，即 Feed Forward Neural Network。这个全连贯有两层，第一层的激活函数是 ReLU，第二层是一个线性激活函数，能够示意为

$$
FFN(Z)=max(0,ZW_1+b_1)W_2+b_2（2）
$$