关于算法:Transformer相关

作者：

在

架构图

留神点

第一个点为什么要用scaled attention

https://blog.csdn.net/qq_3743…

Q,K的维度越高，QK的内积方差越大。
QK的内积方差越大，softmax后，会呈现有的维度靠近1，其余靠近0，的景象，这种状况下，梯度是最低的，靠近0，学习效率低。

第二个点 Multi-Head Attention

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章