关于算法:Transformer相关

架构图

留神点

第一个点 为什么要用scaled attention


https://blog.csdn.net/qq_3743…

  1. Q,K的维度越高,QK的内积方差越大。
  2. QK的内积方差越大,softmax后,会呈现有的维度靠近1,其余靠近0,的景象,这种状况下,梯度是最低的,靠近0,学习效率低。

第二个点 Multi-Head Attention

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理