关于算法:Transformer相关 jiezi 3 年前 架构图 留神点 第一个点 为什么要用 scaled attention https://blog.csdn.net/qq_3743… Q,K 的维度越高,QK 的内积方差越大。 QK 的内积方差越大,softmax 后,会呈现有的维度靠近 1,其余靠近 0,的景象,这种状况下,梯度是最低的,靠近 0,学习效率低。 第二个点 Multi-Head Attention
架构图 留神点 第一个点 为什么要用 scaled attention https://blog.csdn.net/qq_3743… Q,K 的维度越高,QK 的内积方差越大。 QK 的内积方差越大,softmax 后,会呈现有的维度靠近 1,其余靠近 0,的景象,这种状况下,梯度是最低的,靠近 0,学习效率低。 第二个点 Multi-Head Attention