关于算法:Transformer相关

jiezi

3 年前

https://blog.csdn.net/qq_3743…

Q,K 的维度越高，QK 的内积方差越大。
QK 的内积方差越大，softmax 后，会呈现有的维度靠近 1，其余靠近 0，的景象，这种状况下，梯度是最低的，靠近 0，学习效率低。

退出移动版