架构图 留神点第一个点 为什么要用scaled attentionhttps://blog.csdn.net/qq_3743... Q,K的维度越高,QK的内积方差越大。QK的内积方差越大,softmax后,会呈现有的维度靠近1,其余靠近0,的景象,这种状况下,梯度是最低的,靠近0,学习效率低。第二个点 Multi-Head Attention