注意力机制最好不要间接在原有的骨干网络(backbone)中增加,免得毁坏原有的预训练参数,最好是backbone之后增加。
增加时,留神留神输出的channels的数量。