这是新加坡国立大学在2022 aaai公布的一篇论文。WideNet是一种参数无效的框架,它的方向是更宽而不是更深。通过混合专家(MoE)代替前馈网络(FFN),使模型沿宽度缩放。应用独自LN用于转换各种语义示意,而不是共享权重。
混合专家(MoEs)
条件计算
对于每个输出,只有一部分暗藏的示意被发送到选定的专家中进行解决。与MoE一样,给定E个可训练的专家,输出用x示意,MoE模型的输入可示意为:
其中e(.)i是第i位专家的非线性变换。g(.)i是可训练路由器g(.)输入的第i个元素。当g(.)为稠密向量时,只会激活局部专家。论文中通过MoE和提出的WideNet,每个专家都是一个FFN层。
路由
为了保障稠密路由g(.),应用TopK()抉择排名靠前的专家:
这里的f(.)为路由线性变换。为高斯噪声。当K<<E时,g(x)的大多数元素为零。
均衡加载
MoE的问题就是要确保每个专家模块都要解决基本相同数量的令牌,所以优化MoE须要解决上面2个次要问题:
1、把太多令牌调配给一个专家
2、单个专家收到的令牌太少
也就是说要保障将令牌平均分配到各个专家模块。
要解决第一个问题,能够减少缓冲区容量B。对于每个专家最多只保留B个令牌。如果超过B=CKNL,则抛弃所有残余的令牌。
然而这个办法也只是解决了太多的问题,依然不能保障所有的专家都能取得足够的令牌进行训练。所以论文采纳了 Switch Transformer的办法,采纳了一个负载平衡的并且可微的损失函数。
上面这个辅助损失会加到训练时的模型总损失中:
m是向量。第i个元素是调配给专家i的令牌的分数.mi的计算如下:
其中h(.)是TopK抉择的索引向量。H (xj)i是H (xj)的第i个元素。
Pi是softmax后路由线性变换的第i个元素。
通过以上的损失函数实现平衡调配。当lbalance最小时,m和P都靠近均匀分布。
WideNet
在不同的Transformer块中应用雷同的路由和专家
WideNet采纳跨Transformer块的参数共享来进步参数效率,采纳MoE层来进步模型容量。WideNet在不同的Transformer块中应用雷同的路由器和专家。
LN
目前来说,例如ALBERT应用的是参数共享的办法,在Transformer块之间共享所有权重。
而WideNet中只有多头留神层和FFN(或MoE)层是共享的,这意味着LN的可训练参数在块之间是不同的,也就是说每一层的LN的权重都不一样。
把论文中的的第i个Transformer块能够写成:
这里的LayerNormal(.)为:
和是可训练向量。LN只须要这两个小向量。
损失函数
只管路由的可训练参数在每个Transformer块中被重用,但因为输出示意的不同,调配也会有所不同。所以给定T次具备雷同可训练参数的路由操作,应用以下损失进行优化:
其中=0.01用作超参数,以确保平衡调配。lmain是Transformer的次要指标。例如,在监督图像分类中,次要是穿插熵损失。
后果(CV & NLP)
ImageNet-1K (CV)
在ImageNet-1K上,WideNet-H实现了最佳性能,显著优于ViT和ViT- moe模型。
与最强基线相比,WideNet-H在可训练参数较少的状况下优于vitb 1.5%。即便对于最小的模型WideNet-B,它依然能够与可训练参数缩小4倍以上的viti - l和viti - moe - b获得相当的性能。当扩充到WideNet-L时,它曾经超过了所有基线,其中vitb的可训练参数为一半,vitl的参数为0.13倍。
GLUE (NLP)
有了更多的专家,WideNet的体现远远超过ALBERT。
领有4位专家的WideNet均匀比ALBERT高出1.2%。当将专家数量E减少到16时,通过合成嵌入参数化,取得的可训练参数略低于BERT, WideNet在所有四个上游工作上的体现也优于BERT,这显示了更宽而不是更深的参数效率和有效性。
融化钻研
专家越多(可训练参数)导致过拟合,只管专家越多意味着建模能力越强。更少的路由操作时,会有显著的性能降落。
对于可训练向量的第i个元素或第j个块,计算该元素与其余块中所有向量的所有其余元素之间的间隔:
式中N为Transformer块的个数,M为向量或的维数。所以WideNet中的和都比ViT中的y大,这意味着MoE比ViT承受更多样化的输出。
这样的后果证实,独自的LN层能够帮忙建设具备共享的大型可训练矩阵(如MoE)的各种语义模型。
如果没有跨Transformer块的参数共享,也会有轻微的性能降落和显著的参数增量。对于没有参数共享的WideNet-H,在256个TPUv3核上训练时遇到内存不足的问题。
当WideNet-L比viti - l应用更少的Transformer块(即12个块)时,WideNet-L的性能比viti - l高0.7%,训练工夫略少,而参数仅为13.1%,与参数共享的viti - l相比,性能则晋升幅度更大。
通过应用参数共享将vitl缩放到更宽的FFN层。会有更多可训练的参数和FLOPs,但不能进步性能(4098 FFN dim到8192 FFN dim)。
论文地址:
Go Wider Instead of Deeper
https://avoid.overfit.cn/post/fd66d50b81fc4e4e83bb3bba42f41dee