这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新办法
这个办法解冻整个模型,包含PEFT模块,并为每个模块训练一个相似于混合专家(MoE)模型中应用的路由(门控)网络。咱们能够将此办法视为创立MoE模型的一种便宜办法,因为每个专家都只是一个LoRA的adapter。
这种门控网络训练的计算量十分小,并且通过在推理期间应用top-k路由策略进行令牌散发,进步了模型解决未显式训练的工作的能力。
PHATGOOSE的有效性在t5系列模型上进行了测试,与之前专家或依赖单个PEFT模块的办法相比,在规范基准上的零样本泛化方面体现优异。有时它的体现也优于明确指标的多任务训练。
应用PHATGOOSE能够实现更加灵便的模型开发,应用同一个根底模型,针对不同的工作训练专家,并且只共享专家参数,而后将模型主动组合进步泛化能力。
PHATGOOSE办法为每个专家模块训练一个sigmoid门控单元,该单元学习哪些令牌应该应用哪些模块。这些单元被组合成一个路由器,在专家模块之间执行稠密的top-k路由。并且这个办法还反对每个令牌和每个模块的路由,不像过来的检索办法只为每个输出抉择单个专家模型。
作者的试验采纳T5模型,专家模块在两个汇合上训练:T0(36个数据集)和FLAN(166个数据集)。PHATGOOSE在零样本评估中优于过来的路由办法,如检索、合并和均匀基线。
论文提出了一种很有前途的办法,将独立训练的专家模型以扩散的形式组合在一起,进步零样本泛化能力,这是一个十分有意思的钻研方向,并且提供了源代码,所以举荐仔细阅读。
然而目前有一个最大的问题就是它们的代码只针对T5这个模型,作者也在论文中提出了将在后续的工作中将这个办法与现有的LLM进行整合,所以目前咱们还是只能应用T5来进行测试。
论文地址:
https://avoid.overfit.cn/post/e099b8f39fb44497b010d8b929169ac8