关于人工智能:PHATGOOSE使用LoRA-Experts创建低成本混合专家模型实现零样本泛化

77次阅读

共计 902 个字符，预计需要花费 3 分钟才能阅读完成。

这篇 2 月的新论文介绍了 Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的 PEFT 模块 (如 LoRA) 实现零样本泛化的新办法

这个办法解冻整个模型，包含 PEFT 模块，并为每个模块训练一个相似于混合专家 (MoE) 模型中应用的路由（门控）网络。咱们能够将此办法视为创立 MoE 模型的一种便宜办法，因为每个专家都只是一个 LoRA 的 adapter。

这种门控网络训练的计算量十分小，并且通过在推理期间应用 top- k 路由策略进行令牌散发，进步了模型解决未显式训练的工作的能力。

PHATGOOSE 的有效性在 t5 系列模型上进行了测试，与之前专家或依赖单个 PEFT 模块的办法相比，在规范基准上的零样本泛化方面体现优异。有时它的体现也优于明确指标的多任务训练。

应用 PHATGOOSE 能够实现更加灵便的模型开发，应用同一个根底模型，针对不同的工作训练专家，并且只共享专家参数，而后将模型主动组合进步泛化能力。

PHATGOOSE 办法为每个专家模块训练一个 sigmoid 门控单元，该单元学习哪些令牌应该应用哪些模块。这些单元被组合成一个路由器，在专家模块之间执行稠密的 top- k 路由。并且这个办法还反对每个令牌和每个模块的路由，不像过来的检索办法只为每个输出抉择单个专家模型。

作者的试验采纳 T5 模型，专家模块在两个汇合上训练:T0(36 个数据集)和 FLAN(166 个数据集)。PHATGOOSE 在零样本评估中优于过来的路由办法，如检索、合并和均匀基线。

论文提出了一种很有前途的办法，将独立训练的专家模型以扩散的形式组合在一起，进步零样本泛化能力，这是一个十分有意思的钻研方向，并且提供了源代码，所以举荐仔细阅读。

然而目前有一个最大的问题就是它们的代码只针对 T5 这个模型，作者也在论文中提出了将在后续的工作中将这个办法与现有的 LLM 进行整合，所以目前咱们还是只能应用 T5 来进行测试。

论文地址：
https://avoid.overfit.cn/post/e099b8f39fb44497b010d8b929169ac8

正文完

发表至：人工智能

2024-02-25

0

关于前端:CSS3新增特性及用法