共计 2380 个字符,预计需要花费 6 分钟才能阅读完成。
大规模语言模型畛域迎来新“选手”。近日,微信 AI 推出自研 NLP 大规模语言模型 WeLM,该模型是一个尺寸正当的中文模型,可能在零样本以及少样本的情境下实现包多语言工作在内的多种 NLP 工作。
同时,微信 AI 团队也提供了 WeLM 的体验网页和 API 接口,感兴趣的用户可返回 https://welm.weixin.qq.com/docs/ 体验和申请 API 接口,相干技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也曾经公布于论文预印本网站 arXiv。
NLP 大模型迎新选手,WeLM 提供交互式网页 PlayGround 和 API 接口
在近几年自然语言解决(NLP)畛域的倒退浪潮中,OpenAI 开发的自然语言解决模型 GPT-3 无疑风头无两,公布之初便以 1750 亿参数规模的预训练模型所体现进去的零样本与小样本学习能力刷新了人们的认知,也引爆了 AI 大模型钻研的热潮。
对业界来说,预训练大模型升高了 AI 利用的门槛,间隔“AI 把人类从重复性劳动中解放出来”的宏伟目标越来越近,目前,基于 GPT-3,寰球开发者曾经摸索出包含编程、回复邮件、UI 设计、答复数学问题、法律语言转化、总结中心思想、推理、文本处理等广泛应用场景,并且,各国研究者在多语言 / 多任务等角度的摸索也正在谱写大模型百家争鸣的新篇章。
而在国内以中文为外围的大规模语言模型畛域,微信 AI 推出的百亿级别大规模语言模型 WeLM,便是大模型百家争鸣中的新选手。
据介绍,WeLM 是一个百亿级别的中文模型,可能在零样本以及少样本的情境下实现包含对话 - 采访、浏览了解、翻译、改写、续写、多语言浏览了解在内的多种 NLP 工作,并具备记忆能力、自我纠正和查看能力。并且,WeLM 具备尺寸正当的劣势,在 14 项中文 NLP 工作上,WeLM 的整体体现超出了所有同大小的模型,甚至可能匹配比它大 25 倍的模型。
以被普遍认为是更艰难的 NLP 工作的文本格调转换(改写)为例,只管用户给出的 5 个例子和最初须要生成的例子并没有重合的格调转换类型,但 WeLM 领有杰出的触类旁通能力,通过学习大量的文本转换例子即可达到对任意类型的文本转换。并且,WeLM 在对话 - 采访、浏览了解、翻译、续写等多个中文文本生成工作中有着同样优异的体现。
除了具备弱小的中文了解和生成能力,WeLM 还领有解决跨多语言(中英日)工作的能力。以“微信 AI 推出の WeLM 是一个 language model that いろいろな task を perform ができる”这句混合中日英三国语言的文本为例,WeLM 的翻译相较 Google 翻译更为精准。
而且,在进一步微调后,WeLM 能够领有更好的零样本学习能力,能够依据场景领有更好的体现。目前,WeLM 曾经部署利用于微信视频号的局部场景中,将来在进一步优化后还将利用于更多微信利用场景。
同时,为进一步推动 WeLM 成为真正能落地且实用的工具,微信 AI 团队还公布了一个供用户体验的交互式网页 PlayGround,并凋谢了用于拜访 WeLM 的 API 接口。
目前,用户可通过 https://welm.weixin.qq.com/docs/ 体验 WeLM 的相干能力,并通过调整配置以实现更贴近的文本生成成果。对于想接入 WeLM 的开发者,也可通过 https://welm.weixin.qq.com/do… 填写问卷后取得 WeLM 的 API Token 并调用相应接口,将 WeLM 部署在本人的利用上。
具备极强常识储备,WeLM 在 14 项中文 NLP 工作中体现亮眼
据介绍,在纯 Encoder(Bert)、纯 Decoder(GPT) 以及 Encoder-Decode(T5) 构造等支流 NLP 模型门路的抉择上,WeLM 和 GPT3、Google PaLM 一样,抉择了自回归模型的路线。同时,思考到不同的用户对于模型成果和推理提早会有考量或者取舍(trade-off),微信 AI 的 WeLM 训练了 1.3B、2.7B 以及 10B 三个版本的模型,满足不同用户的调用需要。
同时,在训练数据上,微信 AI 团队心愿构建一个足够丰盛、足够洁净、足够偏心的数据集,为此钻研团队从 Common Crawl 下载了近两年的中文网页数据,和大量的书籍、新闻。为了加强业余能力,微信 AI 团队还在数据集补充了常识密集的论坛数据和一些学术论文,收集实现后的全量数据 10TB,其中蕴含了 750G 的英文数据,并保留了局部日韩文。
随后,通过规定过滤和额定训练的二分类 fasttext 模型,以及对测评相干数据的去除,数据集最终解决完的数据量为 262B tokens。为了更好的均衡各个数据源的比重,微信 AI 团队也对数据进行不同比重的采样,最终,整体数据集的 Topic 散布相比 Common Crawl 更加平滑。
在与业界同级别的 CPM、华为 Pangu 和百度 Ernie3.0 的比照测试中,WeLM 体现出极强的常识储备,在 14 项中文 NLP 工作上,WeLM 的整体体现超出了所有同大小的模型,甚至可能匹配比它大 25 倍的模型。同时,在弱小的中文了解和生成能力外,WeLM 还有杰出的多语言理解能力,用户的输出能够在中日英上丝滑切换。
目前,WeLM 的相干技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》曾经公布于论文预印本网站 arXiv,感兴趣的用户可返回 https://arxiv.org/abs/2209.10372 查看更多技术细节。
在 NLP 畛域,让大模型成为真正能落地且实用的工具,是每一位 NLP 畛域的研究者矢志不渝的方向。将来,微信 AI 也将针对 WeLM 进行进一步的微调优化,进一步晋升其在新工作上的泛化成果,也欢送更多开发者、用户前来体验 WeLM 并提出宝贵意见和倡议,帮忙该模型早日成为真正能落地且实用的工具,独特摸索人工智能的倒退之路。