共计 3276 个字符,预计需要花费 9 分钟才能阅读完成。
近期,阿里云机器学习平台 PAI 主导的多篇论文在 ACL 2023 Industry Track 上入选。ACL 是人工智能自然语言解决畛域的顶级国内会议,聚焦于自然语言解决技术在各个利用场景的学术研究。该会议曾推动了预训练语言模型、文本开掘、对话零碎、机器翻译等自然语言解决畛域的外围翻新,在学术和工业界都有微小的影响力。
论文成绩是机器学习平台 PAI 联结阿里巴巴国际贸易事业部、阿里云与华南理工大学联结造就我的项目、复旦大学肖仰华传授团队等独特研发,此次入选意味着阿里云机器学习平台 PAI 自研的自然语言解决和多模态算法,以及算法框架能力达到了寰球业界先进程度,取得了国内学者的认可,展示了中国人工智能技术创新在国内上的竞争力。
论文简述
基于电商多模态概念常识图谱加强的电商场景图文模型 FashionKLIP
图文检索作为一项风行的跨模态工作,在宽泛的工业利用中具备很强的实用价值。视觉 - 语言预训练 (VLP) 模型的蓬勃发展大大提高了跨不同模态数据的示意学习,从而带来了显著的性能晋升。然而,电商畛域的数据具备其本身的个性:1)通用场景的文本大多蕴含残缺的句子构造形容,而电商场景中的形容或查问通常由多个形容性短语组成,形容了产品的材质或格调等细节信息。2)通用畛域的图像通常具备简单的背景;相比之下,商品图像次要蕴含一个大的商品图,没有很多背景物体。基于此论文提出了一种电商常识加强的 VLP 模型 FashionKLIP。一共蕴含两局部内容:数据驱动的构建策略,从大规模电商图文语料库中构建多模态电商概念常识图谱(FashionMMKG);和训练融入常识的训练策略,学习两种模态的图像 - 文本对的示意对齐,并通过将文本示意与 FashionMMKG 中时尚概念的视觉原型示意进行匹配,进一步失去概念对齐。
为了验证 FashionKLIP 办法的实用性,咱们将其利用于阿里巴巴国际部的商品搜寻平台,在图像 - 商品和文本 - 商品两个检索子工作上进行了零样本场景下的验证,并将其与基线办法 CLIP 比拟,试验后果进一步证实了 FashionKLIP 的实用价值及高效性。
面向轻量化文图检索的 Dual-Encoder 模型蒸馏算法 ConaCLIP
文本 - 图像检索(Text-Image Retrieval)的目标是在给出一个特定的文本查问时,从一个大型的图像汇合中检索出一个最相干的图像列表。随着信息交互和社交场景的疾速倒退,该工作始终被认为是跨模态利用的一个要害组成部分,并被各种事实世界的场景所需要,如电子商业平台,网站等。现有的相干模型如 CLIP 在计算资源无限的边缘设施或动静索引场景如私人照片 / 音讯汇合上依然不太实用。为了解决这个问题,咱们的指标是从大规模的预训练双流编码器模型登程,专一于小模型预训练阶段的蒸馏过程,以取得一系列更小、更快、更无效的相应的轻量化模型。与现有的工作不同,咱们的办法引入了全连贯常识交互图(fully-Connected knowledge interaction graph)用于预训练阶段的蒸馏。除了模态内老师 - 学生交互学习之外,咱们的办法还包含模态内学生 - 学生交互学习、模态间老师 - 学生交互学习和模态间学生 - 学生交互学习,如下图所示。
这种为学生网络建设的全连贯图能够看做是多视角和多任务的学习计划的集成,以此能够增强预训练模型所须要的稳健性和有效性。同时咱们倡议,每种类型的学习过程都应该具体地测试各种不同监督策略的成果。咱们将所提出的技术利用于电子商务平台的端到端跨模态检索场景,后果展现咱们在根本保障模型性能的同时显著的升高了模型的存储空间并减少了模型的计算效率。
具备高效推理速度的中文畛域文图生成扩散模型和工具链
Text-to-Image Synthesis(TIS)是指依据文本输出生成图像的技术,给定一段文本指令,应用计算机程序生成合乎文本内容形容的图像。然而,因为预训练语言模型不足特定畛域的实体常识且受限于扩散模型的推理速度,目前开源社区的风行文图生成模型难以反对特定工业畛域的利用。次要问题在于,基于扩散的办法须要应用预训练文本编码器对输出文本进行编码,而后作为扩散模型的 UNet 模型的条件输出。然而目前应用网上收集的文本图像对预训练的文本编码器模型不足特定实体概念的理解能力,难以捕捉特定实体常识,这对于生成真切的实体对象图片至关重要。同时,扩散模型的推理速度和计算成本也是须要思考的重要因素,而迭代逆扩散去噪过程的繁琐计算始终是扩散模型推理速度的瓶颈。咱们提出的新框架用于训练和部署文图生成扩散模型,模型架构如下图所示。为了晋升对特定实体的理解能力,咱们在 CLIP 的文本编码器中注入了丰盛的实体常识,应用常识图谱进行常识加强。与开源 Stable Diffusion 间接利用大规模分层扩散模型不同,咱们在图像扩散模块之后集成了一个基于 ESRGAN 的网络,以进步生成图像的分辨率的同时无效解决了参数量爆炸和耗时长的问题。对于在线部署,咱们基于 FlashAttention 优化的神经架构设计了一个高效的推理流程。生成模型计算图的 Intermediate Representation(IR)通过端到端人工智能编译器 BladeDISC 进一步解决,以进步生成模型的推理速度。
咱们的试验证实,咱们针对特定畛域场景的常识加强模型能够更好地了解畛域常识,并且能够生成更真切和多样化的图像。在推理速度上,咱们应用了端到端人工智能编译器 BladeDISC 以及 FlashAttention 技术来进步模型的推理速度。咱们还将这一技术与阿里云机器学习平台 PAI 进行集成,以展现其在理论利用中的实用价值,用户能够在本人的工作(数据)上一键式的进行训练,微调以及推理本人的模型。
算法开源
为了更好地服务开源社区,上述三个算法的源代码行将奉献在自然语言解决算法框架 EasyNLP 中,欢送 NLP 从业人员和研究者应用。EasyNLP 是阿里云机器学习平台 PAI 团队基于 PyTorch 开发的易用且丰盛的中文 NLP 算法框架,反对罕用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。因为跨模态了解需要的一直减少,EasyNLP 也将反对各种跨模态模型,特地是中文畛域的跨模态模型,推向开源社区,心愿可能服务更多的 NLP 和多模态算法开发者和研究者,也心愿和社区一起推动 NLP/ 多模态技术的倒退和模型落地。
Github 地址:https://github.com/alibaba/EasyNLP
论文汇总
论文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph
论文作者:王小丹、汪诚愚、李磊、李直旭、陈犇、金林波、黄俊、肖仰华、高超
论文 PDF 链接:https://aclanthology.org/2023.acl-industry.16.pdf
论文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval
论文作者:汪嘉鹏、汪诚愚、王小丹、黄俊、金连文
论文 PDF 链接:https://aclanthology.org/2023.acl-industry.8.pdf
论文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed
论文作者:刘冰雁、林炜丰、段忠杰、汪诚愚、吴梓恒、张子鹏、贾奎、金连文、陈岑、黄俊
论文 PDF 链接:https://aclanthology.org/2023.acl-industry.28.pdf
收费支付 交互式建模 PAI-DSW、模型训练 PAI-DLC 5000CU* H 计算资源包,以及价值 500 元模型在线服务 PAI-EAS 抵扣包。