关于人工智能:这就是大模型时代的生产力

文心与飞桨，向咱们展现了当先大模型的生产力。

大模型利用卷到了什么境地？几天前，咱们看到的还是写文章、画图、答复数学问题，当初曾经有人这么用了：

如果把一长段对话转发到别的群聊里，AI 能够主动生成总结。拿到数据后，间接进行有理有据还配图的剖析。
从市场剖析、品牌构建、到输入视频广告，全副流程只需和 AI 进行简略对话就能实现。这是刚刚完结的 WAVE SUMMIT 大会上，百度展现的文心大模型、飞桨平台、AI 原生利用如流等一系列技术、产品及生态成绩。

最近一段时间，大语言模型获得了令人震撼的技术冲破。以大语言模型为代表的人工智能正在深刻千行百业，减速产业降级和经济增长。百度首席技术官、深度学习技术及利用国家工程钻研核心主任王海峰示意，大语言模型具备了了解、生成、逻辑、记忆等人工智能的外围根底能力，为通用人工智能带来曙光。

王海峰进一步示意，人工智能具备多种典型能力，了解、生成、逻辑、记忆是其中的外围根底能力，这四项能力越强，越靠近通用人工智能。

面对人工智能的这次重要改革，飞桨和文心大模型这两个百度核心技术拿出了一系列当先的公布。

国内的 AI 畛域中，百度始终走在技术的前沿，最早能够追溯到 2019 年 3 月公布的 ERNIE 1.0。往年 3 月，百度又率先揭幕了自研常识加强大语言模型「文心一言」，其通过数万亿数据、千亿常识的训练，并采纳了有监督精调、人类反馈的强化学习和提醒等技术，具备常识加强、检索加强和对话加强等技术劣势。

文心大模型的最新版本是前不久公布的 3.5 版。百度团体副总裁、深度学习技术及利用国家工程钻研核心副主任吴甜示意，文心一言熟练掌握的创作体裁超过 200 种，涵盖了简直所有写作需要，内容丰盛度是初期的 1.6 倍、思维链长度是初期的 2.1 倍，知识点笼罩是初期的 8.3 倍。

新版本中，文心大模型进一步在根底模型、常识加强、检索加强等核心技术上进行翻新，实现了根底模型、精调技术、知识点加强、逻辑推理、插件机制等方面的改良。

其中在常识和检索加强根底上，文心大模型 3.5 提出「知识点加强技术」，让模型可能更好地利用精密的知识点来晋升了解生成能力，晋升了对世界常识的把握和使用。

推理方面，通过大规模逻辑数据构建、逻辑常识建模、多粒度语义常识组合以及符号神经网络技术，文心大模型晋升了逻辑推理、数学计算及代码生成等工作上的体现。

能给咱们带来更显著感知的是插件。咱们晓得，在理论利用时大模型有时会面临数据无限，能力不够专精的问题。在 3.5 版本上，文心大模型新增了插件机制，已上线的官网插件有百度搜寻、览卷文档、一镜流影、说图解画、E 言易图。其中：

百度搜寻 是默认插件，让文心一言具备了取得实时精确信息的能力。
览卷文档 借助文档智能模型及搜寻零碎可实现对文档的格局、布局等信息的充沛了解及定位，冲破了大模型对文档长度了解的限度。当初咱们能利用文心与文档进行「对话」，解决针对文档的摘要、问答及创作的需要。
一镜流影 依靠文心跨模态大模型，冲破了不同模态之间语义对齐等技术难题，翻新交融文本、视觉、语音、跨模态等一系列技术能力，用户仅需简略输出文字，即可在 1 分钟内取得残缺视频。
说图解画 接入文心跨模态大模型，实现了图片了解的能力，不仅能够让 AI「看图谈话」、还可深刻了解图片气氛和情感。用户上传上传图片即可满足随拍发文、电商配文等图片配文需要，也以帮你激发灵感。
E 言易图 则实现了将文字需要转化为可视化图表的需要。仅需简略的数据图表需要，或输出待生成图标的数据内容，即可生成可交互图表，帮助用户实现数据分析、洞察及图表信息的交互演示。据理解，E 言易图已反对 7 类图表的生成，包含数据图、饼状图、折线图、雷达图、漏斗图、思维导图、散点图。

在现场，吴甜演示了文心一言利用插件的形式，在和 AI 对话的过程中，当初你已能够让大模型进行总结长文内容，图表展现数据，读取图像、生成文案，甚至还能合成带语音的视频。文心一言只花了 5 分钟，就实现了从行业调研、品牌剖析抉择到生成宣传视频，这样一个残缺场景的工作。

插件进一步扩大了大模型的能力边界，对于文心大模型生态也至关重要。百度示意，文心一言还将上线更多优质官网和第三方插件，同时逐渐凋谢插件生态，帮忙开发者基于文心大模型打造 AI 原生利用。

为实现这一指标，百度依靠于「文心一言」的核心技术，提供了插件开发工具集，能够反对信息服务类、工具类、以及基于大语言模型翻新类等多类型的插件开发。开发实现后，还能够通过插件接入平台和应用层生态进行紧密结合。

插件能力正式启动邀测：yiyan.baidu.com/developer

与此同时，飞桨 AI Studio（星河社区）最新降级，正式推出星河大模型社区，在星河大模型社区，开发者能够取得一体化大模型开发体验。目前，星河大模型社区已积攒超 300 个大模型创意利用，社区还提供了丰盛的性能不便开发者进行交换。

会上，百度还最新公布了文心大模型「星河」共创打算，将以丰盛的大模型资源、多层次的产业生态资源，携手宽广开发者和生态搭档们，激活数据资源价值，共建大模型插件，宽泛翻新 AI 利用。

文心大模型之所以能颠覆生产力，除了因为 AI 算法层面翻新，也离不开深度学习框架的优化。

百度在人工智能畛域是为数不多有全栈布局的公司，能力笼罩从芯片到利用。在框架层面上，飞桨深度学习平台向上撑持大模型生产，进步模型部署效率和灵活性，向下则适配各类硬件，进步硬件适配效率和降低成本。

明天的 WAVE SUMMIT 上，飞桨开源框架正式公布 2.5 版，实现了全面的架构降级，同时在大模型训练、推理和多硬件适配方面带来了新的性能。

其中的重点，就是与文心大模型做了联结优化。

通过飞桨深度学习框架在大模型训练、推理、硬件适配等方面的一系列新技术，文心大模型的训练推理效率失去了大幅晋升。现场给出一组数字：通过协同优化，文心大模型 3.5 的训练速度是优化前的 3 倍，推理速度更是快了 30 多倍。

其中在大模型训练方面，飞桨与文心在硬件集群上进行协同优化，晋升了无效训练工夫占比，芯片层面上进行了芯片、存储、网络协同优化，晋升训练吞吐速度。

而在软件上，飞桨与模型算法协同优化进步了模型收敛的效率。特地是在大模型训练中，优化的收敛效率和稳定性大幅度缩小了训练工夫，达到了事倍功半的成果。
很多科技公司都在对大模型的训练进行优化，而在推理上，咱们面临着更大、更严厉的挑战。李彦宏曾示意：「当他人刚刚开始思考如何进行训练的时候，咱们曾经在推理上冲出了很远。」
在大模型推理方面，飞桨从模型压缩、推理引擎、服务部署三个关键环节，发展了全方位的协同优化。
除了采取了自适应 Shift-SmoothQuant 压缩算法、联合场景的混合量化推理计划、动静插入批处理技术等，飞桨还继续联合算子交融减速、变长输出解决减速等办法，让文心大模型推理速度达到优化前的 30 多倍。
为了更好的撑持大模型生产与利用，飞桨的大模型套件买通了整个流程，围绕大模型开发、训练、精调、压缩、推理、部署的六个阶段全流程进行了降级，升高了大模型开发和利用老本。
飞桨框架对于算大模型的优化，也离不开软硬件协同能力的一直晋升。飞桨为文心大模型在各类硬件上的部署提供了对立计划，还推动建设了软硬件适配的国家标准。
此前，由中国电子技术标准化研究院牵头，百度、曙光、飞腾、浪潮一起联结起草了国家标准《人工智能深度学习框架多硬件平台适配技术规范》。基于该规范，飞桨与 30 多家硬件厂商发展软硬协同深度优化，大大晋升了软硬件适配的效率。

在此之上，文心大模型与英伟达、寒武纪、华为等 12 家硬件搭档发展了适配，笼罩了云和端侧多种硬件类型。目前已有 25 家硬件搭档共建 AI Studio 硬件生态专区，为 AI Studio 大模型社区引入多元生态算力，反对开发者基于 AI Studio 的大模型开发及多样利用体验。
在根底层面上，飞桨也实现了重要降级。通过建设根底算子体系和组合算子机制，飞桨将神经网络编译器 CINN 更好地与主框架交融买通，借助其通用编译优化能力，实现了更加通用的性能优化。往上看，根底框架的主动微分也更加欠缺，实现了动静对立的高阶主动微分开发接口，能够更低成本实现高阶主动微分能力。
马艳军示意，应用飞桨编译器，能够取得相比其余业内支流框架更好的性能。
基于飞桨框架的能力降级，特地是高阶主动微分能力，飞桨开源平台已公布赛桨 PaddleScience、螺旋桨 PaddleHelix、量桨 Paddle Quantum 等开源 AI for Science 工具，反对简单形状障碍物绕流、构造应力应变剖析、资料分子模仿等丰盛畛域算例，广泛支持 AI + 计算流体力学、生物计算、量子计算等前沿方向的科研和产业利用。
经由根底框架的两大降级，飞桨全新的训练架构已初步成型，不仅放弃了动静对立、一行代码动转静训练部署的劣势，而且通过编译器技术进一步升高了模型性能优化的边际老本。
在解决了大模型开发和部署过程中的各类问题之后，飞桨平台当初做到了让 AI 模型的研发门槛更低、成果更好、流程更加标准化。

大会上，百度展示了大语言模型与智能工作的联合，重塑了人们工作的范式。

文心一言的能力已通过智能工作平台「如流」利用在百度外部的工作流程中。现场，百度团体副总裁、百度团体首席信息官李莹重磅公布如流「超级助理」。

它能够解决你工作中的大部分问题。在大会上，百度进行了一番演示。

文档解决是生产力工作的刚需，在大量文档中寻找和跳转常常会消耗很多工夫。大模型呈现后，你只须要给超级助理收回指令，它就能够立刻找出相干文档。如果你须要理解新的常识，大模型能够生成具体的答复，如果你点击其中附带的参考链接发现是英文论文，也能够让大模型生成中文的摘要。

据说，当初百度的很多员工都在用如流超级助理，AI 在很多小细节上能够成倍的晋升效率。

说到晋升效率，在科技公司里，如何能更好的写代码是很重要的事，李莹现场演示了基于文心大模型的编码工具 Comate X 智能编程助手，它目前反对 30 多种语言和 10 多种 IDE，甚至包含一些十分小众的语言，像汽车硬件的语言。

以代码生成为例，Comate 可依据自然语言的形容，生成对应的代码片段，也反对在代码编辑区内依据正文主动生成代码实现。在代码测试能力方面，Comate 可对选定代码生成单元测试用例，极大缩小工程师编写单测用例的工夫，晋升代码品质。

开发基于 AI 原生的利用，不仅须要代码工具，还须要有开发套件。百度提出了 Comate Stack，其中包含三个工具：评测平台 iEValue、AI 利用开发平台 IPlayground 和数据集托管平台 iDateSet。

应用这套体系，开发一个休假政策插件，只须要两个步骤，规定也不必你输出，间接给 AI 喂文档就能够了。

当初，大模型能力已成为百度员工的 AI 助手，Comate 帮忙 80% 百度工程师晋升了编程效率，颠覆了程序开发的模式。而这种革命性的生产力，曾经吸引到超过 100 家合作伙伴的趣味。

文心大模型的利用实际，在国内笼罩了最大的产业规模。
这段时间，大模型倒退的过程以天为计，论文技术层出不穷，利用也不断更新，百度在这场竞争里始终保持在前列 —— 不断更新版本的文心已利用到搜寻、信息流、网盘、智能音箱等产品中，面向更多普通用户凋谢，面向企业的落地成绩也十分可观。
文心大模型建设了一套残缺的大模型体系，其中根底大模型蕴含 NLP（自然语言了解）、CV（计算机视觉）、跨模态大模型，工作大模型蕴含对话、搜寻、信息抽取、生物计算等典型工作。

目前，文心大模型已领有中国最大的产业落地规模，超过 15 万家企业申请了文心一言内测，其中超过 300 家生态搭档在 400 多个具体场景获得了测试功效，笼罩办公提效、常识治理、智能客服、智能营销等畛域。百度也联结国家电网、浦发银行、泰康、吉利等企业独特公布了 11 个行业大模型。

去年王海峰指出，深度学习平台加上大模型会贯通从硬件到场景利用的 AI 全产业链，进一步减速智能化降级。现在，百度的大模型 AI 技术栈已实现全面布局，深度学习加大模型技术让 AI 真正进入了工业大生产阶段。

与此同时，飞桨也颁布了最新的生态数据：整个平台已汇聚 800 万开发者，服务了 22 万家企事业单位，基于飞桨创立的模型已有 80 万个。

人们都说这段时间 ChatGPT 引发的大模型浪潮带来了生产力改革，在大模型技术一直演进的同时，AI 的新能力究竟还是要落地在各行业的实际中。

而百度在这个过程中，曾经走在了后面。

文章起源：机器之心公众号

作者：泽南

关于人工智能:这就是大模型时代的生产力

文心大模型：遥遥领先

飞桨开源框架 v2.5，拥抱大模型

颠覆生产力

面向全场景、笼罩多行业