随着数据的井喷、算法的提高和算力的冲破,成果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”)已成为人工智能倒退的新方向。4 月 16 日,2021 百度认知 AI 创意赛“AI 创意派”决赛正式举办,这是业内首次将先进的 AI 大模型能力凋谢给公众应用,实现了大模型在激发创意、落地利用上的冲破。文心大模型首场技术开放日也同期举办,文心大模型背地的“技术天团”首次集中亮相,解读大模型有限创意背地的硬核 AI 技术。
大模型助力创意利用,为创意插上腾飞羽翼
元宇宙虚构人生、AI 版“反诈 App”、续写一本小说、神奇动物都有啥……这些趣味 DEMO 和落地计划,均是由 AI 创意派参赛选手基于百度飞桨文心大模型开发发明的。据统计,本次 AI 创意赛共吸引全国各地近 2000 名不同年龄、不同技术根底的选手参加其中,收集超过 300 份创意计划,作品笼罩教育、医疗、金融、娱乐、科技、心理健康等多个畛域。最终,开发创意组 9 组选手怀才不遇闯入决赛,最终“说文”、“图言”、“AI 起论文题目”等我的项目摘得大奖。
百度团体副总裁吴甜在较量现场示意,“创意在民间。人工智能和大模型要面向公众凋谢,只有门槛低到了所有人都可不便地用起来,能力真正大规模暴发出各种创意。这是文心大模型的致力方向。文心源于产业实际,也将在产业中宽泛落地。本次创意赛中,选手展示了基于文心大模型的丰盛创意,让咱们看到了大模型广泛应用的前景。”
本次创意赛邀请了中国科学技术协会专家库科普实体资源开发类专家白藕,天津大学北洋讲席传授、智能与计算学部副主任兼人工智能学院院长胡清华,哈尔滨工业大学计算机科学与技术学院人工智能业余负责人张宇,北方科技大学迷信与人类想象力钻研核心主任吴岩,线性资本董事总经理黄松延,百度技术委员会主席吴华,百度飞桨总架构师于佃海,百度高校合作部总监李轩涯等来自产业、学术以及投资方等各界嘉宾作为评委专家,对参赛我的项目做出了精彩的点评。多位评委专家示意,大模型是目前 AI 行业倒退的新趋势。通过本次创意赛,开掘了多支具备开发和创意双重实力的参赛队伍,丰盛了大模型落地的设想空间。
取得本次 AI 创意赛冠军“顶尖派”的参赛我的项目“说文”的代表卓君示意,百度飞桨凋谢了 ERNIE 3.0 常识加强大模型能力,不仅让咱们领会到了大模型的真正实力,也让每一位对 AI 感兴趣的人都能够充分发挥创造力,去实现对于文字、语言的创意想法。
自 2019 年,百度便深耕大模型研发并胜利打造文心大模型家族。目前,文心大模型已成为产业级常识加强大模型,蕴含 NLP(自然语言了解)大模型、CV(计算机视觉)大模型、跨模态大模型,既有根底通用的大模型,也蕴含面向重点畛域、重点工作的大模型,以及丰盛的工具与平台。
与行业其余大模型相比,文心大模型具备“常识加强”的外围特色。文心大模型基于大规模常识和海量无构造数据的交融深度学习,一直排汇文本数据中词汇、构造、语义等方面的常识,使得文心大模型的理解能力和生成能力一直进化晋升,并面向不同人群提供丰盛的工具组件及平台,助力各行各业的创意利用。
以此次创意赛所应用的 ERNIE 3.0 为例,作为 NLP 大模型中的一员,不仅领有很强的语言理解能力,还可能实现视频、歌词、艺术画等创意作品的主动生成,用 AI 为创意插上腾飞羽翼。尤其是在 AIGC(AI generated content,人工智能发明内容)畛域,借助大模型的跨模态综合技术能力,能够激发创意,晋升内容多样性,升高制作老本,实现大规模利用。如在本次 AI 创意赛中,就涌现了像传记生成、高考意愿举荐、心理树洞等诸多创意利用。
吴甜还演示了近期在海内引发关注的“虎年春早晨的中国文化”视频,该视频由百度研究院的智能视频合成平台 VidPress 主动生成,背地就应用了文心大模型的文本摘要、语义剖析和跨模态了解等多项技术,关上了 AIGC 智能创作设想空间。
在现场的大模型互动区,观众也能够亲自体验到大模型在歌词生成、画作生成和对话机器人等利用,同时文创集市上也展示了基于大模型能力生成的 T 恤、马克杯、帆布袋、画册、明信片等创意周边,切身感受大模型在创意畛域的落地利用。
深耕产业级大模型,
文心大模型实现技术、落地双当先
作为国内最早开始进行大模型研发的科技企业之一,百度在 2019 年 3 月率先公布中国首个正式凋谢的预训练模型 ERNIE1.0,并继续投入于大模型的研发降级。2021 年 12 月,ERNIE 3.0 降级为寰球首个常识加强千亿大模型,成为目前为止寰球最大的中文单体模型,在 60 多项权威的自然语言了解和生成工作上获得了世界领先成果。
目前,文心系列模型中已有多个大模型达到世界领先水平。例如,百度打造了寰球首个百亿参数中英文对话大模型 PLATO-XL,首个聚焦中英文场景大规模 OCR 结构化预训练模型 VIMER – StrucTexT,寰球最大规模中文跨模态生成模型 ERNIE-ViLG 等。
超大规模模型的训练和推理,给深度学习框架带来很大考验。在文心大模型的背地,我国首个自主研发、功能丰富、开源凋谢的产业级深度学习平台飞桨提供了无力撑持。飞桨研制了端到端自适应分布式训练框架,实现多硬件反对,并行效率高达 90%,无效反对文心大模型高效、稳固训练。基于飞桨与百舸集群,文心大模型在算法、框架、算力层面实现齐全自主技术创新,为中国产业智能化转型打造 AI 大底座。
除了技术上的不断创新,文心大模型作为“产业级”大模型,驱动 AI 规模化落地利用是其外围价值。截至目前,文心大模型已反对数百家企业与机构,开发者数量超过 6 万,已在数百个场景中落地利用,产业利用数量居业界首位。
据吴甜介绍,文心大模型已大规模利用于百度外部的各类产品,蕴含搜寻、信息流、小度智能屏、百度地图等,显著晋升了产品智能化体验。基于文心的凋谢能力,对外的日调量超过了五千万次。文心大模型现已通过飞桨平台、百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业。
除了 AI 创意派的决赛流动,4 月 16 日上午,百度还举办了首场文心大模型技术开放日,文心大模型背地的“技术天团”首次集中亮相,百度技术委员会主席吴华,百度计算机视觉首席科学家王井东,百度飞桨总架构师于佃海,百度卓越研发架构师孙宇分享了大模型技术发展趋势洞察、文心大模型最新技术冲破及产业利用实际,为技术爱好者带来一场干货满满的 AI 技术盛宴。
从 AI 核心技术到 AI 根底平台,保持技术创新及凋谢生态,百度文心大模型正一直升高 AI 技术开发和利用的门槛,放弃技术迭代和翻新冲破,更强有力地撑持人工智能技术的高速倒退及产业利用。