当下,大语言模型热度空前,诸如文心一言、ChatGPT 等曾经可能与人对话互动、答复问题、帮助创作,逐步利用于人们的工作和生存,也引发了社会热议。近日,百度首席技术官、深度学习技术及利用国家工程钻研核心主任王海峰再次做客 CCTV-2《中国经济大讲堂》,阐释文心一言这类大语言模型的产品能力、技术原理和产业价值。
文心一言读书破万亿
五大能力业内当先
人工智能时代,IT 技术栈可分为“芯片层、框架层、模型层和应用层”,百度是寰球为数不多、进行全栈布局的人工智能公司。从昆仑芯片、飞桨深度学习平台、文心大模型到利用,在技术栈的每一层,都有当先的要害自研技术,实现了层与层反馈,端到端优化,大幅晋升效率。文心一言是百度人工智能多年技术积攒和产业实际的瓜熟蒂落,尤其是飞桨深度学习平台和文心大模型的联结优化,为文心一言提供了松软的技术撑持。
王海峰强调,文心一言齐全是百度自主研发的大语言模型。百度早在 2019 年就公布文心大模型 ERNIE 1.0,通过近 4 年研发和迭代,文心大模型曾经造成了产业级常识加强大模型技术体系,包含自然语言解决、视觉、跨模态、生物计算、行业大模型,以及撑持大模型利用的工具平台,蕴含了大量百度自主翻新、并且在大规模产业利用中失去验证的技术。其中有些关键技术已申请专利或者发表论文,还有一些相干技术也已开源凋谢。
文心一言是大语言模型的典型代表。王海峰以“读书破万卷,下笔如有神”为例,解读了大语言模型从海量数据中学习,就相当于读了万亿卷书籍,排汇了万亿常识,做到了了解,在此基础上,就能够依照用户的需要去生成文案、答复问题、实现总结剖析了。
对于“文心一言”名字由来,王海峰做了具体阐释:“文”是语言文字,“心”是用心了解,“文心”指致力于了解和使用语言文字的自然语言了解模型,同时也响应了《文心雕龙》,寓意用雕缕龙纹一样精密的功夫去钻研语言文字的外延和魅力;“一言”既有“一言为定、一言九鼎”的寓意,也有对人机之间“你一言我一语”晦涩沟通的殷切期盼。文心“一言”既出,即可“毕生二、二生三、三生万言”。
现场还展现了文心一言的文学创作、商业文案创作、推理计算、中文了解和多模态生成等能力。在文学创作方面,文心一言不仅能够撰写《漂泊地球 2》的影评文案,还能够创作朋友圈配图,并续写《漂泊地球 3》的后续剧情;在商业文案创作方面,文心一言帮忙想开店的创业者做好筹备工作,比方调研北京中关村 3 公里范畴内办公人群口味偏好、设计店名、创作宣传语和藏头诗,以及收集汇总创建餐饮店波及的政府部门与相干流程手续;在推理计算方面,文心一言能够精确计算简单的数学问题,先了解问题,再通过思维链推理,最初生成答案;在中文了解方面,文心一言能够精确解答“日照香炉生紫烟,遥看瀑布挂前川”诗句是哪里的天然现象及其背地的物理现象;在多模态生成方面,文心一言能够精确答复中国新诗的相干问题,并制表、作画,用方言朗诵。
六大核心技术加持
文心一言落地瓜熟蒂落
文心一言是文心大模型家族的新成员,在文心常识加强大模型 ERNIE 及对话大模型 PLATO 的根底上研发,基于飞桨深度学习平台训练和部署,其关键技术包含,有监督精调、人类反馈的强化学习、提醒、常识加强、检索加强和对话加强。前三项是这类大语言模型都会采纳的技术,在 ERNIE 和 PLATO 模型中曾经有利用和积攒,文心一言中又进行了进一步强化和打磨,做到了更懂中文、更懂中国文化、更懂中国的应用场景;后三项则是百度已有技术劣势的再翻新,也是文心一言越来越弱小的技术底气。
王海峰以老师教学生为例,深入浅出地解读了大语言模型背地的技术原理。预训练大模型像博览群书的学生,记住了很多常识,但须要老师来领导如何使用,而有监督精调就是老师在教学生,将提炼进去的常识要点、典型范例等教给模型,让它晓得该如何合乎人类标准、习惯和价值观,去执行相应动作,生成相应内容。文心一言训练了处分模型,为每次输入的后果打分并给到反馈,进行强化学习,随着实在用户的反馈越来越多,文心一言的成果会越来越好,能力越来越强,提高“日新月异”。此外,文心一言还交融了不同类型数据和常识,主动结构提醒,包含实例、提纲、标准、知识点和思维链等,提供了丰盛的参考信息,激发模型相干常识,生成高质量后果。
对于百度已有技术劣势的再翻新,王海峰也做了进一步解读。
在 常识加强 方面,常识是人类意识和革新世界的智慧结晶。百度构建了 5500 亿事实的常识图谱。文心一言基于宏大的常识图谱来做常识加强,从海量数据和大规模常识中交融学习,还能够间接调用常识图谱做常识推理,主动构建提醒,高效满足用户需要。在常识的领导下,文心一言如同站在伟人的肩膀上,学得又好又快,模型效率和成果均大幅晋升。
在 检索加强 方面,百度领有世界上最大的中文搜索引擎,百度搜寻曾经倒退到基于语义了解和匹配的新一代搜寻架构,深刻了解用户需要和网页内容,进行语义匹配,失去更精准的搜寻后果,进而为大模型提供准确率高、时效性强的参考信息,更好地满足用户需要。
在 对话加强 方面,基于对话技术和利用积攒,文心一言具备记忆机制、上下文了解和对话布局能力,实现更好的对话连贯性、合理性和逻辑性。百度深耕对话技术多年,获得了国内当先的技术成绩,荣获中国专利金奖、吴文俊人工智能科技进步特等奖等,为文心一言的胜利研发奠定了根底。
文心一言普惠千行百业
减速产业智能化改革
大语言模型的飞速发展曾经引起社会热议,对于工作岗位代替、教育模式改革、人工智能平安等问题,王海峰也给出了解答。
他示意,文心一言这样的人工智能技术,实质上是晋升生产力的工具,能够代替人类实现一些工作,但同时也会发明更多工作机会,使人类能够去做更具创造力的工作。正如人类历史上任何一次科技反动和产业改革都会带来一些工作被代替,同时发明了更多新的工作机会。在教育模式的转变上,“死记硬背”曾经掉队,教育将与时俱进,向激发灵感、造就创造力的方向转变。
在人工智能安全性方面,百度动摇恪守相干法律法规和伦理标准,专门装备了相应监督机制和管理机制,从各个环节做好平安防备。在文心一言的开发过程中,从最后的数据的采集、解决,模型的训练,到最初的应用过程,构筑了五道平安防线。百度也成立了数据管理委员会,还与社会各界独特单干,不断完善相干政策、规定,强化人工智能平安。对于人工智能是否会管制人类,王海峰强调,就像人造地球卫星永远也不会和月球这样的天然卫星画等号一样,人工智能永远也不会间接跟人类的智能齐全画等号,钻研人工智能是在钻研用技术手段来模仿、延长和拓展人的智能,最终目标是为人类带来更先进的科技,服务于人类更美妙的生存和社会的倒退。
当下,人工智能曾经成为新一轮科技反动和产业改革的重要驱动力量,而深度学习作为人工智能的核心技术,具备很强的通用性,呈现出标准化、自动化、模块化的工业大生产特色,推动人工智能进入工业大生产阶段。大模型具备成果好、泛化性强、研发流程标准化的特点,正在成为人工智能技术及利用的新基座。但与此同时,大模型研发门槛高、难度大,依赖算法、算力和数据综合撑持,产业化面临挑战:模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,数据品质参差不齐。
如何实现大模型产业化?王海峰示意,相似芯片代工厂的模式,具备算法、算力和数据综合劣势的企业,能够将模型生产的简单过程封装起来,通过低门槛、高效率的生产平台,为千行百业提供大模型服务。将来,文心一言这类大语言模型会成为一个通用的赋能平台,金融、能源、媒体、政务等各行各业,都能够基于文心一言实现智能化改革,提高效率,发明微小的商业价值。期待社会各界踊跃拥抱新技术,共同努力,实现高水平科技自立自强,为经济高质量增长带来更多动能。
欢送大家关注飞桨视频号,获取更多对于中国经济大讲堂的短视频~