共计 6986 个字符,预计需要花费 18 分钟才能阅读完成。
引言
2023 年,科技圈的“顶流”莫过于大模型。自 ChatGPT 的问世拉开大模型与生成式 AI 产业的倒退尾声后,国内大模型疾速跟进,已实现从技术到产品、再到商业的阶段逾越,并深刻垂直行业畛域。
新技术的暴发,催生新的利用场景与产品模式,撬动影响全行业的智能化改革。滚滚趋势下,作为从业者、创业者,将面对怎么的时机和挑战,又该如何破局迎来 AGI 新时代?
近日,「大模型时代的时机与挑战」腾讯云 TVP AI 创变研讨会在上海腾云大厦举办,特邀 AI 畛域顶级大咖,围绕大模型热点话题进行深度分享与研究,独特摸索大模型时代的将来风向。
大模型——技术、价值、生态
IDEA 研究院认知计算与自然语言钻研核心讲席科学家、腾讯云 TVP 张家兴老师,带来《大模型——技术、价值、生态》主题分享。
谈及 GPT 大模型诞生的历程,张家兴老师从十余年在深度学习畛域的资深钻研教训登程,用模型构造、训练技术、算力 + 零碎和数据四条主线来论述整个技术倒退的背地趋势,并重点分享了几个要害节点:
- 模型构造翻新:深度学习的衰亡推动了模型构造的翻新,其中 Transformer 构造起到了关键作用。它冲破了模型 1 亿参数的瓶颈,对立了各种注意力机制的尝试办法,也解决了工作设计的难题;
- 训练技术冲破:标志性事件是 2018 年 BERT 模型,张家兴老师认为模型构造是物理根底,而训练技术使得人工智能具备特定能力;
- 算力与数据的提高:底层的芯片不断进步,性能晋升了 100 倍以上。
张家兴老师指出,任何一次大的技术范式的变动,都是一次类型的隐没,或者都是一种走向对立的过程,大模型就是这样的一种新的技术范式变动。在 ChatGPT 呈现后,模型构造走向对立,之后就会疾速“一致”,整个技术畛域从新分工,促使新的生产链的造成,这种变动标记着大模型将成为一个新的产业。
在整个技术的范式变动过程中,张家兴老师所率领团队研发的模型方向也在变动,从一开始的封神榜,到现在构建姜子牙系列专家大模型。张家兴老师剖析到,构建一个全能力的大模型存在肯定挑战,不同能力之间可能存在抵触和不兼容性,因而将各个能力拆分成独立的模型,以便可能专一于每个能力的倒退。通过定制针对性的训练策略,从而达到每个能力的最佳体现。
张家兴老师认为,在“百模大战”的竞争格局中,训练技术的探索性极为重要。他强调,训练技术自身即是一个摸索的过程。在训练过程中摸索好的生成形式,并在人类反馈学习中疏导模型的倒退。
在大模型利用产品方面。张家兴老师提出从专家模型到客户端进行层层封装的思路:
第一层封装是一体化封装:包含代码模型及微调、利用和高效推理工具等,并设置好各种应用场景。
第二层封装是模型和算力整合封装,张家兴老师在这一方面正在和腾讯云开展单干,踊跃推动将模型和算力联合在一个大模型产品中提供给客户,做到“开箱即用”。
AGI 时代的技术创新范式与思考
Boolan 首席技术专家、寰球机器学习技术大会主席、腾讯云 TVP 李建忠老师,带来了题为《AGI 时代的技术创新范式与思考》的主题演讲。
李建忠老师首先从产业的角度对技术的倒退进行了工夫线的梳理,他认为连贯和计算都经验了从 1.0 到 2.0 的革命性变动。1840-1940 年的这 100 年间是连贯的 1.0 时代,电报之后电话、播送、电视相继诞生,是最早的连贯技术。1946 年第一代计算机呈现,而后大型机、小型机、微型机、PC 呈现,这是计算的 1.0 时代。之后随着 1995 年互联网呈现后,Web2.0、挪动互联网、云服务问世,这是连贯 2.0 时代,相比上一代,连贯从单向走向双向。再到 2017 年 Transformer 构造的呈现,GPT 的迭代是计算 2.0 时代,这个时代还将持续,李建忠老师认为依照过往技术倒退的曲线,这个工夫会继续到 2035 年左右。
同时,李建忠老师剖析指出,在技术的倒退过程中,呈现出一种连贯和计算的“钟摆”状态。而这两者之间的关系,他认为连贯解决的是生产关系,而计算解决的是生产力的问题。连贯模式的逻辑是提供信息供用户决策,是广告人造的土壤;而计算模式的逻辑是要用户向机器提供数据来帮忙决策,其商业模式更趋势免费。在计算逻辑下,效率优先,后果至上。
李建忠老师提出了范式转换的“立方体”模型,在该模型中 X 轴代表人类需要,如信息、娱乐、搜寻、社交、商业;Y 轴代表技术平台,即连贯 1.0、计算 1.0、连贯 2.0、计算 2.0;Z 轴代表媒介交互,如文字、图片、音频、视频、三维等。他认为需要和技术的交叉点是翻新的要害,同时强调媒介的变动对于产品和翻新的影响。在智能时代,填充不同象限代表对应不同方向,比方大模型与不同畛域联合,为其翻新和产品倒退提供新的思路。
基于此,李建忠老师总结了大模型具备四大外围能力:
- 生成模型:是其最成熟和最弱小的局部,可能生成各种内容;
- 常识形象:压缩人类常识,为常识密集型行业带来变革;
- 语言交互:是人机对话的外围,有微小的设想空间;
- 逻辑推理:具备逻辑、布局、记忆能力,成为具身智能。
以大模型外围能力为支点与不同畛域联合会带来怎么的翻新机会?李建忠老师以大模型应用层为切入点提出两个次要方向:AI-Native 和 AI-Copilot。AI-Native 是指齐全融入 AI 的新型产品或服务,高风险高回报。AI-Copilot 则是以渐进加强的形式,将 AI 能力嵌入现有的商业闭环中,并与现有的基础设施兼容和扩大。
同样,在软件畛域,李建忠老师分享了大模型为软件开发带来的三大范式转换:
- 开发范式:大模型将扭转代码编写形式,从工程师写代码为主到 AIGC 生成代码为主;
- 交互范式:从图形交互界面(GUI)转为自然语言交互界面(NUI),包含 NUI+GUI 协同、渠道结构化输出中间环节的改革,以及拆除孤立利用间的壁垒,实现利用和服务的无缝集成;
- 交付范式:即用户共创可塑软件,这种开放性将使软件的性能范畴变得更为宽泛。
李建忠老师认为,在将来的三到五年内,整个 AGI 产业的成熟度将达到一个新的高度,带来微小的翻新机会。
利用无处不在的硬件算力和凋谢软件解锁生成式人工智能
英特尔院士、大数据技术寰球 CTO、腾讯云 TVP 戴金权老师,带来《利用无处不在的硬件算力和凋谢软件解锁生成式人工智能》主题分享。
戴金权老师首先分享了英特尔团队在生成式人工智能畛域的工作。他提到,影响生成式 AI 的泛滥因素中,算力是十分重要的撑持因素,英特尔针对端到端的 AI 的流水线如何晋升效率、如何对 AI 减速进行了针对性的优化。
通过软硬件联合,英特尔胜利进步了 AI 深度学习的速度,甚至能够实现收费的软件 AI 加速器;在生成式 AI 计算减速方面,戴金权老师提到数据中心端是重点,它将无力反对大模型的训练和超大规模推理。
在英特尔最近公布的 Gaudi2 深度学习加速器中,与 Hugging Face 单干进行模型优化。同时,英特尔在服务器上退出了 Intel AMX,其由两局部组成:一个是 2D 的寄存器文件,另一个是矩阵减速反对。戴金权老师提到,这样做的益处在于可能在通用 CPU 的服务器上实现硬件加速的能力,在通用计算的场景下具备肯定意义。
针对云端存储的用户数据和私有化部署的大模型如何保障平安不透露的行业需要,戴金权老师分享到,通过硬件爱护和软件平安技术,可实现全链路的隐衷爱护,确保数据和模型在计算过程中对其余用户不可见,只在硬件爱护的环境中进行计算,既保证了平安,又靠近明文计算的效率。
为实现 AI 无所不在的愿景,近期英特尔开源了基于 INT4 在 Intel CPU 上的大模型推理库,反对在英特尔上跑超过百亿参数的大模型,戴金权老师介绍并演示了其性能个性:
- 反对 INT3、INT4、NF4、INT8 等多种技术;
- 技术易于应用和迁徙,能够减速任何基于 PyTorch 的大模型,并实现高效优化;
- 兼容社区罕用的 API,一两行代码即可迁徙现有利用。
最初,戴金权老师表白了他对于大模型利用在从 PC 无缝扩大到 GPU 到云这一将来趋势的期待,这一新的利用场景值得大家独特去摸索。
面向大模型,如何打造云上最强算力集群
腾讯云高性能计算研发负责人 戚元觐老师,带来《面向大模型,如何打造云上最强算力集群》的主题分享。
首先,戚元觐老师对深度学习与 AI 分布式训练进行了介绍。他提到为了解决大模型训练中语料数据集过大和模型参数剧增的问题,须要采纳分布式计算。就此,戚元觐老师分享了当下大模型训练中的一些分布式计算计划:
- 数据并行:依照模型的数据集切分并发送到各个 GPU 上进行计算,每个 GPU 别离计算本人的梯度,再进行全局同步以更新模型参数;
- 模型并行 - 流水线并行:依照模型的层级进行切分,不同局部将调配到不同的 GPU 上进行计算,进行梯度计算和传递;
- 模型并行 - 张量并行:对模型进行更细粒度的切分,将模型的参数权重进行横向或纵向的切分;
此外,还有如专家并行,由各个专家系统组成并路由到不同的零碎中进行计算。
戚元觐老师提到,分布式计算能够充分利用多个 GPU 的计算资源,放慢训练速度,并解决单个 GPU 内存不足的问题。不同的办法实用于不同的场景和模型构造,抉择适合的并行策略能够晋升训练效率和性能。
分布式训练方法对网络通信有较高的要求,业内大都采纳 3D 并行形式,特地是在 3D 并行的场景下,带宽需要对于吞吐量是敏感的。在训练中,想要不让网络成为计算的瓶颈,机器与机器之间的通信带宽须要达到 1.6Tbps。为了应答以上挑战,腾讯云推出了 AI 算力底座——高性能计算集群 HCC,可广泛应用于大模型、主动驾驶、商业举荐零碎、图像识别等人工智能模型训练场景,其具备以下个性劣势:
- 搭配高性能 GPU:提供弱小算力;
- 低延时 RDMA 网络:节点互联网络低至 2us,带宽反对 1.6Tbps-3.2Tbps;
- GpuDirect RDMA:GPU 计算数据无需绕行,跨机点对点直连;
- TACO 训练减速套件:一键晋升人工智能训练性能。
腾讯云首发的 H800 计算集群采纳多轨道的流量架构,可能大大减少不必要的数据传输,晋升网络性能,在业界处于领先地位。
除了硬件反对外,腾讯云还提供了自研的汇合通信库 TCCL,得益于自研的交换机架构,TCCL 实现了端网协同,解决流量负载不均的问题,能够在双网口环境下晋升流量约 40%。同时提供拓扑感知亲和性调度性能,旨在最小化流量绕行。它具备动静感知能力,可依据最优程序进行任务分配,防止通信数据拥挤。
戚元觐老师提到,腾讯云的计划都采纳双上联的网络设计构造,相比单口训练的可用性更高。数据存储方面,腾讯云提供了 Turbo CF5 文件存储计划和 COS 计划,通过多级减速晋升数据拜访性能。
同时,为进步用户的算力使用率,腾讯云推出了 TACO Kit 减速套件,通过对内存和显存的对立治理,缩小数据的来回搬移,放慢参数更新的速度;还有 TACO lnfer 推理减速,让反对推理通明、减速,带给用户更好的体验服务。
戚元觐老师总结到,腾讯云高性能计算集群 HCC 计划可能从数据读取、训练计算、网络替换等多个层面助力用户又快又继续地实现每一个训练任务,为用户云上训练提供残缺的流程反对。
探讨答辩环节
主题分享完结后,主持人 中国信通院低代码 / 无代码推动核心技术专家、腾讯云 TVP 沈欣老师做了精彩的总结,他提到大模型的倒退所带来最外围和要害的影响是生产关系的变动。如“程序员是否会隐没”这个问题,能够将程序员比喻成马车时代赶马的人,当初还会有养马的人,然而他们曾经被开车的人淘汰了。软件开发行业将被 AI 重塑,这是将来的程序员所将面对的迭代和变动挑战。
随后,迎来了火花爆发的探讨答辩环节。主持人沈欣老师提出了颇具深度的四个凋谢话题与两个答辩题目,现场嘉宾以小组模式,对各个话题开展了充沛的探讨,在热烈的交换与答辩中碰撞出泛滥精彩的观点。
话题 1:随着大模型的倒退,将来将会造成怎么的 AI 生态,会如何影响 IT 行业的格局?
来自第二组的发言代表,盛派网络创始人兼首席架构师、腾讯云 TVP 苏震巍老师提出,AI 将来将重塑整个软件行业的生态及商业模式,包含当初软件应用的状态、互联网运行的模式、用户付费的形式等等。同时随着 AI 进一步推动生产力倒退,能够预感将来企业对人员的需要将产生极大的扭转,程序员将在肯定水平上缩小。
苏震巍老师进一步总结到,AI 会在三大方面影响咱们将来的商业和工作:AI 推动生产效率改革,影响生产力和生产关系的变动;获取常识和应用常识的形式扭转,效率晋升;AI 会成为资产的一部分,数据确权等问题值得关注。
话题 2:AI 算力的私有化部署和云部署有哪些差别和劣势,别离更适宜哪些场景?
第三组的发言代表,美团金融服务平台研究员、腾讯云 TVP 丁雪丰老师,从老本、安全性和灵活性三个视角对 AI 算力的私有化部署和云部署进行了比拟。
- 从老本角度看:云部署对于中小企业而言,无论在硬件投入还是保护方面都更合乎当下企业的降本增效需要;
- 从安全性角度看:他认为局部行业,如金融行业的的安全性和合规性要求极高,私有化部署更为实用;
- 从灵活性角度看:私有云不仅能够单纯地按需提供算力,对于成熟的场景也能提供一站式解决方案,用户能够依据理论需要抉择适合的应用形式,在满足平安与合规的场景下更举荐抉择云部署。
话题 3:企业应如何掂量 AI 的价值,如何量化老本构造和价值,在不同的业务有哪些案例?
来自第四组的发言代表,腾讯云 TVP 徐巍老师提出以下五个评估维度:是否为企业发明价值、节约老本、晋升企业生产力、晋升客户满意度,以及助力业务增长。徐巍老师补充到,不同企业和行业面临的挑战和指标也各不相同,因而评估 AI 的价值须要联合其具体情况和指标进行综合考量。
同时,就 ToB 和 ToC 的业务场景而言,在 ToB 畛域,智能客服、数字人、AI 知识库和企业培训等曾经被许多企业应用;在 ToC 畛域,当下 AI 生成等是支流的利用场景。
谈及 AI 的老本形成,徐巍老师认为当下次要包含算力老本、AI 技术的开发和保护老本,以及 AI 产品的经营和推广老本。
话题 4:在大模型的热潮下,大公司和守业公司别离有哪些能够切入的翻新时机?
第一组的发言代表,Boolan 首席技术专家、寰球机器学习技术大会主席、腾讯云 TVP 李建忠老师认为从数据的劣势角度看,当下 AI 畛域的翻新对大公司或成熟的公司敌对,但从开源的角度来看,他认为对守业公司更敌对。
李建忠老师以产品的倒退模式开展论述,AI-Native 的模式更适宜守业型公司,因为面对新事物的到来它们具备全新的终点和思维模式,而且一些守业公司的投入并不弱于大公司。
将来大模型开源是支流 or 闭源是支流?
第一组的发言代表,Boolan 首席技术专家、寰球机器学习技术大会主席、腾讯云 TVP 李建忠老师是“开源方”,他首先定义了“支流”一词:用户最多就是支流;他认为与闭源相比,开源能够实现边缘层和模型层的良好标准化;同时开源可能汇合整个行业之力在一个点上进行优化,带来更多的资源和投入。
随后,来自第二组的发言代表,盛派网络创始人兼首席架构师、腾讯云 TVP 苏震巍老师作为“闭源方”先就“支流”定义进行了反驳,他认为真正可能有影响力推动整个行业改革,同时在商业上造成长久循环的,有更衰弱生态的才是支流,并以闭源的 ChatGPT4 为例进行了论证。他强调,大模型蕴含了模型自身和数据源,因而算法开源和成绩的开源,并不就代表大模型的开源,并举例了 Lama2 的各种限度。苏震巍老师认为以后的一些所谓开源框架,被用作营销工具,违反了开源的真正的精力。
之后“开源方”的李建忠老师进行了针对性反驳,他首先纠正了对方的“开源营销说”,强调开源是生态级的反动。同时就 ChatGPT4 的例子,他认为其最后源头是来自谷歌的开源,且 OpenAI 也在筹备开源中。
“闭源方”的苏震巍老师随后补充,不否定开源的生态反动,但事实上很多开源是迫于竞争压力下的抢占市场份额的商业行为。同时他示意,常识的共享并不代表是开源。
更看好通用大模型赛道 or 垂直大模型赛道?
第三组的发言代表,美团金融服务平台研究员、腾讯云 TVP 丁雪丰老师更看好通用大模型赛道,他认为从更大、更高的历史观视角看,通用大模型的倒退是必然的,而且在应用层能够防止垂直大模型的局限性。同时将来随着通用大模型的学习范畴一直拓展,以后的垂直畛域都将被笼罩。
更看好垂直大模型赛道的第四组的发言代表,腾讯云 TVP 徐巍老师则是从三个角度论述他的观点:从商业模式看,垂直大模型有丰盛的利用场景,可落地,商业模式通过验证是成立的;从老本角度看,大模型的算力老本极高,垂直大模型的老本更加可控;从数据角度来说,作为大模型训练极为重要的局部,通用大模型所须要的数据量微小,数据源限制性高,垂直知识库的可实现性更高。
随后“通用大模型”方的丁雪丰老师进一步阐述,通用大模型在以后 AI 畛域的重要性显而易见,它提供了技术基座,为各种利用提供了反对;而且,根底的、通用的能力倒退是自主可控的必然要求。
“垂直大模型”方的徐巍老师做了最初的补充,他认为从赛道生态角度来看,垂直大模型赛道的玩家更多,更能造成百花齐放的生态,带来更高的商业价值和社会价值。
结语
本次研讨会的探讨与答辩话题没有确定的答案,大模型倒退方兴未艾,将为每一个技术从业者、企业和行业都带来新的影响。本次流动已圆满落下帷幕,但腾讯云 TVP 专家们对于技术的摸索还将持续,他们秉持着“用科技影响世界”的初心和愿景,继续以翻新之心踊跃拥抱大模型时代的改革与趋势,以敬畏之意感性迎接将来的时机和挑战。