随着 LLM 智能涌现的产生和 API 的爆发式倒退,各行各业都在关注如何用好通用模型,如何调校好适宜本人的行业利用。LLM 最重要的输出是数据,最频繁的接口是数据库。模型利用的遍及会对数据库产生哪些影响?大模型时代对企业的数据管理能力和范式提出了哪些新的要求?
围绕这些问题,酷克数据联结创始人兼 CEO 简丽荣承受了《中国电子报》的专访,解读大模型时代云计算和数据库行业的改革与时机。以下为专访全文:
以后,大模型引发的 AI 再造产业趋势曾经势不可挡,对于撑持 AI 的底层数据库而言更是如此。“以 ChatGPT 为代表的超大语言模型的迅速利用将引发云计算与数据库行业的大改革。”北京酷克数据科技有限公司(简称“酷克数据”)联结创始人兼 CEO 简丽荣近日在承受《中国电子报》记者专访时示意。
大模型热潮将扭转云计算和数据库市场竞争维度,减速企业 IT 架构向分布式和并行化发展的趋势,这也合乎“东数西算”的政策导向。同时,大模型将会推动多云化的遍及,具备中立性、产品反对多云部署的独立数据库厂商将无望从中受害。
数据处理全链路将被重塑
AI 大模型是基于海量多源数据打造的模型,须要通过一直地训练从大量标记和未标记的数据中捕捉常识,并将常识存储到大量的参数中,以建设对各种工作进行高效解决的技术架构。它具备通用、可规模化复制等诸多劣势,是实现 AGI(通用人工智能)的重要方向。
“‘数据仓库’‘数据平台’和‘大模型’实质上都是为了更好地答复决策问题。从某种意义上讲,它们之间是相辅相成的。”简丽荣示意,一方面,数据仓库成熟的数据管理、荡涤、并行处理技术,能够无效晋升训练、微调大模型所需训练数据的解决流程;另一方面,数仓作为人造的事实数据或常识治理平台,能够为生成式 AI 提供正确答案所需的上下文,无效解决大模型普遍存在的“幻觉”问题。数仓和大模型的有机联合,能够更好地帮忙企业实现辅助决策。
区别在于,大模型解决数据的形式显著不同于当初支流的数据仓库、数据平台。数据仓库、数据平台往往会把原始数据编制成二维表格,而后进行数据荡涤、规整、补全等解决,最终通过简单的 SQL 实现商业智能。而大模型则须要一直把原始文本信息用提醒的形式进行投喂,让其进行深度学习,从而实现对工作的高效解决,这与传统的基于二维表格的模式存储、治理数据齐全不同。
简丽荣剖析称:“传统数据处理须要耗费大量人力、物力以及工夫,而且有很多环节非常容易出错,如数据荡涤、数据血统剖析、主数据管理、数据品质、数据治理、ETL、数据分析、数据库运维等。以 ChatGPT 为代表的通用人工智能模型的迅速利用,将会大幅晋升数据处理全链路各个环节的自动化水平。”
比方,Text2SQL(即 Text-to-SQL,指将自然语言文本转换成结构化查询语言的过程),就是借助大模型的能力,主动依据自然语言生成结构化查询语言,实现 BI(商业智能)工作,晋升数据工程师工作效率。
简丽荣示意:“大模型的呈现,一方面,让大家开始思考如何利用模型的能力去重构数据处理全链路的各个环节,以实现更高水平的智能化、自动化;另一方面,也促使大家开始思考如何将数据仓库、数据平台的数据处理规定与大模型进行适配,从而更好地反对大模型的训练、调优、部署、推理及利用。”
云计算资源生产模式将被扭转
家喻户晓,大模型训练的关键在于算力、数据和算法。简丽荣认为,云计算平台正是提供这三个因素最合适的平台。首先,大模型须要大量算力,特地是高端 GPU;其次,须要海量的数据,特地是一些高质量的数据;此外,大模型还须要算法的反对,Model as a Service 将成为一种新的 PaaS 服务。这些都是新的需要,也是云平台最善于做的事。所以,大模型的呈现将会十分无效地提振云计算市场。同时,领有更强 GPU 算力的云厂商会更具竞争劣势。
简丽荣指出,大模型的呈现,将会对自然语言解决、计算机图像,甚至主动驾驶造成颠覆性的影响,扭转这些畛域的整个软件和硬件技术栈,从而给云计算市场带来全新的资源生产模式。
以 SaaS 服务为例,大模型对低代码的冲击将会非常明显。低代码(或零代码)外围价值是通过利落组合解决软件开发慢、门槛高的问题。然而,大模型的呈现颠覆了低代码的整个开发模式。“低代码可能笼罩的利用场景是无限的,将来后盾的技术栈会被大模型彻底颠覆。”简丽荣示意。
像 ChatGPT 之类的大模型能够通过自然语言形容间接创立应用程序,AI 生成代码的速度远超人工,甚至还能够通过对话继续提出改良倡议。此前,已经估值 130 亿美元的 AI 写作工具 Grammarly 在 ChatGPT 公布后就呈现了网站用户直线降落的状况。
简丽荣认为,AI 利用的大规模推广实际上减少了 IT 行业的竞争维度,不同的企业在不同的维度下面的竞争力是不一样的。IT 层会更加多元化,这天然也会推动多云的遍及水平。
将来,大部分一般的非科技企业用户只须要调用云厂商提供的 MaaS 服务(模型即服务)来构建本人的垂类模型和利用,而一些大型企业用户出于数据安全、行业监管要求、老本、自主可控等因素,可能会更偏向于建设本人的根底平台来实现专有模型训练和推理工作。
大模型减速数据库散布化和并行化
随同“模型热”的衰亡,宏大的数据量带来了存储和计算资源的压力,这要求数据库自身严密跟云计算技术联合,通过元数据、计算和存储层解耦,从而充分发挥云平台的弹性和扩大能力。
简丽荣认为,在大模型暴发的背景下,数据库须要提供能够横向的并发拜访能力、多范式的数据处理剖析能力(包含反对申明式语言 SQL,过程式语言 Python/R,图计算、全文检索、流式计算、高性能计算、机器学习和人工智能)和海量异构数据(结构化数据、半结构化数据、非结构化数据以及实时数据)的存储管理能力。
在这种趋势下,基于云原生架构的数据仓库将成为将来数据库行业倒退的重要方向,而大中型企业思考到高可用以及议价能力等因素,通常会抉择多云部署的模式。
“这种趋势对咱们做多云数据库的企业也有显著影响,用咱们的外围产品 HashData 云数仓为例,设计之初,咱们对多云部署场景的思考是通过将零碎的不同组件解耦,升高对特定接口的依赖,不便对接各种凋谢的云平台,满足企业数据在不同云平台流转的需要。”简丽荣说,“咱们当初在开发加强 HashData 数据仓库反对向量数据存储和解决检索能力的性能组件,再联合云数仓的高扩展性、高可用和高弹性,实现更好地撑持和扩大大模型的利用场景。”简丽荣示意。
与此同时,分布式和并行化潮流将进一步减速。“大模型的利用将进一步减速数据库行业的分布式和并行化潮流,而且在一个更深更广的层面上进行分布式和并行化。”简丽荣示意,“更深指的是更多异构的算力资源须要并行化,包含 CPU、GPU、DPU 等,更广指的是相似‘东数西算’工程,这些都要求数据系统可能更好地提供共享和合作能力。”
此外,除了相似 ChatGPT 一样的 To C 的状态外,大模型在企业级市场将更多地以个性化、独立部署的状态呈现,也就是说各行各业甚至同一家企业不同的部门都会有各自的大模型实例,相似行业专家。在这样的背景下,须要在数据库内核集成深度学习和大模型的能力。
“无论是数据分析全链路的各个环节还是数据库本身的运维工作,都十分耗时和依赖教训,咱们正在尝试利用大模型训练数据库畛域的专家系统,冀望晋升数据分析和数据库智能运维能力,实现在数据库范畴内有相似于‘主动驾驶’一样的性能。”简丽荣示意。