关于大数据:火山引擎DataLeap推出两款大模型应用-对话式检索与开发-打破代码语言屏障

10次阅读

共计 2148 个字符,预计需要花费 6 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

自上世 50 年代,以“计算机”作为代表性象征的信息反动开始,社会对于先进生产力的认知便开始逐渐更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机联合,从而进步企业的管理水平和效率)到数字化(普遍认为是以数据分析为外围,利用各种业务数据去反哺和优化业务过程)转变。

企业心愿通过数字化来冲破业务瓶颈,实现转型降级。而这期间,数据作为新的生产因素,其重要性毋庸置疑。

9 月 19 日,2023 火山引擎数据驱动科技峰会公布数据产品大语言模型(Large Language Models)利用:DataLeap- 找数助手、DataLeap- 开发助手和 DataWind- 剖析助手,为企业提供从数据资产的检索、到数据开发,再到数据利用的全链路 AI 能力。

上述能力的公布,其目标就是让企业能更便捷地生产数据、利用数据,实现更普惠的数据生产,为数字化提供事实根底。

DataLeap 是火山引擎数智平台(VeDI)推出的大数据研发治理套件,外围是帮忙企业疾速实现数据集成、开发、运维、治理、资产、平安等全套数据中台建设。

DataLeap 此次降级公布的两款大模型利用能力“DataLeap- 找数助手”与“DataLeap- 开发助手”,次要聚焦在企业数据资产查问与数据开发运维两大外围场景,通过大模型能力的加持,升高企业数据资产检索和数据开发的准入门槛。

“DataLeap- 找数助手”:AI+ 数据资产查问 晋升数据资产检索效率
利用“DataLeap- 找数助手”,能够实现多种数据类型及相干业务知识的问答式检索。

从企业数据生产的链路来看,数据资产的检索、治理能够看作是生产的第一环。找到正确的数据资产,继而能力实现数据的生产。

数据的查找和应用自身强依赖业务专业知识的输出。过来传统技术计划下,数据资产检索重依赖数据结构化治理,须要大量的人力保障,且不够灵便。同时,非结构化数据与数据资产的关联缺失,会导致大量业务信息缺失,而以往基于关键词在结构化及非结构化数据中的检索,因为检索链路割裂,会大大降低基于业务场景的数据查找和生产效率。此外,检索提供的是基于关键词的候选答案汇合,须要人为再次筛选确认,不是间接的答案,导致用户很难有良好体验。

与大语言模型 (LLM) 联合后,资产查问的形式变得更“拟人化”:在与用户对话式的过程中,大语言模型 (LLM) 能够了解用户实在用意,让搜寻过程更聚焦,节约了人为判断的老本。同时,伴随模型语义了解剖析能力的逐渐晋升,对话式检索相比单纯地用关键词检索的形式,其全链路的检索效率也更高。

在性能上,“DataLeap- 找数助手”目前次要提供三类:

  1. 找数据,表、数据集、仪表盘等
  2. 问含意,指标的口径信息、维度枚举值含意等
  3. 业务征询,业务知识征询,如业务常见术语含意,业务分类等信息

其外围劣势在于:

  1. 问答式查问形式,查问效率更高;
  2. 轻量化接入能力,反对自助接入企业知识库;
  3. 语料充沛,元数据中心能力欠缺可提供企业级服务

能力公布后,“DataLeap- 找数助手”将让企业的数据资产检索变得更快,使得低成本治理、真正的自助式数据生产变得可行。

“DataLeap- 开发助手”:AI+ 数据生产 升高数据开发门槛
利用“DataLeap- 开发助手”,能够实现通过自然语言形容,主动生成代码;针对已有的代码能够主动实现 Bug 修复,代码优化、解释与正文等;对话式形式进行文档搜寻、函数应用、代码示例等问题征询。

过来,研发人员必须充沛相熟 SQL 等数据开发语言,能力高效反对数据分析背地的开发需要。但在事实场景中,数据分析师、依赖数据的业务经营人员都会有大量的数据生产诉求,也就意味着须要大量的业余数据研发人员来反对一些看似根底但仍须要人为染指的开发工作。

“DataLeap- 开发助手”底层采纳大语言模型,通过海量的代码和语料训练,能够依据用户的自然语言输出,主动关联包含表 Schema 在内的元数据信息,生成高质量的数据加工代码,并具备代码的了解、改写以及畛域常识的问答能力。

目前看,“DataLeap- 开发助手”次要提供以下 3 个细分场景的服务:

  1. 生成代码:形容须要解决的问题能够主动生成代码,例如:从多张数据表中,通过关联,主动查问、统计指标数据;
  2. 智能问答:依据你形容的问题进行答疑,例如遗记 Spark 函数怎么写,唤起智能开发助手,询问函数应用形式;
  3. 修复 / 优化代码:用户能够间接在 SQL 编辑器中通过 AI 修复性能,理解具体的报错起因,并基于修复倡议“一键实现”选中代码的修复 / 优化。

“DataLeap- 开发助手”的外围劣势在于:

  1. 适配多场景数据开发,简略场景主动开发,简单场景辅助提效
  2. 内置于编辑器,灵便唤起,缩小多工具切换老本,交互体验对齐桌面原生 IDE(集成开发环境)
  3. 模型起源可扩大,反对企业自有模型接入

其外围价值是突破了语言障碍,极大水平升高了数据开发的准入门槛,同时让业余数据研发人员更聚焦简单场景的需要,利用开发助手优化代码,进步研发生产效率与代码品质。

以 DataLeap 为代表的火山引擎多个数据产品拥抱 AI,实质是为了升高数据生产门槛,通过数据生产来实现企业数据资产与业务利用的飞轮效应,晋升企业生机。

点击跳转大数据研发治理套件 DataLeap 理解更多

正文完
 0