关于数据库:CCKS2023基于企业数仓和大语言模型构建面向场景的智能应用

8 月 24 日 -27 日，第十七届全国常识图谱与语义计算大会（CCKS 2023）在沈阳召开。大会以“常识图谱赋能通用 AI”为主题，探讨常识图谱对通用 AI 技术的撑持能力，摸索常识图谱在跨平台、跨畛域等 AI 工作中的作用和利用路径。

作为国内常识图谱、语义技术、自然语言了解与常识获取等畛域的外围学术会议，每年的 CCKS 都会邀请相干技术畛域顶尖专家学者参会，探讨 AI 前沿技术。今年以来，大语言模型掀起的新一轮 AI 浪潮席卷寰球。本次大会上，大语言模型也成为泛滥参会专家学者关注的焦点。

在会上，酷克数据首席科学家杨胜文博士发表了题为《用常识加强“小”语言模型》的宗旨演讲，从产业实际的角度分享了在企业数据仓库环境下，利用中小规模语言模型构建面向场景的智能利用的摸索与实际，并对企业数智化转型过程中 AI 与数据如何更好地协同做了探讨。

大模型 VS 小模型？

在过来的几个月中，大语言模型在公众当中的关注度有所弛缓，但学术界和产业界的投入激情并未削弱。国内外各大厂商都在减速技术迭代，泛滥初创公司也在奋起直追，开源社区的倒退也十分迅猛。

杨胜文指出，目前千亿级参数的大语言模型在生成能力方面仍存在一些有余，如生成“幻觉”问题。更为重要的是，企业在理论利用大模型过程中还面临着数据安全、私有化老本高、要害利用场景辨认难和高质量数据不足等诸多挑战。

                    图 1: 酷克数据首席科学家杨胜文博士

绝对动辄千亿级甚至万亿参数的大语言模型而言，十亿级或百亿级参数的“小”语言模型，曾经具备良好的语言了解和生成能力，并且在落地方面有着显著的老本劣势。小语言模型可能以极低的老本在企业私有化部署，微调、推理所需的硬件老本也较低。通过与企业自有数据紧密结合（包含微调和 Prompt 加强等），在很多垂直场景都能够获得良好的利用成果。凭借其杰出的性价比和灵活性，小语言模型成为现阶段 LLM 在企业落地利用的可行代替计划。

同时，日益凋敝的开源生态为小语言模型在企业低成本、规模化的利用发明了条件。在代码和工具层面，曾经呈现了很多优良的开源我的项目和公开数据集，可能满足百亿级参数模型的训练需要。在模型层面，呈现了很多由大型商业公司、钻研机构和初创公司研发的模型，参数规模从数十亿到数百亿参数不等，大部分模型都容许收费商用，这为小语言模型的规模化落地进一步发明了条件。

企业数据仓库与大语言模型的有机联合

大语言模型的训练、微调以及常识加强的利用离不开高质量数据的反对。作为企业数据的存储、加工和剖析的外围场合，企业数据仓库蕴藏着微小的企业数据资产。

杨胜文认为，数据仓库为企业打造垂类模型、搭建面向场景的智能利用提供了人造的数据和计算环境。他同时指出，上一代数仓广泛采纳传统 MPP 架构，存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理老本低等难题，减少了数据管理和模型开发的复杂度。

酷克数据的旗舰产品 HashData 云数仓，是国内最早实现存算拆散的云原生剖析型数据库，目前已服务金融、电信、能源等行业泛滥大型企业。HashData 数仓零碎由 1 个元数据集群、若干个计算集群、1 个对象存储以及 1 个治理控制台形成，具备极佳的弹性和可扩展性。

相比传统架构的数据仓库，HashData 采纳存算拆散的架构，不仅可能通过 SQL 计算引擎对传统的数仓业务提供很好的反对，还可能借助 ML/DL 计算引擎实现对机器学习和深度学习的高效反对，其中包含对大语言模型微调和推理的反对，显著升高了零碎的复杂性，也大幅升高了经营老本。

HashData 云数仓还内置了对向量数据的反对，基于分布式并行处理技术，能够反对海量语义向量数据的存储和高效检索。

杨胜文示意，以 HashData 为代表的古代企业数据仓库，为数据查问、剖析和 AI 计算提供了对立的软硬件平台，将极大地推动 AI 技术在企业中的理论利用。

HashML 助力企业轻松构建大模型利用

为了进一步升高 AI 技术的利用门槛，酷克数据基于 HashData 云数仓自主研发了下一代 In-Database 高级剖析和数据迷信工具 HashML。

杨胜文介绍，HashML 首要设计指标就是简略易用，帮忙企业无门槛地应用各种经典和最前沿的 AI 算法和模型能力，解决理论业务问题。

为了实现这个指标，HashML 对编程接口做了高度形象和标准化，容许客户只编写大量代码就能够实现从数据加载到数据处理，再到模型训练、模型部署、推理预测的全流程工作。

                    图 2:HashML 次要性能概览

就大语言模型而言，借助 HashML 能够实现高质量数据挖掘、模型微调和 Prompt 加强，用户只须要大量的代码就能实现智能利用的搭建，包含向量知识库的建库和检索、模型的高效微调、模型部署和在线服务，以及对话式 Web 利用的疾速开发。另外，HashML 针对出名的开源语言模型，例如 ChatGLM、Baichuan、Llama2 等，提供了额定的性能封装，不便客户更加便捷地应用这些模型。

在会上，杨胜文介绍了基于 HashML 和小语言模型构建的两个智能利用：检索加强的智能问答（ReQA）和基于自然语言交互的数据分析（ChatData）。

在 ReQA 中，通过将企业长期积攒的产品手册、技术手册、行业标准、客户服务记录等材料进行向量化，并以向量知识库的模式寄存在 HashData，再联合语义向量检索技术和语言模型，就能实现基于本地知识库的精准问答。

                         图 3: 基于向量知识库的检索加强的智能问答（ReQA）

在 ChatData 中，用户可能以自然语言的形式与 HashData 数据库进行交互，实现数据查问和后果展现，还可能以自然语言的形式对查问后果进行可视化，从而大幅升高数据分析利用的门槛，容许企业更多的员工在职权范围内借助数据分析晋升工作效率和工作品质。为了让模型可能更好的了解用户查问用意并生成正确的 SQL 语句，酷克数据团队筹备了近十万条的训练语料，对模型进行了微调。

                     图 4: 基于自然语言的交互式数据分析（ChatData）

展望未来，杨胜文认为，新一代人工智能技术正在减速企业数字化、智能化过程，将对企业的研发、生产、经营带来深远影响。只有让 AI 计算贴近利用场景、贴近企业数据资产，能力更好地推动 AI 落地。以 HashData 为代表的古代企业数据仓库为依靠，联合小语言模型，低成本疾速试错，挖掘高价值利用场景，是现阶段推动大语言模型技术在企业规模化落地的一种可行门路。

本次大会现场，酷克数据云数仓解决方案 HashData 及下一代数据迷信工具 HashML 受到泛滥参会者关注。HashML 将于近期正式公布，后续咱们会带来更多相干技术分享。敬请关注！