关于数据库:CCKS2023基于企业数仓和大语言模型构建面向场景的智能应用

8月24日-27日，第十七届全国常识图谱与语义计算大会（CCKS 2023）在沈阳召开。大会以“常识图谱赋能通用AI”为主题，探讨常识图谱对通用AI技术的撑持能力，摸索常识图谱在跨平台、跨畛域等AI工作中的作用和利用路径。

作为国内常识图谱、语义技术、自然语言了解与常识获取等畛域的外围学术会议，每年的CCKS都会邀请相干技术畛域顶尖专家学者参会，探讨AI前沿技术。今年以来，大语言模型掀起的新一轮AI浪潮席卷寰球。本次大会上，大语言模型也成为泛滥参会专家学者关注的焦点。

在会上，酷克数据首席科学家杨胜文博士发表了题为《用常识加强“小”语言模型》的宗旨演讲，从产业实际的角度分享了在企业数据仓库环境下，利用中小规模语言模型构建面向场景的智能利用的摸索与实际，并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。

大模型VS小模型？

在过来的几个月中，大语言模型在公众当中的关注度有所弛缓，但学术界和产业界的投入激情并未削弱。国内外各大厂商都在减速技术迭代，泛滥初创公司也在奋起直追，开源社区的倒退也十分迅猛。

杨胜文指出，目前千亿级参数的大语言模型在生成能力方面仍存在一些有余，如生成“幻觉”问题。更为重要的是，企业在理论利用大模型过程中还面临着数据安全、私有化老本高、要害利用场景辨认难和高质量数据不足等诸多挑战。

                    图1:酷克数据首席科学家杨胜文博士

绝对动辄千亿级甚至万亿参数的大语言模型而言，十亿级或百亿级参数的“小”语言模型，曾经具备良好的语言了解和生成能力，并且在落地方面有着显著的老本劣势。小语言模型可能以极低的老本在企业私有化部署，微调、推理所需的硬件老本也较低。通过与企业自有数据紧密结合（包含微调和Prompt加强等），在很多垂直场景都能够获得良好的利用成果。凭借其杰出的性价比和灵活性，小语言模型成为现阶段LLM在企业落地利用的可行代替计划。

同时，日益凋敝的开源生态为小语言模型在企业低成本、规模化的利用发明了条件。在代码和工具层面，曾经呈现了很多优良的开源我的项目和公开数据集，可能满足百亿级参数模型的训练需要。在模型层面，呈现了很多由大型商业公司、钻研机构和初创公司研发的模型，参数规模从数十亿到数百亿参数不等，大部分模型都容许收费商用，这为小语言模型的规模化落地进一步发明了条件。

企业数据仓库与大语言模型的有机联合

大语言模型的训练、微调以及常识加强的利用离不开高质量数据的反对。作为企业数据的存储、加工和剖析的外围场合，企业数据仓库蕴藏着微小的企业数据资产。

杨胜文认为，数据仓库为企业打造垂类模型、搭建面向场景的智能利用提供了人造的数据和计算环境。他同时指出，上一代数仓广泛采纳传统MPP架构，存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理老本低等难题，减少了数据管理和模型开发的复杂度。

酷克数据的旗舰产品HashData云数仓，是国内最早实现存算拆散的云原生剖析型数据库，目前已服务金融、电信、能源等行业泛滥大型企业。HashData数仓零碎由1个元数据集群、若干个计算集群、1个对象存储以及1个治理控制台形成，具备极佳的弹性和可扩展性。

相比传统架构的数据仓库，HashData采纳存算拆散的架构，不仅可能通过SQL计算引擎对传统的数仓业务提供很好的反对，还可能借助ML/DL计算引擎实现对机器学习和深度学习的高效反对，其中包含对大语言模型微调和推理的反对，显著升高了零碎的复杂性，也大幅升高了经营老本。

HashData云数仓还内置了对向量数据的反对，基于分布式并行处理技术，能够反对海量语义向量数据的存储和高效检索。

杨胜文示意，以HashData为代表的古代企业数据仓库，为数据查问、剖析和AI计算提供了对立的软硬件平台，将极大地推动AI技术在企业中的理论利用。

HashML助力企业轻松构建大模型利用

为了进一步升高AI技术的利用门槛，酷克数据基于HashData云数仓自主研发了下一代In-Database高级剖析和数据迷信工具HashML。

杨胜文介绍，HashML首要设计指标就是简略易用，帮忙企业无门槛地应用各种经典和最前沿的AI算法和模型能力，解决理论业务问题。

为了实现这个指标，HashML对编程接口做了高度形象和标准化，容许客户只编写大量代码就能够实现从数据加载到数据处理，再到模型训练、模型部署、推理预测的全流程工作。

                    图2:HashML次要性能概览

就大语言模型而言，借助HashML能够实现高质量数据挖掘、模型微调和Prompt加强，用户只须要大量的代码就能实现智能利用的搭建，包含向量知识库的建库和检索、模型的高效微调、模型部署和在线服务，以及对话式Web利用的疾速开发。另外，HashML针对出名的开源语言模型，例如ChatGLM、Baichuan、Llama2等，提供了额定的性能封装，不便客户更加便捷地应用这些模型。

在会上，杨胜文介绍了基于HashML和小语言模型构建的两个智能利用：检索加强的智能问答（ReQA）和基于自然语言交互的数据分析（ChatData）。

在ReQA中，通过将企业长期积攒的产品手册、技术手册、行业标准、客户服务记录等材料进行向量化，并以向量知识库的模式寄存在HashData，再联合语义向量检索技术和语言模型，就能实现基于本地知识库的精准问答。

                         图3:基于向量知识库的检索加强的智能问答（ReQA）

在ChatData中，用户可能以自然语言的形式与HashData数据库进行交互，实现数据查问和后果展现，还可能以自然语言的形式对查问后果进行可视化，从而大幅升高数据分析利用的门槛，容许企业更多的员工在职权范围内借助数据分析晋升工作效率和工作品质。为了让模型可能更好的了解用户查问用意并生成正确的SQL语句，酷克数据团队筹备了近十万条的训练语料，对模型进行了微调。

                     图4:基于自然语言的交互式数据分析（ChatData）

展望未来，杨胜文认为，新一代人工智能技术正在减速企业数字化、智能化过程，将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近利用场景、贴近企业数据资产，能力更好地推动AI落地。以HashData为代表的古代企业数据仓库为依靠，联合小语言模型，低成本疾速试错，挖掘高价值利用场景，是现阶段推动大语言模型技术在企业规模化落地的一种可行门路。

本次大会现场，酷克数据云数仓解决方案HashData及下一代数据迷信工具HashML受到泛滥参会者关注。HashML将于近期正式公布，后续咱们会带来更多相干技术分享。敬请关注！

关于数据库:CCKS2023基于企业数仓和大语言模型构建面向场景的智能应用

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据库:CCKS2023基于企业数仓和大语言模型构建面向场景的智能应用

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复