关于数据库:当大模型遇到数据仓库-HashData助力LLM规模化应用

6 月 30 日，由 IT168 主办的第十六届中国零碎架构师大会（SACC2023）在北京揭幕。本届大会以“数字转型架构演进”为主题，议题涵盖 AIGC 大数据、多云多活、云老本等多个热门畛域。

在会上，酷克数据首席科学家杨胜文发表了题为《当 LLM 遇到数据仓库》的宗旨演讲，分享了对大模型热潮的察看和思考，并介绍了借助酷克数据研发的下一代高级剖析和数据迷信工具 HashML，简化从数据处理、模型微调到常识加强的智能利用构建流程，助力 LLM 在企业实现规模化落地利用。

杨胜文示意，目前百亿级参数 LLM 曾经具备优良的语言了解和生成能力。在 LLM 技术还在疾速演进的过程中，绝对于千亿级参数模型，百亿级参数模型具备非常明显的老本劣势，成为现阶段推动 LLM 在企业低成本、规模化落地的一个重要选项。

“一方面，通过模型的低成本私有化部署，能够解决很多企业对数据安全担心的问题。另一方面，企业能够更加不便地利用数据仓库中已有的数据对模型进行微调，并联合 HashData 对向量数据的存储和高效检索的反对，疾速构建常识加强的智能利用。”杨胜文介绍，在具体实施过程中，企业能够通过简略易用、算法丰盛、性能卓越的 AI 开发工具 HashML，让数据科学家、数据工程师、利用开发者无门槛地应用 LLM。

                      酷克数据首席科学家杨胜文

LLM 热潮下的冷思考
自去年 11 月底 ChatGPT 公布以来，国内外很多厂商都加大了对大语言模型的研发投入，各种模型与利用如雨后春笋，层出不穷。据中国科学技术信息研究所统计，截止往年 5 月，国内已公布 10 亿参数规模以上的大模型 79 个，俨然进入一场新的军备竞赛。

对于这波大语言模型引发的 AI 热潮，学术界尚存诸多不同的认识。有些科学家认为，应该暂停大型 AI 试验，免得给人类社会带来潜在的危险和危害。有些科学家认为，自回归语言模型并不能让机器实现人类程度的智能，无需适度放心，实现通用人工智能（AGI），须要有别的技术路线。

只管学术界仍有争议，但这并未影响 LLM 利用遍地开花。围绕 ChatGPT，开发者和企业不仅能够通过 API 拜访 OpenAI 提供的服务来构建本人的 AI 利用，也能够在 ChatGPT 中应用各种插件，从而让 ChatGPT 变得更加弱小。OpenAI 也在近期推出了 ChatGPT App，反对语音输入，并对更多国家和地区凋谢了服务。谷歌、微软等跨国公司也相继发表在全线产品接入大语言模型能力。

在国内，不少企业通过与 AI 服务提供商单干，尝试在产品研发或 IT 零碎中引入大语言模型能力。

杨胜文示意，只管大模型的利用前景非常广阔，但并非所有企业和创业者都能够在这个畛域取得成功，清静过后最终仍将回归到场景价值，回到企业对于老本与收益的思考上来。站在客户的角度，须要思考抉择适合的场景，以较低的老本进行利用试点，来验证能够取得的收益，而不是一开始就要求客户投入大量的启动资金。

“对集体消费者而言，个别通过聊天服务和基于大语言模型的各种效率工具，根本可能满足大多数需要。”杨胜文示意，“但对于企业客户而言，往往须要将大模型的能力与自研产品或 IT 零碎做集成甚至深度交融，这外面会面临一些问题。”

他指出，目前企业应用千亿级参数大语言模型通常有两种形式，拜访私有云服务或私有化部署，这两种模式各有其优缺点。私有云服务的长处在于能够疾速接入，可灵便抉择服务提供商，但面临着监管合规、数据透露危险、专属模型老本昂扬等问题；私有化部署能够解决企业对数据安全担心的问题，企业也能够利用自有数据更加不便地对根底模型进行微调定制，但同样也面临应用老本高的问题，千亿级参数大模型对计算资源和技术人员程度都会有较高的要求。

杨胜文示意，在 LLM 技术还在疾速演进的明天，应该充分发挥以后大语言模型的劣势能力，也就是卓越的语言了解和生成能力。百亿级参数模型不论是推理还是微调，都有显著的老本劣势，是推动 LLM 在企业低成本、规模化落地的一个重要选项。同时，日益凋敝的开源生态也为百亿级参数模型在企业应用落地发明了条件。以后曾经呈现了一些由钻研机构和初创公司公布的开源模型，成果体现良好且遵循对商业应用十分敌对的开源协定。

HashML 大幅升高 LLM 利用门槛
数据作为企业十分重要的资产，如何通过数据分析、开掘、建模，开释数据价值，是以后企业数字化建设的一个要害话题。数据仓库是企业实现数据存储、剖析、解决和计算的外围场合。

长期以来，数据仓库次要用来满足企业的描述性剖析需要，而业务价值更高、同时技术复杂度更高的预测性剖析和决策性剖析，目前仍未取得广泛应用。过来，行业内已经尝试在数据仓库中实现诸如机器学习这样一些高级剖析能力，但传统的 In-Database 机器学习解决方案反对的算法品种无限，且偏传统的算法居多，对深度学习的反对十分弱，运行效率也整体欠佳。

相比传统架构的数据仓库，HashData 采纳存算拆散的架构，不仅可能通过 SQL 计算引擎对传统的数仓业务提供很好的反对，还可能借助 ML/DL 计算引擎实现对机器学习和深度学习的高效反对，其中包含对大语言模型微调和推理的反对。HashML 就是酷克数据利用 HashData 弱小的计算引擎打造的下一代 In-Database 高级剖析和数据迷信工具。

                       图 1 HashML 次要性能概览

HashML 通过以下个性为企业提供了简略易用、成果优异的 AI 开发体验：
1、HashML 提供了宽泛的算法反对，特地是通过对深度学习框架的反对，可能反对各种深度神经网络算法，也对大语言模型的微调、推理以及基于大语言模型的智能利用搭建提供了良好的反对；
2、新算法的开发和引入变得非常容易，客户仅需关注神经网络构造的定义和实现，就能开发一种全新的深度神经网络算法；
3、HashML 反对分布式并行训练和推理，可能依据数据规模和模型复杂度灵便调整并行度，大幅提高了模型训练和推理的效率；
4、HashML 反对 GPU 减速，通过多机多卡分布式计算可能进一步晋升运算效率；
5、HashML 提供规范、对立、简洁的 API 接口，大幅升高了利用门槛；
6、HashML 反对 Python 和 SQL 两种编程语言接口，开发者能够依据集体偏好自主抉择；
7、HashML 通过 Python 接口可能与凋敝的数据迷信生态相交融，为数据科学家和机器学习工程师提供便捷的开发工具。

HashML 作为 HashData 云数仓的一个扩大实现，与数仓共享对立的存储和计算资源，随数仓的部署提供开箱即用的 AI 能力，大幅升高了零碎部署的老本和复杂度，为开发者提供了对立的数据查问、剖析、建模环境。

“HashML 首要设计指标就是简略易用，心愿客户可能无门槛应用各种经典和最前沿的 AI 算法和模型能力来解决理论业务问题。”杨胜文示意，LLM 与 HashData 为代表的业界当先的企业数据仓库相结合，使得从数据处理、模型微调到常识加强的智能利用构建的全流程变得更简略，推动 LLM 走向规模化利用。

                     图 2 基于 HashData 的 LLM 低成本落地计划

在会上，杨胜文介绍了 HashData 与 LLM 相结合的两个利用案例：常识加强的智能问答（见图 3）和 Text2SQL（从自然语言生成 SQL，见图 4）。在常识加强的智能问答利用案例中，用户能够通过收集整理文档，并对文档进行解析、分块、编码，结构向量知识库。当用户输出一个问题时，对话机器人首先基于问题去知识库查问相干信息，而后结构适合的 Prompt 去申请大语言模型并取得生成的后果。当知识库存在与问题高度相干的信息时，语言模型就能够基于对这些信息的了解和摘要，生成高质量的答复。

                       图 3 基于向量知识库的智能问答

在 Text2SQL 利用案例中，因为根底模型在自然语言转 SQL 方面的能力绝对较弱，须要对根底模型进行微调。为此，团队筹备了大略十几万条训练语料，利用 HashML 封装的 LoRA 办法进行了微调，在一张 V100 的卡上进行训练。为了实现更好的成果，在和机器人交互的时候，除了提供用户输出的查问申请，还须要提供实现该查问所需的数据表的 Schema 信息。Schema 信息能够由用户提供，也能够在理论生产场景中，由机器人连贯数据库主动获取。

                      图 4 Text2SQL：从自然语言生成 SQL

展望未来，杨胜文认为，将来大语言模型倒退方向必然是多元化、普惠化，每个企业都能够利用大语言模型来晋升智能化程度，实现降本增效。数据与大语言模型的紧密结合，将会为企业和社会发明微小的价值。以 HashData 为代表的企业数据仓库，为这种联合提供了一个人造的平台。企业能够在自有数据上通过模型微调和利用翻新，开释大语言模型的利用后劲，进而充沛开释数据价值，实现新的增长点。基于数据仓库和大语言模型构建面向场景的智能利用，将成为企业智能利用开发的新范式。