近日,业界当先的国产企业级云数仓厂商酷克数据公布了下一代 In-Database 高级剖析和数据迷信工具箱 HashML,在业内率先实现为企业提供随数仓部署一步到位、开箱即用的 AI 能力。
在数字经济时代,描述性剖析曾经十分成熟并被企业宽泛驳回。然而,受限于人才缺口和技术门槛,更高价值的预测性剖析和决策性剖析,目前遍及度依然绝对较低。为了应答日益强烈的市场竞争,企业 IT 部门迫切需要简略易用的高级剖析工具产品来实现对业务可继续衰弱倒退的无效撑持。
图 1:数据分析的不同层级
数据仓库作为企业数据存储、加工和剖析的外围场合,蕴藏着规模宏大的数据资产。然而,通用模型的成果往往只能达到差强人意的“及格线”。只有通过 AI 算法与利用场景及企业自有数据严密协同,能力充沛开释数据后劲,达到驱动业务衰弱倒退的“优良线”。以 HashData 为代表的古代企业数据仓库,为 AI 模型的训练、部署和推理提供了最佳的数据撑持平台。
为了升高高级剖析和 AI 技术的利用门槛,酷克数据基于 HashData 打造了下一代 In-Database 高级剖析和数据迷信工具箱 HashML。
HashML 提供了从数据查询处理、高级剖析到机器学习、深度学习的一站式多层次数据分析和 AI 能力。针对近期市场高度关注的大语言模型,HashML 也提供了从高质量数据挖掘、模型微调到模型部署和推理的全流程反对。同时,基于 HashData 内置的分布式并行向量数据存储、索引及检索性能,HashML 提供了向量知识库的构建和检索能力,使得常识加强的大语言模型利用开发变得更加简略。
HashML 继承了 HashData 的云原生劣势,从模型训练到模型部署都能够做到按需弹性伸缩。同时,HashML 也提供了 Python 和 SQL 两种语言反对,无论是数据迷信社区的 Python 用户,还是数据库社区的 SQL 用户,都能够低门槛地上手应用。
图 2:HashML 次要性能概览
HashML 领有以下三大产品特色:
简略易用:可随 HashData 数据仓库一起装置部署,做到开箱即用,同时所有模块 API 的设计,都力求标准化,与数据迷信社区风行的第三方库保持一致,最大水平保障易用性。
性能卓越:依据工作的复杂度确定并行处理的并发度,尤其对于较为简单的深度模型或大语言模型,能够利用多机多卡实现高效的训练和微调,保障作业时效性。
算法丰盛:从传统的统计机器学习算法到常见的深度神经网络,和最新的预训练大模型,都能提供良好的反对,同时也针对常识加强的大语言模型利用,提供了向量知识库,可能高效反对海量语义向量数据的存储和检索。
简略易用:标准化接口,低代码开发
简略易用是咱们设计 HashML 时的首要指标,力求帮忙企业无门槛应用各种经典和最前沿的 AI 算法和模型能力,低成本解决理论业务问题。
为了实现这个指标,HashML 对编程接口做了高度形象和标准化。客户只需编写大量代码就能够实现从数据加载到数据处理、模型训练、模型部署和推理预测的全流程工作。
例如,针对模型的训练和微调,HashML 形象了对立的 fit 接口。不论是机器学习模型、深度学习模型还是大语言模型,都能够调用该接口实现模型训练或微调。以下为 XGBoost 模型训练代码示例:
rom hashml.models import XGBoost
xgb = XGBoost(dbname='testdb')
xgb.fit(train_tblname='calhouse_train', valid_tblname='calhouse_val', train_config={...})
LLaMA2 模型微调代码示例:
from hashml.llm import Lora4Llama2
lora = Lora4Llama2(base_model='Llama-2-7b-chat-hf')
lora.fit(train_tblname='nl2sql_train', valid_tblname='nl2sql_val', train_config={...})
为了不便 SQL 开发者应用 AI 能力,HashML 还提供了 SQL 编程语言接口。下图显示了如何通过执行 SQL 语句实现 XGBoost 模型的训练。HashML SQL 接口代码示例如下:
SELECT
hashml.xgboost_train(
'calhouse_train',
'calhouse_val',
'{''objective'':''reg:squarederror'',''y'':''target'',''num_workers'':4}'
);
性能卓越:多机多卡,弹性伸缩
基于 HashData 弱小的集群资源管理能力,HashML 能够依据算法复杂度、数据量大小、拜访负载等因素按需分配所需计算资源,为模型训练、部署和推理提供灵便的计算环境。
- 分布式并行数据处理
HashML 定义了数据模块,能够帮忙开发者高效地实现数据读写、数据分析、数据处理等各种性能。这些性能对于开发机器学习、深度学习模型至关重要,能够高效快捷地实现数据荡涤、特征提取、特色变换、样本生成等一系列工作。基于封装良好的编程接口,用户只须要关注数据处理逻辑的实现,仅需大量的代码开发,计算过程就能够由 HashData 计算引擎以分布式并行处理的形式高效实现。 - 分布式并行模型训练
HashML 提供了分布式并行模型训练能力,能够按需将模型训练任务分配给多个 Worker 执行,同时能够为每个 Worker 指定所需计算资源(包含 CPU 核数和 GPU 卡数)。对于大多数常见的训练任务,数据并行就足以高效实现模型训练。对于参数规模宏大的大语言模型,咱们在数据并行的根底上,利用 DeepSpeed 和 Accelerate 实现模型并行。另外,得益于 HashData 对计算资源的对立治理,用户无需费神训练作业具体是在哪些机器上执行,运维工作大幅简化。 - 弹性可伸缩服务部署
HashML 提供了弹性可伸缩的模型部署和在线推理性能,旨在简化模型的部署并依据服务负载动静调整模型实例的数量。除了反对单个模型的弹性部署,HashML 还反对多个模型的组合部署,这对于须要调用多个模型实现一个业务申请的场景十分有用。用户能够在服务端实现简单业务逻辑的开发,客户端只须要与服务端进行一次交互就能取得最终的后果,不仅大幅简化了业务开发,同时进步了端到端服务的时效性。
算法丰盛机器:学习深度学习全笼罩,前沿算法疾速追踪
HashML 的另一特色就是算法品种丰盛,从经典的统计机器学习算法,到出名的深度学习算法,都提供了很好的反对。同时,通过亲密追踪技术倒退动静并依据市场需求,HashML 也会及时引入前沿算法。例如,针对以后十分热门的大语言模型,HashML 通过交融业界支流的开源大语言模型,提供了一套残缺的大语言模型利用开发框架,能够低成本、疾速地实现从高质量数据挖掘、模型微调到智能利用开发的全流程工作。
- 机器学习与深度学习
为了满足各种利用场景,HashML 内置了对经典机器学习算法的反对,如 Logistic Regression、Random Forest、SVM、XGBoost、LightGBM 等,还通过反对支流的深度学习框架(如 PyTorch),可能反对各种深度学习算法。另外,HashML 也容许用户依据须要定制开发新算法。通过对算法开发框架精心封装,使得用户在充沛了解算法原理的根底上,只需关注网络结构的定义和实现,用大量代码就能实现新算法的开发和引入。新算法开发实现后,能够主动具备 HashML 所提供的分布式并行训练和推理能力。
以下为自定义神经网络代码示例:
rom hashml.models.torch_base import TorchBaseModel
class _MLPNetwork(nn.Module):
def __init__(self, input_size: int, hidden_config: List[int], output_size: int,
use_bn: bool = False, use_dropout: bool = False
) -> None:
super(_MLPNetwork, self).__init__()
self._nn = nn.Sequential(*layers)
def forward(self, x: torch.Tensor) -> torch.Tensor:
return self._nn(x)
class MLP(TorchBaseModel):
def __init__(self, input_size: int, hidden_config: List[int], output_size: int,
use_bn: bool = False, use_dropout: bool = False, **kwargs) -> None:
self.input_size = input_size
super(MLP, self).__init__(**kwargs)
def _build_network(self) -> torch.nn.Module:
return _MLPNetwork(self.input_size, ...)
if "__main__" == __name__:
mlp = MLP(input_size=784, hidden_config=[128], output_size=10, dbname='testdb')
mlp.fit(train_tblname='fashionmnist_train',
modelname='mlp_0406_1',
valid_tblname='fashionmnist_test')
- 大语言模型
ChatGPT 的问世使得大语言模型成为了以后最受关注的钻研热点。大语言模型技术的产生与倒退不仅重塑了人工智能倒退的技术路线,还在很大水平上扭转了 AI 技术在企业的利用范式。HashML 适应技术趋势,提供了对大语言模型的反对,包含模型微调以及常识加强的大语言模型利用开发。HashML 对以后业界支流的开源大语言模型都提供了反对,包含 ChatGLM、Baichuan、LLaMA-2、Qwen 等。基于 HashML,能够十分不便地实现百亿级参数大语言模型的私有化部署,并在客户公有环境实现模型微调和智能利用开发。
图 3:日益凋敝的开源大语言模型生态
利用案例:HashML 助力大语言模型在企业落地利用
- ReQA: 检索加强的智能问答
大语言模型应用了大量的文本进行训练从而使人机对话更加智能,但对于特定畛域的常识,大语言模型却显得顾此失彼。基于 HashML 和大语言模型,能够疾速搭建基于向量知识库的检索加强的智能问答零碎(ReQA)。
在 ReQA 中,企业通过调用本地部署的 Embedding 服务将自有的知识库(包含管理制度、产品手册、技术手册、运维手册、工作标准、流程记录、FAQ 等)进行向量化,并存放到 HashData 造成向量知识库。当答复用户发问时,通过检索向量知识库取得相干信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就可能生成精准的答复,从而无效解决困扰大语言模型的生成“幻觉”问题。ReQA 在企业有着十分宽泛的利用场景,包含智能客服、销售助手、文档浏览助手等。
图 4:检索加强的智能问答实现计划
- ChatData:基于自然语言的交互式数据查问剖析
尽管 SQL 是一种广泛应用的数据库查询语言,但对许多企业员工来说却是一道难以逾越的门槛,这无疑限度了业务部门间接解决数据。
针对这个问题,咱们基于 HashML 和大语言模型开发了 ChatData,使得企业每个员工能够无门槛地应用自然语言与权限范畴内的数据库进行交互。ChatData 大大降低了数据分析和利用的门槛,有利于充沛地开释企业数据价值。
在 ChatData 中,首先利用大量高质量的 < 查问指令,SQL 语句 > 数据对大语言模型进行微调,使之可能精确地将自然语言表白的用户查问用意转换为正确非法的 SQL 语句,零碎通过执行生成的 SQL 语句实现数据查问并返回后果。在此基础上用户还能够通过自然语言和零碎进行交互,实现对查问后果的可视化。
图 5:基于自然语言的交互式数据查问剖析实现计划
Data+AI 助力企业数智化降级
新一代人工智能技术正在减速企业数字化、智能化过程,久远来看,将对企业的研发、生产、经营带来深远影响。企业须要逐场景深刻打磨,让 AI 计算贴近利用场景、贴近企业数据资产,能力实现更好的 AI 落地。
酷克数据打造的下一代高级剖析和数据迷信工具箱 HashML,致力于大幅升高 AI 技术的利用门槛,为数据科学家、数据工程师、AI 利用开发者应用先进的 AI 技术提供便当。咱们心愿以企业数据仓库为依靠,联合前沿的 AI 技术,帮忙用户以低成本疾速试错,迭代挖掘高价值利用场景,推动 AI 技术在企业规模化落地,产生真正的业务价值。
将来,咱们将继续迭代欠缺产品,将 HashData 打造成弱小的企业级数据和 AI 基础设施,助力千行百业通过剖析与智能实现业务价值!