本文次要分三局部内容:第一局部介绍拓数派公司,第二局部介绍 πDataCS 产品,最初介绍 πDataCS 与龙蜥在生态上的单干。
杭州拓数派科技倒退有限公司(简称“拓数派”,英文名称“OpenPie”)是国内根底数据计算畛域的高科技翻新企业。作为国内云上数据库和数据计算畛域的引领者,以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,使用突破性计算实践、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建设下一代云原生数据平台的前沿规范,驱动企业实现从“软件公司”到“数据公司”再到“数学公司”的继续进阶,减速数字化转型降级。
拓数派自成立以来专一于数据计算畛域,旗下大模型数据计算零碎(PieDataComputingSystem, 缩写:πDataCS),以云原生技术重构数据存储和计算,一份存储,多引擎数据计算,让 AI 模型更大更快,全面降级大数据系统至大模型时代。πDataCS 旨在助力企业优化计算瓶颈、充分利用和施展数据规模劣势,构建外围技术壁垒,更好地赋能业务倒退,使得自主可控的大模型数据计算零碎放弃寰球当先,让大模型技术全面赋能各行各业。目前大模型数据计算零碎,面向国内市场提供私有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需要,并已为金融、制作、医疗及教育等行业用户构建了 AI 数据底座。
拓数派领有强悍的研发外围团队和有胜利上市教训的治理团队。其外围团队成员次要来自 Pivotal、IBM、腾讯、字节跳动、快手、Oracle 等世界 500 强以及国内头部互联网公司。拓数派创始人兼 CEO 冯雷(Ray Von)是数据云和人工智能畛域的间断创业者和技术引领者。冯雷于 2010 年从美国硅谷归国,曾在 500 强公司 EMC 旗下创立 Greenplum 中国研发部门工作。2013 年随着寰球 Pivotal 组建,冯雷先生在中国 Greenplum 大数据和 VMWare 的 PaaS 云的根底上组建了 Pivotal 中国研发核心,推动了 Greenplum 大数据库、CloudFoundry PaaS 云等出名开源产品的畛域领先地位。
拓数派 2021 年创建,迅速进入疾速倒退阶段,引领数据计算时代的到来。成立当天即取得头部产业基金天使轮投资,成为 DAY-1 准独角兽。2022 年拓数派公布了云原生虚构数仓 PieCloudDB 社区版与商业版。2023 年拓数派大模型数据计算零碎 πDataCS 正式亮相,让 AI 模型更大更快。
上面介绍 πDataCS。数据分析的目标最终是为了发现解释世界规定的模型。有了数据和计算,最终用来形容世界法则,构建一个模型零碎。构建模型零碎的要害是要有足够多的数据,数据是外围竞争力。有了数据后要结构出解释世界的模型。拓数派团队既具备大数据分析的丰盛教训,也具备云计算方面的实战经验。
一提到模型可能首先想到有几千亿参数的大模型数据系统,其实日常生活中的模型无处不在。例如自由落体模型,由物理试验推导而来。最早的物理法则并不是实践推导而成,而是由数据分析得出,例如开普勒行星静止三定律,就是通过剖析天文学家几十年的观测数据总结得出。以自由落体模型为例,能够思考物体的自由落体静止以工夫和变量为参数。结构这样简略的一套模拟系统,通过观测收集到数据,再通过计算发现 p0、p1 参数都是 0,只有 p3 是 5。通过剖析后得出,只有当 p0、p1 值为该值时才合乎客观规律,这就是简略的模型训练过程。进行数据分析时,不仅要结构像大模型这种简单零碎,生存中也有很多像自由落体这种模型期待咱们发现。
上面是 πDataCS 产品的架构图。
πDataCS 打造了全新的云原生架构,反对一份数据,多引擎计算。πDataCS 反对多种云平台,包含私有云和公有云。πDataCS 以云原生技术重构数据存储和计算,先将数据计算零碎中的计算和数据拆散,加强零碎的弹性。接着,思考到将来数据治理和交易,拓数派把元数据和用户数据再次拆散,实现了全新的 eMPP 架构。元数据被映射到块存储,由元数据管理系统「木牍」进行治理;用户数据被映射到对象存储,由「简墨」存储系统来治理;计算被映射到容器或者虚拟机,由计算零碎来治理。元数据能够在零碎中形容数据的构造,找到数据地位。将元数据独自解决后简化了数据交换。例如进行黄金交易时不肯定一手交钱一手交货,能够将存储黄金的保险柜钥匙交出,此处的保险柜钥匙就相当于元数据管理系统,防止了数据脱漏等危险。此外 πDataCS 还利用 FPGA 硬件加速技术来进步对数据文件的拜访。
目前,πDataCS 反对三种计算引擎:
- PieCloudDB: 作为拓数派首款云原生数仓计算引擎,反对 SQL 语言模型,兼容 HTAP
- PieCloudVector: 为反对和大模型配合的向量计算而建设的云原生向量计算引擎
- PieCloudML: 为反对 Python 和 R 等机器学习语言而建设的云原生机器学习引擎
πDataCS 的第一个劣势是全面降级 Hadoop 大数据和 Greenplum 数仓至云原生数据平台。打造 πDataCS 是为了全面降级用户的数据平台。已经谈到大数据时肯定会提到 Hadoop,随着工夫倒退,人们发现 Hadoop 的很多问题,但很多用户的大数据系统还是基于 Hadoop 实现。自从 Hadoop 之后呈现很多大数据技术,但只能解决一部分数据问题。例如 MPP 数据库,次要为了解决关系型数据,还有 MySQL 数据库只能解决某一个类型的数据。只有 Hadoop 平台能够应用它的若干个模块来解决所有的数据,包含结构化的、非结构化的、文本、图像等等。同 Hadoop 一样,πDataCS 和也能够通过一个平台多种计算引擎来为客户解决所有数据,包含结构化的、非结构化的、文本、图像等。
πDataCS 的第二劣势是能够全面反对大语言根底模型和私域数据联合做垂直利用。拓数派第二款计算引擎 PieCloudVector,是一款能够用于存储、查问和剖析向量数据(比方特征向量)的向量数据库。
某出名金融客户积攒了很多金融方面的数据,包含各种各业的行业和所投资的各个公司的一些财务数据等,这些是他的外围竞争力。他心愿打造一个他公有的大模型零碎,应用问答的形式来应用他收集的这些金融方面数据,然而思考到数据的隐衷和平安等,不可能应用公开的大模型。上图是以 PieCloudVector 为外围,帮忙客户找到了这样一套公有的金融方面的大模型零碎。首先这些文档应用模型进行提取,将特色存入向量计算 Vector 数据中,再通过架构和他的应用程序进行交互,而后能够应用问答的形式来应用金融数据,也能够应用像大语言模型零碎。
πDataCS 的第三个劣势是云原生 eMPP 计算引擎全面颠覆 MPP 技术,打造大模型数据计算新范式。这一劣势是通过第一款计算引擎 PieCloudDB Database 来实现的。
虚拟机技术能够把一台物理服务器切换成若干台小的服务器,把它一台物理服务器的资源切换虚拟机,给不同的用户来用。同样咱们心愿把数仓资源切算成若干的虚构数仓,而后交给各个部门来应用,进步硬件的应用效率。以上解释了为什么拓数派团队要对 PieCloudDB 打造基于云原生的 eMPP 架构。
PieCloudDB 是基于 eMPP 架构的数仓零碎,实现了把元数据收集到元数据服务木牍当中,把用户数据存储到了简墨零碎中,而后实现了存储拆散的虚构数仓,实现了元数据、用户数据和虚构数仓数据计算之间独立的扩缩容。应用基于 PC 架构的传统数仓零碎,数据和计算紧紧绑定在一起。能够对它进行横向的扩大,然而同时必须要扩大存储,也须要扩大计算,计算和存储不能进行独立的扩大。这种架构下须要缩容时操作很艰难。通过 PieCloudDB 虚构数仓,将一个个数仓打造成不蕴含任何数据而且无状态的计算平台。能够依据须要对数仓的计算能力进行扩缩容。
在理论的利用场景中,简墨零碎能够构建在 S3 对象存储中或者 HDFS 和 NAS 中。
PieCloudDB 通过映射,让每一个业务部门本人领有独立的一套数仓零碎,应用起来与传统 MPP 数据库没有太大区别。但各个部门进行数据交换时,不须要再进行 ETL 操作,通过数据受权对元数据进行操作,将不同部门之间的数据映射给其余部门。在存储系统中,所有数据只存储了一份。相似前文替换保险柜钥匙来取得黄金,而不是真正进行黄金替换。通过虚构数仓零碎,能够升高硬件和治理老本。虚拟化能够进步硬件的使用率,晋升数据资源的利用效率,再通过一些技术进步数据安全性。
为了实现虚构数仓零碎,PieCloudDB 实现了四大技术冲破。
首先,PieCloudDB 实现了云原生存算拆散架构:用户数据,元数据和计算三层拆散,可进行独立扩缩容。第二依据云原生特点打造优化器达奇。云原生优化器负责依据部署 PieCloudDB 架构的特点来生成更优的执行打算,进步数据分析效率。第三是全新的数据存储引擎简墨,还有相干缓存架构设计,进步虚构数仓拜访数据输入的效率。第四是 eMPP 分布式技术,为传统 MPP 架构减少弹性,使虚构数仓进行横向的扩容和缩容变得十分不便。
πDataCS 第二款计算引擎 PieCloudVector,针对一些像金融、保险这方面用户,对数据的安全性要求比拟高,须要打造一个本人公有的大模型零碎。
把用户收集的数据或者是私有的数据,通过特征提取,创立一系列 embeddings,存储到向量数组中,再通过其余一些开源框架和大模型进行一个交互。相当于 PieCloudVector 为客户本人构建自有大模型提供存储底座。绝对于其余的向量数据库,包含一些专用的数据库,还有传统的要害数据库有这些向量的插件。
相比这两种计划,咱们这套零碎有哪些劣势呢?第一,应用专用的向量数据库,其余一些相干数据,例如存储在数据库中的要害型数据等,须要进行若干数据挪动。传统的数据库在高可用或者扩大方面有缺点。所以 PieCloudVector 集中了两方面劣势,比拟不便进行程度的扩缩容,第二个同时具备这两方面的长处,既能够存储一般的关系型数据,也能够存储向量数据。
第三款计算引擎是正在开发的新一代(大模型)机器学习 PieCloudML,在现有这些架构的根底上,通过新一代 PieCloudML,减少机器学习、图像数据处理等大模型零碎提供更深一步的反对。
大模型数据计算零碎,面向国内市场提供云上云版、社区版、企业版、一体机四个版本,满足企业不同业务场景需要。πDataCS 有三种部署形式。第一种间接部署在云上,第二种部署在客户现有的云平台,第三种是一体机零碎,用户接上网线,插上电源能够间接应用。
拓数派始终秉持着“凋谢互信、单干共赢”的理念,致力于构建蓬勃的数据生态。πDataCS 也十分重视软件生态打造,重视与社区方面的单干。πDataCS 须要适配各种各样的云环境,所以须要打造弱小的软件生态系统。 拓数派团队针对不同的部署形式与龙蜥平台进行了全方位的测试,测试结果显示,龙晰平台平安稳固、性能优异。因而,咱们确信,龙蜥平台能够反对 πDataCS 良好运行。 除了龙蜥外,πDataCS 也实现了与其余支流软硬件平台的适配工作。拓数派将持续致力,打造欠缺的产品生态,为用户提供更平安稳固、高性能、易用的大模型数据计算平台。