关于大数据:星环科技打造自主可控的高性能数据库开启国产化升级新篇章

星环科技自成立以来，始终致力于国产化数据库的自主研发，打造了自主可控的高性能分布式剖析型数据库 ArgoDB 和分布式交易型数据库 KunDB。交易型数据库 KunDB 具备较强的 SQL 兼容性，同时具备高可用、高并发、在线扩缩容、数据强一致性等能力，实用于操作型业务、高并发业务等场景。多模型数据库 ArgoDB 具备残缺的 SQL 兼容性，同时具备高扩大、高牢靠、多模型、存算解耦等能力，一站式满足数据仓库、实时数据仓库、数据集市、OLAP、联邦计算等场景。

通过一直的打磨和对业务场景一直的落地实际，ArgoDB 和 KunDB 已成为具备齐全自主知识产权的成熟的国产数据库，可能为更多的客户提供高性能、高牢靠、成熟的数据库产品服务，帮忙用户应答智能数据时代海量数据的剖析与摸索。

近日，星环科技正式公布了 ArgoDB5.0 和 KunDB3.0，并将其联合打造了一体化实时 AETP 技术（剖析增强型交易库），在一个数据库系统里同时撑持交易与剖析混合型业务场景，助力数据库国产化降级

ArgoDB5.0：存算引擎双降级，打造高性能湖仓集一体化多模型数据库

Transwarp ArgoDB 是星环科技自主研发的面向数据分析型业务场景的国产化分布式多模数据库，可能一站式代替 Hadoop+MPP 混合架构，提供多模剖析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力，一站式满足数据仓库、实时数据仓库、数据集市、OLAP、联邦计算等各种需要。2019 年 8 月，ArgoDB 成为寰球第四个通过 TPC-DS 基准测试并通过 TPC 官网审计的数据库产品。

ArgoDB5.0 打造了新一代向量化计算引擎和多模型存储引擎，整体剖析性能大幅度晋升。ArgoDB5.0 进一步增强了多模型数据的反对能力和解决能力，通过一个数据库就能够满足更多数据模型解决和不同模态数据关联。同时，ArgoDB5.0 引入 DP-SQL 能力，实现对数据的隐衷爱护，满足数据公布、流通、脱敏、查问、交易等场景下的数据安全要求。在数据资产平安保障上，5.0 版本继续加强了数据容灾备份能力，通过细粒度、高并发、高效率的容灾备份能力，进一步晋升数据安全保障能力。此外，ArgoDB 5.0 进一步增强数据湖和数据仓库 / 数据集市等业务面的技术革新，加强湖仓集交融能力，通过对立拜访接口、对立存储、对立元数据管理等能力，真正意义上为用户提供湖仓集一体化的场景解决方案。

新一代向量化计算引擎和多模存储引擎，剖析性能是同类数据库产品的 2~10 倍

ArgoDB 5.0 在原高效的计算引擎之上，将计算算子全向量化 native 改写，使得高并发简单剖析在百毫秒内反馈后果，将优化器中引入数据的动静采样，全面反对多种 join 的重写。同时联合业务场景，优化场景化能力，重点在湖仓一体的 SQL 治理上进行了优化，并且新增隐衷计算能力和数据动静脱敏能力，加强数据联邦场景中 SQL 语句算子下推能力等。

在存储引擎方面，ArgoDB 5.0 持续深耕分布式存储框架与列式存储引擎的优化，在升高业务资源耗费的同时晋升多模型能力和业务性能。绝对于上一代批量扫描性能晋升了 10 倍以上，同时升高业务 SQL 资源（IO 等）的应用，晋升零碎稳定性和业务效率。对于实时数仓场景，数据提早管制在毫秒级，并且反对高并发剖析。在大集群场景下，反对百万级别的表和百万级别的元信息管理，稳定性进一步晋升。

基于存算双引擎的降级，ArgoDB 5.0 在性能上有大幅度的晋升，尤其是 OLAP 剖析场景下的性能晋升，无论是单表查问还是多表关联场景，ArgoDB 都具备有显著的性能劣势，整体上是同类数据库产品的 2 -10 倍，帮忙用户更快、更稳固地应答复杂多变的业务需要。

多模数据交融剖析，更高效地满足”一库多用“场景

随着业务数据量一直增长的同时，数据结构也变得越来越灵活多样，数据不再局限于规整的结构化数据，半结构化、非结构化数据在数据域解决中的占比逐年回升，因而对不同模态的数据进行智能化数据处理的需要越来越迫切。

多模型数据库 ArgoDB 继 3.2 版本新增反对大对象数据类型 Blob 和 Clob，用来存储、查问和解决图片、电子文档、音频、视频等非结构化数据后，ArgoDB 5.0 新增对半结构化的 JSON/JSONB/XML 数据类型的反对，满足了更多数据模型解决场景和更多简单业务需要。

同时，ArgoDB 5.0 进一步增强了对多模态数据的解决能力，在优化器上进一步深耕，对不同模态数据基于代价 / 规定等主动判断抉择正当高效模型，拆分、散发计算工作，让数据处理更加快捷和高效。

在架构上，ArgoDB 基于存算解耦，实现了多模数据库的“四个对立”：

对立的 SQL 编译引擎 ，反对 SQL 99/2003 规范语法，兼容 TD，Oracle，DB2 等多种方言，对不同模式的数据提供对立接口，将多个操作拜访入口变为一个入口，将多种数据库语言变为一种语言，升高开发和迁徙老本，简化用户操作。
对立的计算引擎 ，将多套计算引擎变为一套引擎，将多份计算资源变为一份资源，提供高性能的剖析计算和执行效率，满足跨模型数据简单关联剖析场景。
对立的存储管理零碎 ，同时反对剖析型行列混合存储、反对具备搜寻性能的文本存储等多模异构存储，并保证数据的强一致性，数据只需一次入库，即可通过异构存储的拜访能力撑持多样化简单剖析场景，升高运维老本，将扩散存储管理变为对立存储管理，极大简化零碎架构，缩小开发运维老本。
对立的星环云原生操作系统 ，反对 ARM+X86 的混合架构，用户能够利旧硬件，大幅降低成本。

ArgoDB5.0 通过对立的元数据管理、对立的事务管理和齐备的多模优化器撑持了对不同模态数据的对立读取调度，实现多模态交融，满足更多“一库多用“场景。

创新型数据差分隐衷，强化数据安全

数据处理与数据安全是不可分割的，如何对集体数据的无效爱护是在数据处理、数据公开、数据公布中不可绕开的一个话题。隐衷爱护是基于差分隐衷的密码学办法，在统计数据库查问时，旨在保证数据查问的同时，最大水平缩小辨认个体数据的机会。

ArgoDB 5.0 版本联合数据隐衷平安的业务诉求，引入 DP-SQL 能力，实现对数据的隐衷爱护，满足数据公布、流通、脱敏、查问、交易等场景下的数据安全要求。在交互式场景下，数据管理者能够按需对查问申请数据汇合增加必要的烦扰（即：噪声）后反馈给用户；在非交互式场景下，数据管理者能够按需针对所有可能的查问，在满足肯定条件下一次性公布相干查问数据（即增加噪声后的“污染版”数据）。

ArgoDB5.0 将隐衷计算与数据库技术相结合，反对简单剖析 SQL 主动优化，易于开发人员应用。同时将加密协议联合 SQL 优化技术，相较于 python 级别实现执行效率更优，反对更大数据量的隐衷计算。

突破数据壁垒，加强湖仓集交融

随着数据与业务的并行倒退，对数据的交融剖析解决逐步成为数据库技术发展趋势。当数据仓库与数据湖数据集市协同解决时，带来的是数据孤岛的突破，以及数据计算边界的拓宽。

ArgoDB 5.0 版本进一步增强数据湖和数据仓库 / 数据集市等业务面的技术革新。在同一平台中，防止数据挪动，将原始的、加工荡涤的、模型化的数据，独特存储于一体化的“湖仓集”中，既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查问服务，又能承载剖析报表、批处理、数据挖掘等剖析型数据集市业务，真正意义上为用户提供湖仓集一体化的场景解决方案。

通过 ArgoDB 打造的湖仓集一体化计划，用户能够基于对立拜访接口最大水平上升高数据湖、数据仓库、数据集市业务过程中业务接口的调整，升高用户开发成本，进步数据处理效率。对立的元数据管理能够在精准的 ACL 管制下，实现按需展现湖仓集内的相干元数据的对立查问，进步数据管理效率。对立存储管理，对使用者屏蔽不同数据源的数据存储，升高业务数据管理难度。此外，基于 ArgoDB 打造的湖仓集一体化计划能够无缝连接 AI 技术，帮忙业务开掘更多数据价值。

KunDB3.0：高度兼容 Oracle 语法和 PL/SQL, 实现 OLTP 数据库国产化降级

Transwarp KunDB 是星环科技基于分布式技术自主研发的国产化的交易型数据库，提供残缺的关系型数据库的能力，高度兼容 SQL，保障事务 ACID。KunDB 具备业内当先的事务处理性能，SQL 兼容性以及最新的分布式查问优化技术，反对简单查问且性能是 MySQL 的 10 倍以上，充沛满足高并发、大数据量的交易型业务场景，可能实现 MySQL，Oracle 等传统支流数据库的国产化代替。独特的混合部署技术支持支流国产化 CPU 等自主可控的硬件平台和 OS 部署，满足国产化部署需要。此外，KunDB 提供全链路高可用、一致性备份复原等容灾能力，以及齐备的平安治理、资源管理能力，能够为不同业务场景保驾护航。

KunDB3.0 高度兼容 Oracle 对象与语法，基于翻新的过程语言编译技术，残缺反对 Oracle PL/SQL 语法，大大降低企业国产化迁徙老本。通过丰盛查问优化规定和算子进一步加强查问优化器，并联合全新的向量化执行引擎使得剖析性能在 TPCH 基准测试中较 MySQL 最高优化 80 倍。在事务处理能力方面，相较于 KunDB2.0 采纳的全局事务管理器 GTM 计划，KunDB3.0 采纳基于 TSO 的全新分布式强统一事务处理框架，进一步晋升分布式事务处理能力，事务处理下限达 300 万 TPS，较 GTM 计划晋升 5 倍以上。同时 KunDB3.0 也对存储层性能和分布式架构做了继续优化，单机 TPCC 晋升了 1 倍，分布式 TPCC 晋升了 60%。在容灾能力方面，KunDB3.0 优化了跨机房容灾架构，反对全链路高可用、一致性备份复原等能力，故障时可复原过来任意工夫点，充沛保障数据安全。此外，KunDB3.0 采纳了基于剖析引擎加强分布式事务处理引擎技术（ATEP），大幅提高了 KunDB 的数据分析能力，通过一个零碎就能够同时提供高性能 AP 和 TP 服务能力，满足交易与剖析混合型业务场景。

高度兼容 Oracle 对象与语法，残缺反对 Oracle PL/SQL

KunDB3.0 对 Oracle 语法各个方面高度兼容，成为业内当先的具备撑持 Oracle 业务迁徙能力的国产数据库。KunDB3.0 高度兼容 Oracle 语法与 PL/SQL，反对 VARCHAR2、NVARCHAR2 等全副类型，在 PL/SQL 语法上，反对管制语句、汇合、动静 SQL、子程序、预约义包、错误处理等全副 PL/SQL 语法，解决了 Oracle 业务迁徙到国产化数据库的外围痛点，为其它兼容性欠缺提供了根底。在 Oracle 数据库对象、DML、函数、零碎视图、内置包、驱动等方面，做到了罕用性能的兼容，满足大部分业务的迁徙需要，极大升高了企业业务迁徙老本。

KunDB3.0 采纳翻新的过程语言编译技术及两头优化语言 TIR，残缺反对 Oracle PL/SQL 语法，并在 4 类技术场景实现翻新和性能晋升。

为了反对多个数据库方言，传统解释器形式导致反复工作量会很大。KunDB3.0 通过对立的两头优化语言 TIR，表白任意的过程式语义及 SQL 语义，反对 multi pass 编译与 LLVM IR 组合，低偶合、低成本的扩大不同数据库 PL/SQL 语法体系
传统技术将 PL/SQL 翻译成函数执行形式，没有控制流代码优化空间。KunDB3.0 通过转译 LLVM，将 PL/SQL 转为底层语法，能够与 llvm 的 multi pass 优化联合，减少代码优化规定，从而优化存储过程的执行
传统翻译成函数执行的形式，无奈进一步实现编译执行。KunDB3.0 引入对立表达式解决引擎技术，SQL 与 PL/SQL 可复用编译优化，实现形式上比 Oracle 更加简洁，同时节俭了开发成本
传统的异样解决无奈实现零开销。KunDB3.0 参考 LLVM 的 landing pad 技术，实现零开销的异样解决零碎。

全新的查问优化器和向量化执行引擎，简单剖析性能晋升 10 倍

KunDB 从 2.0 到 3.0 的迭代中，为了更加敌对的反对跨分片的简单查问剖析，晋升 AP 能力，KunDB 基于火山模型从新设计了查问优化器，面向分布式存储丰盛了查问优化的规定，包含了分片下推、子查问去关联化等十多种查问优化规定，相应的扩大和优化了 block hash join、Index Lookup Join 等二十多个算子，TPCH 子查问性能相比于 KunDB2.0 均有大幅度晋升，最高晋升了近 20 倍。

KunDB3.0 应用了全新的向量化执行引擎，在内存中应用列存储的形式对数据进行转换存储后再进行计算，相比于内存行式数据管理，在内存资源占用、剖析函数实现、表达式求值性能、压缩反对上都更加具备劣势。另一方面，执行引擎基于多协程技术，采纳了基于流水线的并行处理框架，反对并行的数据扫描、算子间数据交换、算子计算、后果集返回等全链路过程，对于数据可分拆执行的场景，性能有大幅晋升。同样的数据规模下以 TPCH 测试为参考，KunDB 剖析性能较 MysQL 有大幅度晋升，22 个 Query 最高性能晋升可达到 MySQL 的近 80 倍。

基于 TSO 的全新分布式强统一事务处理，集群事务处理能力晋升 1 倍

在分布式事务处理上，KunDB3.0 应用基于全局工夫戳的事务处理框架来代替 2.0 的全局事务管理器 GTM 计划。分布式层引入了 TSO 服务器调配工夫戳，采纳 XA 协定和工夫戳优化 2PC 保障分布式原子性写，分布式事务开销升高 50%。基于事务提交工夫戳可做到正本全局一致性读，实现保障事务的读写拆散。存储层可基于以后工夫戳和数据工夫戳做全局一致性读判断，不依赖全局快照，性能更高，加重中心化危险。KunDB3.0 集群的事务处理下限晋升了 6 倍，达到 300 万 TPS，齐全满足头部互联网业务场景的性能需求。

此外，KunDB3.0 也对存储层性能和分布式架构做了继续优化。存储层采纳了面向内存的数据存储与治理、无锁内存索引技术、乐观与乐观联合的并发控制技术、并行查问技术，实现了存储层性能靠近 1 倍的晋升。联合分布式层在通信链路优化为基于 MySQL 协定的通信，放弃了高开销的 grpc 通信；元数据存储的革新为高吞吐的关系型存储，以及缩小组件、治理组件精简为一个全局服务，优化了分布式层的开销。在 4 分片的拓扑下，TPCC 性能较 2.0 晋升了 60%。

跨机房容灾架构，任意工夫点全局一致性复原

在容灾方面，KunDB 优化了跨机房容灾架构，反对全链路高可用和全局一致性复原。计算引擎齐全无状态，扩大便捷，可实现多节点部署；存储引擎反对主备 /Paxos 复制，反对故障时主备切换；元数据服务也都是基于多数派协定反对故障时主动选主，理论部署时防止了单节点部署的危险。通过跨机房的正本数据强同步，保障了机房级故障时，复原点指标 RPO=0。

通过正本可读技术，最大化利用每个角色晋升零碎吞吐，并且反对基于业务负载和组件衰弱状态的路由变动，晋升零碎稳定性。

KunDB3.0 反对物理备份与实时 binlog 备份，故障时可复原过来任意工夫点。新增的一致性备份恢复能力，基于工夫戳信息保障数据库复原到最新的一致性点，防止了分布式数据库复原后须要人为参加事务点对齐的难题。各分片独立并发备份，每分钟实现数 GB 数据备份，在高并发外围零碎中，可能无效升高备份对业务的影响。

保障全局事务的一体化实时 AETP，同时提供高性能交易与剖析服务能力

中国信通院 2021 年数据倒退钻研报告中指出，企业通常保护不同数据库来反对联机事务处理（OLTP）与联机剖析解决（OLAP）工作，治理和保护老本高。基于翻新的计算存储框架的 HTAP 数据库，可能基于同一套引擎同时撑持业务零碎运行和剖析决策场景，防止在传统架构中，在线与离线数据库之间大量的数据交互，成为将来数据库倒退的趋势之一。

KunDB3.0 采纳了基于剖析引擎加强分布式事务处理引擎技术（ATEP），大幅提高了 KunDB 的数据分析能力，通过一个零碎就能够同时提供高性能 AP 和 TP 服务能力。

对外提供对立的 SQL 引擎作为对立入口，简化用户操作，数据在库内即可主动同步、转换，不须要繁琐的 ETL 组件和 ETL 过程，数据无需出库即可实现计算。同时提供对立数据类型和方言反对，将多种数据库语言变为一种语言，大大降低开发和迁徙老本。

针对不同水平的剖析负载，通过全局优化器自动识别 SQL，利用不同的引擎进行解决，TP 引擎和 AP 引擎依据工作负载做主动路由和主动查问优化，如针对简单加工逻辑，则应用 AP 引擎分布式计算能力间接读取 KunDB 上的数据进行简单计算；针对高并创造细检索，则应用 TP 引擎提供服务。

应用行列混合存储计划，列存提供给 AP 引擎反对高性能剖析，同时列存作为 TP 库的只读正本，实时从行存同步事务最新数据库，提早低于 10s，保障了数据分析的时效性和全局一致性读。

对于曾经部署了 ArgoDB 或 KunDB 的用户，能够间接降级到 AETP 数据库，无需革新业务和数据库的交互方式，实现疾速平滑降级。

通过一直的打磨和对业务场景一直的落地实际，星环科技关系型数据库 ArgoDB 和 KunDB 曾经在金融、政务、能源、医疗、交通等多个行业利用，胜利代替 Oracle、MySQL 等传统业务数据库。将来，星环科技将持续深耕数据库畛域，通过一直的技术创新和利用翻新，为用户提供更齐备性能，更高性能、更稳固牢靠的国产化数据库产品。