关于大数据:星环科技打造自主可控的高性能数据库开启国产化升级新篇章

星环科技自成立以来，始终致力于国产化数据库的自主研发，打造了自主可控的高性能分布式剖析型数据库ArgoDB和分布式交易型数据库KunDB。交易型数据库KunDB具备较强的SQL兼容性，同时具备高可用、高并发、在线扩缩容、数据强一致性等能力，实用于操作型业务、高并发业务等场景。多模型数据库ArgoDB具备残缺的SQL兼容性，同时具备高扩大、高牢靠、多模型、存算解耦等能力，一站式满足数据仓库、实时数据仓库、数据集市、OLAP、联邦计算等场景。

通过一直的打磨和对业务场景一直的落地实际，ArgoDB和KunDB已成为具备齐全自主知识产权的成熟的国产数据库，可能为更多的客户提供高性能、高牢靠、成熟的数据库产品服务，帮忙用户应答智能数据时代海量数据的剖析与摸索。

近日，星环科技正式公布了ArgoDB5.0和KunDB3.0，并将其联合打造了一体化实时AETP技术（剖析增强型交易库），在一个数据库系统里同时撑持交易与剖析混合型业务场景，助力数据库国产化降级

ArgoDB5.0：存算引擎双降级，打造高性能湖仓集一体化多模型数据库

Transwarp ArgoDB 是星环科技自主研发的面向数据分析型业务场景的国产化分布式多模数据库，可能一站式代替Hadoop+MPP混合架构，提供多模剖析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力，一站式满足数据仓库、实时数据仓库、数据集市、OLAP、联邦计算等各种需要。2019年8月，ArgoDB成为寰球第四个通过TPC-DS基准测试并通过TPC官网审计的数据库产品。

ArgoDB5.0打造了新一代向量化计算引擎和多模型存储引擎，整体剖析性能大幅度晋升。ArgoDB5.0进一步增强了多模型数据的反对能力和解决能力，通过一个数据库就能够满足更多数据模型解决和不同模态数据关联。同时，ArgoDB5.0引入DP-SQL能力，实现对数据的隐衷爱护，满足数据公布、流通、脱敏、查问、交易等场景下的数据安全要求。在数据资产平安保障上，5.0版本继续加强了数据容灾备份能力，通过细粒度、高并发、高效率的容灾备份能力，进一步晋升数据安全保障能力。此外，ArgoDB 5.0进一步增强数据湖和数据仓库/数据集市等业务面的技术革新，加强湖仓集交融能力，通过对立拜访接口、对立存储、对立元数据管理等能力，真正意义上为用户提供湖仓集一体化的场景解决方案。

新一代向量化计算引擎和多模存储引擎，剖析性能是同类数据库产品的2~10倍

ArgoDB 5.0在原高效的计算引擎之上，将计算算子全向量化native改写，使得高并发简单剖析在百毫秒内反馈后果，将优化器中引入数据的动静采样，全面反对多种join的重写。同时联合业务场景，优化场景化能力，重点在湖仓一体的SQL治理上进行了优化，并且新增隐衷计算能力和数据动静脱敏能力，加强数据联邦场景中SQL语句算子下推能力等。

在存储引擎方面，ArgoDB 5.0持续深耕分布式存储框架与列式存储引擎的优化，在升高业务资源耗费的同时晋升多模型能力和业务性能。绝对于上一代批量扫描性能晋升了10倍以上，同时升高业务SQL资源（IO等）的应用，晋升零碎稳定性和业务效率。对于实时数仓场景，数据提早管制在毫秒级，并且反对高并发剖析。在大集群场景下，反对百万级别的表和百万级别的元信息管理，稳定性进一步晋升。

基于存算双引擎的降级，ArgoDB 5.0在性能上有大幅度的晋升，尤其是OLAP剖析场景下的性能晋升，无论是单表查问还是多表关联场景，ArgoDB都具备有显著的性能劣势，整体上是同类数据库产品的2-10倍，帮忙用户更快、更稳固地应答复杂多变的业务需要。

多模数据交融剖析，更高效地满足”一库多用“场景

随着业务数据量一直增长的同时，数据结构也变得越来越灵活多样，数据不再局限于规整的结构化数据，半结构化、非结构化数据在数据域解决中的占比逐年回升，因而对不同模态的数据进行智能化数据处理的需要越来越迫切。

多模型数据库ArgoDB继3.2版本新增反对大对象数据类型Blob和Clob，用来存储、查问和解决图片、电子文档、音频、视频等非结构化数据后，ArgoDB 5.0新增对半结构化的JSON/JSONB/XML数据类型的反对，满足了更多数据模型解决场景和更多简单业务需要。

同时，ArgoDB 5.0进一步增强了对多模态数据的解决能力，在优化器上进一步深耕，对不同模态数据基于代价/规定等主动判断抉择正当高效模型，拆分、散发计算工作，让数据处理更加快捷和高效。

在架构上，ArgoDB基于存算解耦，实现了多模数据库的“四个对立”：

对立的SQL编译引擎，反对SQL 99/2003 规范语法，兼容TD，Oracle，DB2等多种方言，对不同模式的数据提供对立接口，将多个操作拜访入口变为一个入口，将多种数据库语言变为一种语言，升高开发和迁徙老本，简化用户操作。
对立的计算引擎，将多套计算引擎变为一套引擎，将多份计算资源变为一份资源，提供高性能的剖析计算和执行效率，满足跨模型数据简单关联剖析场景。
对立的存储管理零碎，同时反对剖析型行列混合存储、反对具备搜寻性能的文本存储等多模异构存储，并保证数据的强一致性，数据只需一次入库，即可通过异构存储的拜访能力撑持多样化简单剖析场景，升高运维老本，将扩散存储管理变为对立存储管理，极大简化零碎架构，缩小开发运维老本。
对立的星环云原生操作系统，反对 ARM+X86的混合架构，用户能够利旧硬件，大幅降低成本。

ArgoDB5.0通过对立的元数据管理、对立的事务管理和齐备的多模优化器撑持了对不同模态数据的对立读取调度，实现多模态交融，满足更多“一库多用“场景。

创新型数据差分隐衷，强化数据安全

数据处理与数据安全是不可分割的，如何对集体数据的无效爱护是在数据处理、数据公开、数据公布中不可绕开的一个话题。隐衷爱护是基于差分隐衷的密码学办法，在统计数据库查问时，旨在保证数据查问的同时，最大水平缩小辨认个体数据的机会。

ArgoDB 5.0版本联合数据隐衷平安的业务诉求，引入DP-SQL能力，实现对数据的隐衷爱护，满足数据公布、流通、脱敏、查问、交易等场景下的数据安全要求。在交互式场景下，数据管理者能够按需对查问申请数据汇合增加必要的烦扰（即：噪声）后反馈给用户；在非交互式场景下，数据管理者能够按需针对所有可能的查问，在满足肯定条件下一次性公布相干查问数据（即增加噪声后的“污染版”数据）。

ArgoDB5.0将隐衷计算与数据库技术相结合，反对简单剖析SQL主动优化，易于开发人员应用。同时将加密协议联合SQL优化技术，相较于python级别实现执行效率更优，反对更大数据量的隐衷计算。

突破数据壁垒，加强湖仓集交融

随着数据与业务的并行倒退，对数据的交融剖析解决逐步成为数据库技术发展趋势。当数据仓库与数据湖数据集市协同解决时，带来的是数据孤岛的突破，以及数据计算边界的拓宽。

ArgoDB 5.0版本进一步增强数据湖和数据仓库/数据集市等业务面的技术革新。在同一平台中，防止数据挪动，将原始的、加工荡涤的、模型化的数据，独特存储于一体化的“湖仓集”中，既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查问服务，又能承载剖析报表、批处理、数据挖掘等剖析型数据集市业务，真正意义上为用户提供湖仓集一体化的场景解决方案。

通过ArgoDB打造的湖仓集一体化计划，用户能够基于对立拜访接口最大水平上升高数据湖、数据仓库、数据集市业务过程中业务接口的调整，升高用户开发成本，进步数据处理效率。对立的元数据管理能够在精准的ACL管制下，实现按需展现湖仓集内的相干元数据的对立查问，进步数据管理效率。对立存储管理，对使用者屏蔽不同数据源的数据存储，升高业务数据管理难度。此外，基于ArgoDB打造的湖仓集一体化计划能够无缝连接AI技术，帮忙业务开掘更多数据价值。

KunDB3.0：高度兼容Oracle语法和PL/SQL, 实现OLTP数据库国产化降级

Transwarp KunDB是星环科技基于分布式技术自主研发的国产化的交易型数据库，提供残缺的关系型数据库的能力，高度兼容SQL，保障事务ACID。KunDB具备业内当先的事务处理性能，SQL兼容性以及最新的分布式查问优化技术，反对简单查问且性能是MySQL的10倍以上，充沛满足高并发、大数据量的交易型业务场景，可能实现MySQL，Oracle等传统支流数据库的国产化代替。独特的混合部署技术支持支流国产化CPU等自主可控的硬件平台和OS部署，满足国产化部署需要。此外，KunDB提供全链路高可用、一致性备份复原等容灾能力，以及齐备的平安治理、资源管理能力，能够为不同业务场景保驾护航。

KunDB3.0高度兼容Oracle对象与语法，基于翻新的过程语言编译技术，残缺反对Oracle PL/SQL语法，大大降低企业国产化迁徙老本。通过丰盛查问优化规定和算子进一步加强查问优化器，并联合全新的向量化执行引擎使得剖析性能在TPCH基准测试中较MySQL最高优化80倍。在事务处理能力方面，相较于KunDB2.0采纳的全局事务管理器GTM计划，KunDB3.0采纳基于TSO的全新分布式强统一事务处理框架，进一步晋升分布式事务处理能力，事务处理下限达300万TPS，较GTM计划晋升5倍以上。同时KunDB3.0也对存储层性能和分布式架构做了继续优化，单机TPCC晋升了1倍，分布式TPCC晋升了60%。在容灾能力方面，KunDB3.0优化了跨机房容灾架构，反对全链路高可用、一致性备份复原等能力，故障时可复原过来任意工夫点，充沛保障数据安全。此外，KunDB3.0采纳了基于剖析引擎加强分布式事务处理引擎技术（ATEP），大幅提高了KunDB的数据分析能力，通过一个零碎就能够同时提供高性能AP和TP服务能力，满足交易与剖析混合型业务场景。

高度兼容Oracle对象与语法，残缺反对Oracle PL/SQL

KunDB3.0 对Oracle语法各个方面高度兼容，成为业内当先的具备撑持Oracle业务迁徙能力的国产数据库。KunDB3.0高度兼容Oracle语法与PL/SQL，反对VARCHAR2、NVARCHAR2等全副类型，在PL/SQL语法上，反对管制语句、汇合、动静SQL、子程序、预约义包、错误处理等全副PL/SQL语法，解决了Oracle业务迁徙到国产化数据库的外围痛点，为其它兼容性欠缺提供了根底。在Oracle数据库对象、DML、函数、零碎视图、内置包、驱动等方面，做到了罕用性能的兼容，满足大部分业务的迁徙需要，极大升高了企业业务迁徙老本。

KunDB3.0采纳翻新的过程语言编译技术及两头优化语言TIR，残缺反对Oracle PL/SQL语法，并在4类技术场景实现翻新和性能晋升。

为了反对多个数据库方言，传统解释器形式导致反复工作量会很大。KunDB3.0通过对立的两头优化语言TIR，表白任意的过程式语义及SQL语义，反对multi pass编译与LLVM IR组合，低偶合、低成本的扩大不同数据库PL/SQL语法体系
传统技术将PL/SQL翻译成函数执行形式，没有控制流代码优化空间。KunDB3.0通过转译LLVM，将PL/SQL转为底层语法，能够与llvm的 multi pass优化联合，减少代码优化规定，从而优化存储过程的执行
传统翻译成函数执行的形式，无奈进一步实现编译执行。KunDB3.0引入对立表达式解决引擎技术，SQL与PL/SQL可复用编译优化，实现形式上比Oracle更加简洁，同时节俭了开发成本
传统的异样解决无奈实现零开销。KunDB3.0参考LLVM的landing pad技术，实现零开销的异样解决零碎。

全新的查问优化器和向量化执行引擎，简单剖析性能晋升10倍

KunDB从2.0到3.0的迭代中，为了更加敌对的反对跨分片的简单查问剖析，晋升AP能力，KunDB基于火山模型从新设计了查问优化器，面向分布式存储丰盛了查问优化的规定，包含了分片下推、子查问去关联化等十多种查问优化规定，相应的扩大和优化了block hash join、Index Lookup Join等二十多个算子，TPCH 子查问性能相比于KunDB2.0均有大幅度晋升，最高晋升了近20倍。

KunDB3.0应用了全新的向量化执行引擎，在内存中应用列存储的形式对数据进行转换存储后再进行计算，相比于内存行式数据管理，在内存资源占用、剖析函数实现、表达式求值性能、压缩反对上都更加具备劣势。另一方面，执行引擎基于多协程技术，采纳了基于流水线的并行处理框架，反对并行的数据扫描、算子间数据交换、算子计算、后果集返回等全链路过程，对于数据可分拆执行的场景，性能有大幅晋升。同样的数据规模下以TPCH测试为参考，KunDB剖析性能较MysQL有大幅度晋升，22个Query最高性能晋升可达到MySQL的近80倍。

基于TSO的全新分布式强统一事务处理，集群事务处理能力晋升1倍

在分布式事务处理上，KunDB3.0应用基于全局工夫戳的事务处理框架来代替2.0的全局事务管理器GTM计划。分布式层引入了TSO服务器调配工夫戳，采纳XA协定和工夫戳优化2PC保障分布式原子性写，分布式事务开销升高50%。基于事务提交工夫戳可做到正本全局一致性读，实现保障事务的读写拆散。存储层可基于以后工夫戳和数据工夫戳做全局一致性读判断，不依赖全局快照，性能更高，加重中心化危险。KunDB3.0集群的事务处理下限晋升了6倍，达到300万TPS，齐全满足头部互联网业务场景的性能需求。

此外，KunDB3.0也对存储层性能和分布式架构做了继续优化。存储层采纳了面向内存的数据存储与治理、无锁内存索引技术、乐观与乐观联合的并发控制技术、并行查问技术，实现了存储层性能靠近1倍的晋升。联合分布式层在通信链路优化为基于MySQL协定的通信，放弃了高开销的grpc通信；元数据存储的革新为高吞吐的关系型存储，以及缩小组件、治理组件精简为一个全局服务，优化了分布式层的开销。在4分片的拓扑下，TPCC性能较2.0晋升了60%。

跨机房容灾架构，任意工夫点全局一致性复原

在容灾方面，KunDB优化了跨机房容灾架构，反对全链路高可用和全局一致性复原。计算引擎齐全无状态，扩大便捷，可实现多节点部署；存储引擎反对主备/Paxos复制，反对故障时主备切换；元数据服务也都是基于多数派协定反对故障时主动选主，理论部署时防止了单节点部署的危险。通过跨机房的正本数据强同步，保障了机房级故障时，复原点指标RPO=0。

通过正本可读技术，最大化利用每个角色晋升零碎吞吐，并且反对基于业务负载和组件衰弱状态的路由变动，晋升零碎稳定性。

KunDB3.0反对物理备份与实时binlog备份，故障时可复原过来任意工夫点。新增的一致性备份恢复能力，基于工夫戳信息保障数据库复原到最新的一致性点，防止了分布式数据库复原后须要人为参加事务点对齐的难题。各分片独立并发备份，每分钟实现数GB数据备份，在高并发外围零碎中，可能无效升高备份对业务的影响。

保障全局事务的一体化实时AETP，同时提供高性能交易与剖析服务能力

中国信通院2021年数据倒退钻研报告中指出，企业通常保护不同数据库来反对联机事务处理（OLTP）与联机剖析解决（OLAP）工作，治理和保护老本高。基于翻新的计算存储框架的HTAP 数据库，可能基于同一套引擎同时撑持业务零碎运行和剖析决策场景，防止在传统架构中，在线与离线数据库之间大量的数据交互，成为将来数据库倒退的趋势之一。

KunDB3.0采纳了基于剖析引擎加强分布式事务处理引擎技术（ATEP），大幅提高了KunDB的数据分析能力，通过一个零碎就能够同时提供高性能AP和TP服务能力。

对外提供对立的SQL引擎作为对立入口，简化用户操作，数据在库内即可主动同步、转换，不须要繁琐的ETL组件和ETL过程，数据无需出库即可实现计算。同时提供对立数据类型和方言反对，将多种数据库语言变为一种语言，大大降低开发和迁徙老本。

针对不同水平的剖析负载，通过全局优化器自动识别SQL，利用不同的引擎进行解决，TP引擎和AP引擎依据工作负载做主动路由和主动查问优化，如针对简单加工逻辑，则应用AP引擎分布式计算能力间接读取KunDB上的数据进行简单计算；针对高并创造细检索，则应用TP引擎提供服务。

应用行列混合存储计划，列存提供给AP引擎反对高性能剖析，同时列存作为TP库的只读正本，实时从行存同步事务最新数据库，提早低于10s，保障了数据分析的时效性和全局一致性读。

对于曾经部署了ArgoDB或KunDB的用户，能够间接降级到AETP数据库，无需革新业务和数据库的交互方式，实现疾速平滑降级。

通过一直的打磨和对业务场景一直的落地实际，星环科技关系型数据库ArgoDB和KunDB曾经在金融、政务、能源、医疗、交通等多个行业利用，胜利代替Oracle、MySQL等传统业务数据库。将来，星环科技将持续深耕数据库畛域，通过一直的技术创新和利用翻新，为用户提供更齐备性能，更高性能、更稳固牢靠的国产化数据库产品。