共计 3092 个字符,预计需要花费 8 分钟才能阅读完成。
Transwarp ArgoDB 是星环科技自主研发的高性能分布式剖析型数据库,在 PB 级数据量上提供极致的数据分析能力。多模型数据库 ArgoDB 反对规范 SQL 语法、分布式事务和存算解耦,提供高并发高速数据写入、简单查问、多模剖析和数据联邦等能力。通过一个 ArgoDB 数据库,就能够打造离线数据仓库、实时数据仓库、数据集市和联邦计算平台等数据分析系统,提供全面、便捷、智能和平安的数据服务能力。
2021 年 6 月信通院公布《数据库倒退钻研报告(2021 年)》,报告指出数据库技术一直倒退,向三个方向演进—易用性、性能和平安。ArgoDB 3.2 重点围绕这三个方面进行迭代加强与优化降级并正式公布。
晋升易用性、升高应用老本
原生反对大对象数据存储,加强多模型数据处理能力,满足更多“一库多用“场景
在后关系型数据库阶段,数据结构越来越灵活多样、业务类型越来越复杂多变,为应答此类现状,越来越多的用户抉择通过多模型数据库实现“一库多用“,将各种类型的数据进行集中存储、查问和解决,满足对结构化、半结构化和非结构化数据的对立治理需要。[1]
在已有的数据类型根底上,多模型数据库 ArgoDB 3.2 原生反对大对象数据类型 Blob 和 Clob,能够用来存储、查问和解决图片、电子文档、音频、视频等非结构化数据,满足了更多数据模型解决场景,简化零碎架构、缩小开发运维老本和晋升用户体验,满足更多简单业务需要。
以国内某三甲医院为例,通过十多年的信息化建设,该医院曾经初步建设了 HIS(医院信息系统)、LIS(实验室信息管理系统)、PACS(影像归档和通信零碎)、电子病历等多套信息系统,并积攒了大量的临床数据。除了结构化、半结构化数据,还有海量、高价值的医疗影像等非结构化数据。为了存储、查问和解决这些不同类型的数据,这些零碎独立建设、不足集成、元数据不对立和规范不对立,给数据的查问和解决带来重重困难。为了解决这些问题,减速医院业务数字化倒退,医院基于多模型数据库 ArgoDB 建设了临床数据中心底层大数据平台,将医院中各种类型的数据(例如电子病历、医疗影像、测验报告、生物样本和文献等)集中在 ArgoDB 中存储、查问和解决,并可能满足跨不同数据模型的简单剖析需要,从而充沛挖掘医疗数据的贵重价值,最终进步医疗品质、升高医疗老本。
新增智能建表性能,简化建表流程,升高业务迁徙老本
随着业务状态越来越简单多样,在建表时如何设置参数使得数据查问和剖析效率最大化成为一个问题。在业务迁徙时,宏大的库表数量也须要消耗精力来配置参数。ArgoDB 自主研发多模型数据库优化器 Gluon,自研多种计算优化技术,在建表时能够通过设置一些参数来晋升数据查问和剖析效率。
为了在最大化数据查问和剖析效率的同时简化建表流程,ArgoDB 3.2 新增智能建表算法,在建表时可能主动设置参数,用户无需手动配置参数就可能体验 ArgoDB 的极致性能体现。在某团体业务迁徙过程中,智能建表性能为数万张表主动配置适合的参数,帮忙用户大大降低了业务迁徙老本。
开箱即用的运维工具,新增两种典型场景监控,加强运维监控能力
随着数据量越来越多和业务越来越简单,数据库运维管理人员面临的挑战也越来越大。为了帮忙运维管理人员晋升运维效率和升高运维老本,ArgoDB 提供开箱即用的数据库运维工具,运维管理人员能够通过界面化的形式进行日常操作。
为了不便发现、定位和排查危险,ArgoDB3.2 新增两种典型场景监控:小文件合并状态监控与数据分布状态监控,进一步丰盛了监控指标,用户能够联合业务需要灵便地调整数据管理策略,从而保障数据库系统稳固、高效的运行。
高达 7 倍的性能晋升
高达 5 倍的 OLAP 性能晋升
面对业务状态多样、商业模式多变、需要变动频繁,如何在海量数据中高效实现数据分析,成为疾速获取商业洞察的关键所在。ArgoDB 3.2 针对 OLAP 场景做了许多性能优化工作并晋升了性能体现,例如典型窗口函数计算场景性能可晋升 5 倍;新增智能多表简单 Join 算法,可能自动识别 Join 过程中的大小表,抉择最佳的 Join 优化算法,从而晋升 Join 效率。
存算解耦场景性能晋升 7 倍
存算解耦是将来数据库架构演进的重要趋势。存算解耦,顾名思义就是存储引擎和计算引擎能够独立按需进行扩容和缩容,要多少计算扩容多少计算,要多少存储扩容多少存储,避免浪费,进步剖析效率。例如星环数据云平台(TDC)能够利用 ArgoDB 存储和计算解耦合的个性,灵便正当地按需分配资源。
在存算解耦合场景中,计算工作与数据可能不在同一节点上,此时计算工作会近程读取非本地节点的数据并导致查问和剖析性能降落。为了晋升存算解耦合场景的查问和剖析效率,ArgoDB3.2 计算工作对非本地节点的数据读取性能晋升了 7 倍。该优化加强了存算解耦场景下的性能体现,可能帮忙用户更好地应答复杂多变的业务需要。
性能测试
TPC 是寰球最出名非盈利的数据管理系统评测基准标准化组织,TPC- H 和 TPC-DS 是业界罕用的性能测试基准之一,次要用于评测数据库的剖析型查问能力。
在 TPC-H 1T 测试中,ArgoDB 产品性能是 ClickHouse 的 5.7 倍。在 TPC-DS 1T 测试中,ArgoDB 产品性能是 Spark 的 1.6 倍。
TPC-H 1T 测试性能比照
TPC-DS 1T 测试性能比照
更多认证机制,保障数据安全
反对多种平安认证机制,灵便应答数据安全需要
2021,我国第一部对于数据安全的法律《中华人民共和国数据安全法》正式施行,如何做好数据安全建设成为各行业最为关注的问题之一。为了充沛保障用户业务平安,ArgoDB 提供残缺的数据安全防护体系,包含用户辨认,权限管制,平安审计,数据加密,数据脱敏、数据备份、容灾等。
为了满足更多场景的数据安全需要,ArgoDB3.2 在 Kerberos、LDAP、CAS 等认证机制根底上,新增 Oauth 2.0 认证机制,提供更丰盛的认证机制,帮忙用户灵便应答不同场景的数据安全需要。以上便是星环科技多模型数据库 ArgoDB3.2 个性介绍:便捷易用的产品体验,一直晋升的性能体现,灵便弱小的平安防护能力。将来,星环科技多模型数据库 ArgoDB 将持续保持自主研发与技术创新,围绕易用性、产品性能、数据安全等方面一直打磨。在升高平台复杂性和 IT 总领有老本的同时,让用户更全面、更便捷、更智能、更平安地使用数据。
典型案例
ArgoDB 广泛应用于金融、政府、能源、交通、运营商等各行业。国家邮政局是副部级国家局单位,负责拟订邮政行业政策和布局,以及承当邮政(含快递公司)监管责任。为了推动邮政寄递渠道安全监管“绿盾“工程建设,国家邮政局基于星环实时流计算引擎 Slipstream 和分布式剖析型数据库 ArgoDB 构建了实时邮政监管平台。平台为多个利用零碎提供实时的数据采集、存储、查问和解决等服务,满足了离线业务、在线业务、即席查问、报表查问等需要,反对了 7 大业务板块,实现了对全国 37 家快递企业的实时监管。不同快递企业和电商平台的快递面单、电商数据等不同类型数据通过 Slipstream 流计算引擎实时写入 ArgoDB,写入性能达到了数百万记录 / 秒,每天接入 70 亿业务数据,累计接入了 PB 级海量数据。在高并发高速写入数据时,通过分布式事务处理能力保障每天接入的 70 亿业务数据不失落不反复,数据入库即可进行查问和剖析。业务人员间接应用规范 SQL 和传统数据库方言进行简单检索、统计和剖析,升高了数据应用门槛,晋升了业务效率。在业务顶峰时,可能撑持数百名业务人员同时交互式简单查问剖析。
参考文献:[1]《数据库倒退钻研报告(2021 年)》——中国信通院