关于数据库:星环科技TDH多模型统一架构VS-CDH架构

CDH是Cloudera的开源平台发行版，通过将Hadoop与其余十几个开源我的项目集成，为企业大数据业务提供服务。在CDH开源大数据计划中，是通过多个相互独立的组件提供相应的能力，每个场景须要一个组件独立交付，为了实现不同业务需要，通常用户须要部署多个不同的产品。比方为了做数仓须要Hive，为了做准确查问须要Hbase，为了做搜寻业务须要Elasticsearch等等。那客户为了实现图计算和剖析，须要另外独自部署如开源图数据库Neo4j，为了实现时序数据存储剖析，须要另外独自部署开源时序数据库InfluxDB等等。

在简单场景下，CDH须要多个组件配合实现，多个组件的开发语言和接口根本齐全不同，用户须要学习适配多个产品的不同接口，开发成本高。同样的，这些产品也应用了各自独立的计算引擎和存储，数据存储在各自的生态中难以互通，若须要把数据从一个产品导入到另一个产品中，须要通过文本离线导入导出，ETL流转效率低，同时也难以保证数据的准确性、一致性和实效性。数据往往在离线流转过程中，可能因为编码或浮点数精度问题，导致数据不统一，最终影响业务准确性。各自独立的计算引擎若部署在同一节点上，也可能会引起计算资源竞争等问题。总体来说，CDH拼凑起来的散装架构复杂度高，客户新业务开发、业务需要变更开发成本极高，运维老本也极高，数据流转和交融剖析等数据处理效率低。CDH散装架构跨模型剖析计划

上面咱们来举个例子。比方当用户须要钻研某特定年纪人群生产习惯和爱好时，能够通过将该人群生产的商品评估作为一个参考。为了取得该人群对某商品的评估数据，用户须要独自搭建3个独立的数据库，如独自部署图数据库，关系型数据库和搜索引擎。为了实现此次业务，用户须要进行三次检索，并须要应用到图数据库中的人群关系型数据，关系型数据库中的人群生产记录数据，以及搜索引擎中生产商品评估数据。

第一步，定位某特定年龄段的人群。用户须要连贯到图数据库中，应用图数据库查询语言Cyper，找出30岁到35岁之间的有如转账关系的人群。第二步，获取该人群的生产记录。基于第一步中获取的人群，用户须要再连贯到关系型数据库中，应用SQL查询语言，获取该人群生产商品信息。第三步，获取蕴含特定关键词的商品评估。用户须要再连到搜索引擎，编写RESTful API申请，应用前两步获取的人群信息和生产商品信息，检索商品评估。为了实现这个业务，用户独自搭建了3个独立的数据库，并在利用适配3种数据库的连贯形式和查询语言，同时还要求开发人员同时理解这3种数据库的开发技术，整个流程非常复杂，技术要求十分高。此外，因为是3个独立的零碎，数据很可能存在不统一，比如说生产记录更新到了关系型数据库，然而相应的评估没有更新到搜索引擎中，导致剖析语句的后果不精确。TDH对立架构跨模型联结剖析计划

那有没有一种架构或者计划，不须要为不同的业务需要独自部署不同的产品，一套平台就能够全副搞定，实现不同模型数据的对立存储管理，同时也不须要依据不同的产品平台学习和应用不同的接口语言，一套语言就能够搞定呢？答案是，有的。上面咱们来看看星环科技自主研发的基于多模型对立技术架构的大数据根底平台TDH是如何实现以上业务场景的（下图右侧）。

基于星环科技的多模型对立技术架构，用户只需用一句SQL就能同时拜访这3种存储模型进行联结剖析，代替了之前3段代码。一句SQL里，同时对图数据人群关系表，关系型数据生产记录表，全文数据商品评估表，3个表进行了跨模型关联，一次操作实现了之前三次操作能力实现的业务，大大简化了开发复杂度，简化用户操作。同时数据也仍保留在原存储引擎中，也不必对数据进行导入导出或者转换，不会存在数据不统一或数据冗余存储的问题。TDH多模型对立架构

那TDH的多模型对立架构是什么样子呢？TDH基于当先的多模型对立技术架构，提供对立的 SQL 接口、对立的计算引擎、对立的数据管理系统和对立的资源管理零碎，通过9种独立的存储引擎，反对业界支流的10种存储模型：关系型数据存储、宽表存储、搜索引擎、天文空间存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。在一个数据库中实现多种数据模型（例如关系表、文本和图片）的对立存储管理，一个SQL就能够实现不同数据模型的操作和查问，模型转化流转以及跨模型关联剖析，解决了不同模型数据之间的组合应用问题。与CDH散装架构相比，TDH对立的多模型架构具备复杂度低、开发成本低、运维成本低、数据处理效率低等长处。

对立的接口CDH不同组件应用不同SQL编译引擎，如HiveQL，SparkSQL，Impala SQL，Phoenix SQL等，SQL无对立标准，用户须要学习适配多个产品的不同接口，学习和开发成本高。短少对立的拜访接口，不同的大数据技术采纳不同的API编程接口, 开发不同的数据模型效率低。当有新业务须要新增模型时，须要独自部署新的独立产品组件，新的产品组件往往应用的是不同的接口和分布式数据管理系统，零碎开发复杂度高，难度大，周期长。此外，对ANSI SQL规范和传统关系型数据库方言反对度较低，企业业务迁徙老本高。Hive、SparkSQL、Impala、其余在Hadoop根底上的SQL引擎、NoSQL或者关系型数据库之上的实现存储过程语法十分无限。TDH基于自研的对立的SQL编译器Transwarp Quark能够实现对立接口解决不同的业务和不同数据模型，只须要简略的SQL语句即可实现各种复合跨模型数据查问，无需拜访不同接口即可操作不同的数据模型。对于新增场景、数据库切换而造成接口、开发语言切换的问题就不存在了，开发和迁徙老本大大降低。TDH通过对立SQL语言（而不是API编程接口）进行大数据利用开发，反对绝大部分ANSI 92、99、2003 SQL规范，升高了利用开发门槛。同时还兼容传统关系型数据库方言，如Oracle、IBM DB2、Teradata，升高了用户从传统数据库的迁徙老本，具备国产化代替的能力。此外，TDH提供存储过程反对，升高开发大型简单数据业务零碎的技术门槛。对立的计算引擎CDH应用一系列孤立的计算引擎，Flink比拟适宜实时数据分析，而Spark适宜离线数据处理与剖析。计算引擎Impala仅适宜交互式查问剖析等简略场景，批处理场景须要应用Hive/MapReduce，而传统的MapReduce计算引擎计算提早长，不适宜交互式剖析场景和多轮迭代的简单离线解决场景。企业内因为多种模型的数据处理需要，因而须要学习和应用多个计算引擎，因而学习老本高，运维的复杂度也比拟高。多种计算引擎的部署个别都短少反对多租户的计算调度器，因为在反对不同优先级的工作上能力有余，须要依赖第三方调度技术。此外，对图数据、时空数据等多模型数据的计算和剖析能力，尤其是多种模型数据之间的穿插式剖析，其计算引擎个别不反对或者反对得不够全面。TDH采纳自研对立计算引擎，能够依据不同的存储引擎主动匹配高性能算法，可能在不同的数据量级上（从GB到PB级别）提供优化的剖析性能，反对宽泛的大数据应用场景，反对实时和离线等简单场景，可用于建设一站式数据服务，对立数据湖、数据仓库和数据集市等数据系统到一个平台上，不须要采纳混合架构或多种计算引擎，升高了开发和运维难度。对立的计算引擎可能解决不同模型的数据，无需采纳混合多种数据库的技术架构，晋升开发多模型利用的效率，升高不同模型间的开发难度和运维老本，晋升运行性能。对立的计算引擎可反对联邦计算，企业外部多种数据模型可与第三方数据库进行联结查问，打消数据孤岛。此外，还反对多租户，统一规划计算资源、智能弹性调度不同计算模式并依据业务优先级灵便响应，可反对多种混合负载的简单利用。对立的存储管理CDH 不同的数据模型有专有的分布式治理技术，数据的分片、复制，存取、一致性算法和故障复原等方面都有齐全不同的实现策略，各有优劣，没有对立的最优管理策略。用户须要了解不同模型的数据管理策略，利用开发和运维难度大。TDH 基于对立通用的分布式存储管理零碎技术，实现对立的元数据管理、事务管理和数据一致性治理，能够实现多种模型之间的数据一致性，同时还极大的升高了企业运维治理老本，防止数据孤岛。对立的资源管理CDH应用YARN做资源调度与治理，不能很好反对长生命周期的工作，比方企业须要 7*24小时运行的工作。其次要采纳过程模式做资源分配，无奈实现计算资源和内存资源在不同计算工作之间的隔离，也无奈反对网络和存储资源的治理与调度。通过YARN做资源调度和治理，仅反对分布式计算框架的资源管理与调度，不反对有状态的分布式存储框架或通用利用的资源管理与调度。此外，不反对YRAN的产品组件须要应用本身的资源管理零碎，如Impala，Elasticsearch等。TDH基于容器的资源管理与调度技术，实现对立治理配置操作系统资源，具备更好的通用性，向上能够反对多种计算和存储框架，以及有状态/无状态利用。并且还具备更好的隔离能力，反对海量不同用户的各种利用独立运行，保障它们之间互不影响，部署扩容更加便捷。性能晋升

ArgoDB VS ImpalaArgoDB是星环科技自主研发的分布式剖析型数据库，等同配置下，基于不同查问剖析场景下，TDH（ArgoDB）在聚合统计、关联查问、准确查问类场景下是CDH（Impala）的2~50倍。

Inceptor VS HiveInceptor是星环科技自主研发的关系型剖析引擎，基于TPCDS 1TB的数据规模，等同配置下（4X10cores），基于以下不同查问剖析场景下，TDH（inceptor）性能是CDH（Hive on Tez）的7~25倍。

Slipstream VS FlinkSlipstream是星环科技自主研发的实时流计算引擎，在吞吐量性能方面，ETL测试项100万、500万数据量数据处理吞吐量，Slipstream比Flink性能别离晋升25%和30%。Filter过滤场景100万、500万数据量Slipstream比Flink性能晋升14%和6%。

Hyperbase VS HbaseHyperBase是星环科技的一款宽表数据库，应用对立的SQL接口，应用SQL bulkload批量数据入库和实时数据写入，反对二级索引和全文索引，并提供图形化灾备工具，在性能方面，基于1000W条的数据集，随机读写性能方面，TDH（Hyperbase）相较于CDH（Hbase）晋升8%以上，程序扫描性能晋升54%。

Scope VS ElasticsearchTranswarp Scope是星环科技自主研发的分布式搜索引擎，提供PB级海量数据的交互式多维检索剖析服务，单实例可冲破至百TB的数据存储，是Elasticsearch的5倍以上，大大降低用户硬件老本。数据批量写入速度绝对Elasticsearch晋升40%。绝对于Elasticsearch， Scope具备很强的容灾和数据恢复能力，重启复原工夫在TB级数据量下管制在分钟级，不到Elasticsearch的1/10。

多模型能力拓展

CDH的数据存储模型仅反对关系型、宽表、搜索引擎等数据模型，无奈满足如图数据库、时序数据库等新场景业务需要。此外，新增组件须要减少额定的计算引擎，数据应用和数据处理割裂，架构设计、开发、运维复杂度高。TDH 采纳当先的多模型对立技术架构，通过9种独立的存储引擎，反对业界支流的10种存储模型：关系型数据存储、宽表存储、搜索引擎、天文空间存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。同时分布式数据管理系统的插件个性，也不便后续业务的灵便扩大，能够依据须要接入其余存储引擎。应用CDH的用户，当因业务倒退须要应用图数据，时序数据，时空数据等数据模型时，须要另外独自搭建数据库，比方开源图数据库Neo4j，开源时序数据库InfluxDB，开源时空数据库GeoMesa等，因而会进一步加剧散装架构带来架构简单、开发和运维老本低等各种问题。同时，引入的独自开源数据库产品在架构、性能、性能、易用性等方面存在肯定的局限性，无奈满足国内用户海量数据存储计算以及简单的业务需要，并且新增的数据模型一样难以实现跨模型关联剖析。图数据CDH不反对图数据模型，用户可另外搭建如开源图数据库Neo4j来提供图计算和剖析能力。Neo4j是集中式架构，扩大能力差，存储、计算能力和性能方面无限。在易用性方面，反对的数据源、可视化、运维治理方面均存储有余，无奈满足用户多场景、高效图查问剖析、便捷运维等要求。在集成Neo4j后，平台也不反对跨数据库查问，不反对异构模型数据关联查问。TDH基于多模型对立架构，用户可灵便接入图数据库StellarDB。StellarDB具备原生分布式架构，存储和计算灵便扩大，轻松实现万亿级数据存储计算。StellarDB提供丰盛的接口，反对更多的数据源，满足客户现场更多样、更简单的业务场景。StellarDB提供2D和3D图和图算法可视化。在运维治理方面，StellarDB提供可视化的数据导入、集群监控、图查问工作和图计算工作监控等性能，进一步升高用户的运维门槛。性能方面，StellarDB数据批量导入速度约是Neo4j的2倍，罕用算法是Neo4j的3-8倍，多跳查问是Neo4j的50倍以上。

时序数据CDH不反对时序数据模型，用户可另外搭建如开源时序数据库InfluxDB来提供时序数据计算和剖析能力。开源时序数据库InfluxDB采纳单机部署，不反对分布式集群部署，存储和计算能力无限。应用InfluxQL作为查询语言，会带来较高的适配兼容门槛；不反对简单剖析，只能做简略点查或者指定设施剖析。在大规模设施状况下，过程须要应用大量内存进行计算，服务的提早稳定较大，稳定性较差。TDH基于多模型对立架构，用户可灵便接入的时序数据库Timelyre。Timelyre反对分布式程度扩大，同时具备极高的压缩率，能够反对海量时序数据的存储，提供高吞吐实时写入、时序准确查问、多维检索等性能。单节点状况下，数据导入速度、导出速度、反对的设施数量都是开源时序数据库InfluxDB的10倍，并且借助于分布式个性，实践上性能能够随着集群数据的扩大而线性晋升。同时，Timelyre反对InfluxDB不反对的关联等简单剖析，性能靠近分布式剖析型数据库。

时空数据CDH不足对于工夫和空间数据的存储计算能力，用户可另外搭建如开源时空数据库GeoMesa或MobilitiyDB。但像GeoMesa和Mobility也只反对矢量数据存储，不反对对多维时空轨迹数据、栅格数据、瓦片数据的存储，时空数据索引和能力较弱，同时也不足对国内一些简单场景如社会治理、态势剖析等场景的反对。在规范反对方面，像GeoMesa不反对GeoSOT、北斗网格码等国家标准，无奈应用GeoSOT及北斗网格对时空对象进行编码及治理。TDH基于多模型对立架构，用户可灵便接入时空数据库Spacture。Spacture反对大规模矢量数据、遥感影像数据、数字高程数据、时空轨迹数据的存储与计算，具备齐备的数据查问、剖析和开掘能力，兼容PostgreSQL和GIS生态，可用于时空查问剖析、时空模式开掘、时空轨迹聚类等时空轨迹数据分析场景。全套工具集TDH提供SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式剖析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

自主研发，国产软硬件兼容，满足信创要求

CDH齐全是国外开源软件，不可控。Apache 软件基金会和GitHub官网都有公开阐明，产品和技术受到美国的进口法律和法规限度。只管此类软件的应用是收费的，但它的许可协定依然存在诸多限度，包含禁止受制裁的国家应用本来对公众收费凋谢的代码。受美国进口管制的俄罗斯在近期俄乌事件中将这方面危险彻底裸露。开源产品还可能会有license相干商业危险。如2021年初， Elastic公司决定将这款开源软件的 Apache License 2.0 变更为双受权许可，即Server Side Public License (SSPL) 和 Elastic License。其外围条款是“如果将程序的性能或批改后的版本作为服务提供给第三方，那么必须收费公开提供服务源代码”。这意味着不法分子能够取得其源代码并钻研其破绽，给企业用户带来微小的平安危险。CDH在国产化服务器、CPU、GPU资源池化、操作系统等方面反对能力有余，无奈很好地满足国产生态。

TDH是星环科技自主研发的国产大数据平台，通过工信部源代码扫描测试，1200万行代码里自研代码率超过70%以上，并且像分布式剖析型数据库ArgoDB、分布式图数据库StellarDB等自研率都超过90%，在自主可控方面TDH有绝对优势。此外， TDH已实现与支流信创生态厂商的适配互认工作，适配长城飞腾、华为泰山、浪潮等服务器，鲲鹏、飞腾CPU，麒麟、统信等OS，并有官网认证，反对基于ARM与X86服务器服务器混合部署并有大量落地案例，满足信创验收要求。

关于数据库:星环科技TDH多模型统一架构VS-CDH架构

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:星环科技TDH多模型统一架构VS-CDH架构

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复