关于大数据:星环科技平滑迁移方案加速国产化替代助力大数据基础软件自主可控

34次阅读

共计 8131 个字符,预计需要花费 21 分钟才能阅读完成。

核心技术是国之重器,减速推动外围畛域关键技术冲破,实现外围网络中的软硬件国产代替是国家长期策略。

“十四五”布局更是明确,聚力攻坚根底软件,减速分布式数据库 / 混合事务剖析解决数据库等产品研发推广。强化根底组件供应,大力发展云计算 / 大数据 / 人工智能 / 区块链等平台软件开发框架。

自主可控和国产化代替迫不及待。过来微软“黑屏闷”事件、美国“棱镜门”事件、中兴制裁事件曾经阐明了没有核心技术就会受制于人,往年俄乌事件产生后,200 多家科技公司发表暂停在俄罗斯的所有业务,包含芯片、软件、云服务等断供,哪里还有“科技无国界”?要解脱被科技制裁的危险惟一前途就是自主研发、自主可控。

星环科技自 2013 年成立以来,就以自主研发为己任,不仅自主研发了大数据与云根底平台、分布式关系型数据库、数据开发与智能剖析工具的软件产品全系列产品,为企业数字化转型提供了真正的国产数字底座,以提供数据集成、存储、治理、建模、开掘、剖析和流通能力,能够推动数据规范化、资产化、业务化,推动业务数据化、智能化,而且产品能力更强更全,当先于国外,在基于容器的数据云技术、分布式技术、数据库技术、多模型数据的对立解决技术、SQL 编译技术、大数据开发与智能剖析技术等 6 大类技术上领有 31 项具备先进性的核心技术,领有了一大批发明专利。加入并且通过了工信部自主代码扫描测试,完全符合信创验收规范,多个产品进入了国家软硬件技术图谱。

在自主研发翻新的同时,星环科技也在积极参与国家信创工作。星环科技作为信创工委会 WG24 大数据工作组的小组组长及副组长单位,牵头制订信创大数据行业标准及标准,并深度参加产品图谱编制、产业白皮书、案例集编撰等工作。

星环科技全系列产品代替国外进口产品

星环科技领有成熟的根底软件代替解决方案,齐全满足信创验收要求,获得了泛滥的成绩。

大数据根底平台 TDH 能够完满的代替 CDH/HDP 和 CDP,晋升性能、性能、稳定性、易用性、扩展性、可靠性、平安、国产生态反对等能力,提供多种模型反对能力,性能的晋升能够达到 5 到 100 倍,原厂业余服务能力更强。

分布式交易型数据库 KunDB 能够在交易型 OLTP 的业务场景、高并发在线数据服务场景,代替 Oracle/DB2,并且晋升存储计算能力、高可用能力、跨分区事务能力。

分布式剖析型数据库 ArgoDB 能够在批处理和 OLAP、Ad hoc 剖析等场景,代替 Oracle/DB2/TD/SAP HANA,提供海量数据分析能力,晋升混合负载、实时数据分析等能力,软硬件综合性价比失去 10 到 100 倍的晋升。

分布式图数据库 StellarDB 能够在图查问、图剖析的场景代替 Neo4j,晋升图数据存储检索能力,反对万亿顶点以上的图存储与毫秒级检索性能,提供近 30 种分布式图算法和 10 层以上深度链路剖析能力。

搜索引擎 Scope 能够在全文检索、日志剖析等场景代替 ElasticSearch,晋升稳定性、性能、集群扩展性等能力。

智能剖析工具 Sophon 能够在可视化建模剖析场景代替 SAS/SPSS,取得 200+ 算子撑持,晋升性能和性能(将本增效)。

国产化代替的 10 大要害评估指标

星环科技的一体化代替计划领有举世无双的劣势

在性能上,星环科技根底软件产品多模架构,反对关系表、文本、时空天文、图数据、文档、时序等在内的 10 种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储剖析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

在性能上,星环科技根底软件产品自研高性能分布式计算和存储引擎,整体性能是 CDP 5~25 倍。整体性价比是 DB2 20 倍,是 TD 100 倍。

在老本上,星环科技产品高度兼容 CDH/HDP、TD、Oracle、DB2,兼容 TD、Oracle、DB2 的 SQL 和方言,提供成熟的迁徙工具,有大量低成本胜利迁徙案例。

在平安上,星环科技根底软件产品提供的容器隔离、灾备、访问控制、联邦学习、隐衷爱护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

在架构上,星环科技根底软件产品提供对立 SQL 引擎、对立计算引擎、对立分布式存储管理、对立资源调度,对立内联的架构高效搞定湖仓集一体、HTAP 等简单场景,而不是拼凑组件成散装架构。

在开发上,星环科技根底软件产品提供对立 SQL 引擎,无需每个场景一套接口;残缺反对 SQL2003 规范,反对 PLSQL 存储过程,兼容 Oracle、DB2、TD 等方言。

在运维上,星环科技根底软件产品提供开箱即用的可视化运维监控、平安管控工具,容器技术带来极致的装置、降级、补丁体验。

在售后上,星环科技原厂有超过 1100 人的研发与反对团队,超过 3 万名星环科技认证的大数据工程师,专业性更强。

在国产化上,星环科技的软件产品自主研发,通过了工信部代码自主研发率扫描测试,满足信创验收要求。

在国产生态上,星环根底软件产品已实现与支流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾 CPU,麒麟、统信等操作系统,并有官网认证,反对基于 ARM 与 X86 服务器服务器混合部署并有落地案例。

星环科技有在大数据平台、数据库产品、数据分析平台等畛域有大量胜利代替国外进口产品的案例。目前,星环科技的大数据根底软件系列产品已在十几个行业 1000+ 用户利用落地。

大数据平台国产化代替平滑迁徙计划

(CDH/HDP/CDP->TDH)

Cloudera(Cloudera 和 Hortonworks 合并后) 所有产品不再提供社区版,用户无奈获取新的性能。2021 年 1 月 31 日开始,所有 Cloudera 软件都须要无效的订阅,且订阅费低廉(50 个节点,一年订阅费 50 万美元)。此外,CDH 6 和 HDP 3 将是 CDH 和 HDP 的最初企业版本,企业版用户无奈持续获取新的性能和性能晋升。至 2022 年 3 月份,CDH/HDP 全副进行服务(EoS),用户没方法获取售后反对。

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据根底平台,基于其当先的多模型对立技术架构,8 种异构存储引擎能够反对包含关系表、文本、时空天文、图数据、文档、时序等在内的 10 种数据模型。TDH 可能存储 PB 级别的海量数据,同时可能提供高性能的查问搜寻、实时剖析、统计分析、预测性剖析等数据分析性能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储剖析、空间数据存储、实时数据处理等各类大数据业务场景,帮忙企业,更全面、更便捷、更智能、更平安地使用数据,减速企业数字化转型。

TDH 根底存储与计算组件兼容 CDH/HDP,能够实现平滑迁徙,大大降低企业迁徙成本低。

同时,星环科技提供业余的迁徙工具 Transwarp Backup (TBAK),帮忙用户通过简略的三步即可实现数据与业务的一键迁徙,高效便捷。整个迁徙过程操作简略,配置灵便,通过 3 步即可实现所有的迁徙工作,同时用户能够对迁徙过程进行全流程实时监控,保障整个迁徙过程顺利进行。

第一步,基于 TBAK 提供可视化的界面进行 CDH 和 TDH 的集群配置。

第二步,创立 CDH 迁徙计划。TDH 提供服务级和表级的迁徙策略,以及对源集群,灾备集群,调度策略等进行配置。在调度策略中用户能够依据理论状况进行配置,例如能够设置在业务空窗期的每天凌晨 2 点进行数据迁徙。同时,用户能够设置相应的告警策略,当迁徙产生问题时能够第一工夫收到告警信息并对问题进行排查和复原。

第三步,执行迁徙工作和后果查看。当集群配置实现后,所有的迁徙计划将在迁徙计划界面进行治理和操作。用户能够抉择相应的迁徙计划进行操作,例如立刻执行和设置执行策略。若点击执行迁徙工作,零碎会进入到主动迁徙状态,同时能够监测迁徙工作执行的整体状态信息,并且能够对每一步的执行状况进行实时监测。当迁徙产生故障时,零碎会收回执行故障的告警,不便用户对故障产生的阶段进行排查和故障复原。

此外,星环科技积攒了大量的迁徙胜利案例,经验丰富,能够保障整个迁徙过程安全可靠。

相比于迁徙到 CDP 或者国内封装的 Hadoop 商业版,用户迁徙到星环科技 TDH 后,TDH 多模型对立架构提供对立 SQL 引擎、对立计算引擎、对立分布式存储管理、对立资源调度,对立内联架构高效搞定湖仓集一体、HTAP 等简单场景,无需拼凑组件散装架构。同时在技术当先性、性能、易用性、稳定性、安全性等方面失去全面的晋升。此外,TDH 由星环科技自主研发,通过工信部自主代码扫描测试,齐全自主可控,并且与已实现与支流信创生态厂商的适配互认工作,满足信创验收要求,帮忙各行业用户晋升大数据系统的国产化程度。

数据库国化产代替平滑迁徙计划

(Oracle/DB2/MySQL/Teradata/SAP HANA->TDH/ArgoDB/KunDB)

传统数据库如 Oracle,DB2 等存在老本高、扩容难、性能受限、运维难等问题给很多企业用户造成了困扰。

前段时间俄乌事件中,Oracle 发表暂停在俄业务,其余泛滥科技公司也相继发表断供俄罗斯。这些事件再次给国人敲响了警钟,建设国产数据平台火烧眉毛。

星环科技大数据根底平台和数据库产品反对残缺的 SQL 规范语法,兼容 Oracle、IBM DB2、Teradata 方言,兼容 Oracle 和 DB2 等的存储过程,能够实现平台间的平滑迁徙。同时可能提供对立的架构,一站式帮忙用户解决所有业务场景,从降低成本、晋升效力、平台翻新、利用翻新等多个方面为用户带来收益。

星环科技建设了一整套从老牌数据库到星环产品的平滑迁徙方法论,大抵能够分为剖析与设计、迁徙施行和上线保障三个阶段。

第一阶段,剖析和设计。联合用户的现场状况和需要进行剖析,并对数据流转和整体架构设计。如将 Oracle 迁徙到星环科技 TDH,TDH 反对多种数据源接入,并对于不同的接入形式提供业余的组件工具。例如星环科技 Transporter 反对定时批量抽取,实时流计算引擎 Slipstream 反对实时数据接入,可用于实时数仓等场景。

第二阶段,迁徙施行。迁徙分为数据迁徙和业务两大部分。在数据迁徙方面,星环科技能够实现三种迁徙形式,1:1 平移、依照大数据平台个性从新设计和迁徙种选重点进行优化,用户能够依据理论状况和本身需要进行抉择。在业务迁徙方面,星环科技平台可能提供残缺的配套产品和组件,同时又能残缺反对 SQL 规范,兼容像 Oracle 存储过程等特色,在保障业务的同时实现低成本、平滑迁徙。

第三阶段,上线保障。星环科技能够提供双轨试运行机制,定期进行两边的数据核查,察看平台的运行状况,进行前期的粗疏调优等相干工作,保障迁徙后可能顺利上线投产。

以金融行业为例,星环科技可替换的场景蕴含:危险管制、数据仓库、报表平台、ODS、数据集市、投资交易剖析回放、客户剖析和客户画像等等。例如风控的指标治理、实时预警、合规治理、数据维度始终是金融行业中券商最依赖于数据处理的局部,可联合市场危险、信用风险、反洗钱、投资人适当性治理等利用场景,星环科技可能在机器学习算法和危险模型上提供解决方案。其余例如投资交易、行情预测、业务经营等场景,星环科技都可能提供全面的撑持能力。

星环科技提供残缺的数据库平滑迁徙计划可能全方位保障数据与业务迁徙,大大降低企业迁徙老本和迁徙危险。同时绝对于传统数据库,星环科技大数据平台以及数据库产品可能在架构、性能、可扩展性、以及对云和 AI 的反对等能力上取得极大的晋升,帮忙企业疾速实现国产化代替,构建自主可控的高性能数据平台。

图数据库国化产代替平滑迁徙计划

(Neo4j-> 星环分布式图数据库 StellarDB)

Neo4j 是一款出名的开源图数据库,但用户在应用过程中发现 Neo4j 存在肯定的局限性,例如 Neo4j 不反对多数据库实例利用,每个利用都须要独自的服务器部署,不便于管理。当数据量较大时,Neo4j 计算能力存在瓶颈,无奈满足较高要求的计算需要。此外,Neo4j 不满足高可用的要求,且不足对立的资源管理和权限治理。

Transwarp StellarDB 是星环科技自主研发的分布式图数据库,兼容 openCypher 查询语言,提供海量图数据的存储和剖析能力,反对原生图存储构造,反对万亿边 PB 级数据存储。同时,StellarDB 具备毫秒级点边查问能力,10+ 层的深度链路剖析能力,提供近 30 种的图剖析算法,具备数据 2D 和 3D 展现能力。

在迁徙方面,StellarDB 反对 MySQL、Greenplum 等关系型数据库、HDFS、Hive 等大数据平台数据源接入,在 4.0 版本中 StellarDB 新增通过 Kafka、Flink、Spark Streaming 等形式接入流式数据源,能够笼罩所有场景数据源。同时提供业余的数据迁徙工具实现数据的疾速高效迁徙。此外,StellarDB 与 Neo4j 的 Cypher 语法高度兼容,低成本、平安地实现原有业务的平滑迁徙和上线。

相比 Neo4j,StellarDB 在存储能力、高性能、图算法、国产化兼容、运维治理能力、常识图谱能力、接口工具等方面体现优异。

StellarDB 反对海量图数据的存储与检索,能够反对至多万亿顶点以上的图存储,在某地电信关系图谱场景实现了 9700 亿边规模的存储和稳固运行,真正意义上将万亿级图数据库能力利用落地。

替换 Neo4j 当前,用户可取得更高的性能。批量数据导入性能进步 2 倍以上,在深度链路查问能力方面,StellarDB 可能反对 12 度以上关联查问,秒级返回,经测试验证,6 跳查问绝对于 Neo4j 进步了 50 倍以上。在图算法性能方面,StellarDB4.0 具备很大性能劣势,PageRank 算法和强连通子图算法性能晋升 3 - 6 倍,LPA 算法性能晋升 8 倍以上,在十亿级边 Twitter-2010 数据集下,StellarDB 秒级响应,Neo4j 在 30min 内无响应后果。

相比于 Neo4j,StellatDB 反对分布式集群部署,实现一站式集群治理,同时提供企业级便捷的管理工具,实现高效的对立资源管理和权限治理。

StellarDB 提供对立调度和 API 接口治理能力,相比之前依赖第三方调度工具,更不便高效。

在可视化能力方面,StellarDB 反对 2D 和 3D 的图可视化展现,利用可视化技术帮忙用户疾速获取数据基于关联性的深度洞察,并且提供可视化的数据导入、集群监控、图查问工作和图计算工作监控等性能。

在国产化方面,StellarDB 是星环科技自研图数据库,且兼容国产化软硬件,帮忙企业进步国产化程度,满足信创要求。

此外,星环科技是国内具备图数据库、常识图谱平台、图开掘利用开发能力的企业,其全栈自研的图技术能力能够助力企业疾速开掘图数据价值,推动业务高效高质量倒退。

搜寻产品国产化代替平滑迁徙计划

(ElasticSearch-> 星环分布式搜索引擎 Scope)

ES 在 2021 年发表变更 Elasticsearch 和 Kibana 的其中一项开源许可协定 Apache License 2.0,变更为双受权许可,即 Server Side Public License (SSPL) + Elastic License,在肯定水平上对许可协定加以限度。

此外,随着数据量的剧增以及性能要求的一直进步,ES 在集群扩展性、可靠性、数据读写性能、以及数据恢复速度等方面越来越难以满足用户的需要。例如,ES 单节点实例反对的数据量无限,当集群超过 100 节点,会呈现间断失联等稳定性问题。当节点磁盘损坏时,须要采取全量数据拷贝的形式复原数据,工作量大,TB 级别可达小时级别,数据恢复速度比较慢,无奈满足客户疾速实现数据恢复的需要。

Transwarp Scope 是星环科技自主研发的分布式搜索引擎,提供 PB 级海量数据的交互式多维检索剖析服务,可能实现高牢靠、高扩展性的全文搜寻与灵便查问。可能兼容罕用的 ES 读写接口,比 ES 更强的数据一致性和可靠性,同时比 ES 有更强的稳定性,实现分钟级疾速复原单点故障。在性能方面,Scope 能够毫秒级疾速响应用户的检索需要,入库与查问能力有发幅度的晋升。此外,Scope 是星环科技自主研发的搜索引擎,能够满足信创验收要求。

基于星环平滑迁徙计划论,从 ES 到 Scope 的迁徙过程能够分为三个阶段,调研评估、计划测试和上线保障。同时星环科技反对多种数据迁徙形式保障数据顺利迁徙,Scope 反对 ES 接口能够实现原先 ES 业务的平滑迁徙。

在数据迁徙方面,星环科技反对三种数据迁徙计划,应用局部 ES 迁徙工具迁徙数据、通过 HDFS 将数据迁徙到 Scope 和应用 Logstash 进行数据迁徙,用户能够依据需要灵便抉择。

在业务迁徙方面,Scope 反对 ES 接口,能够实现 ES 的业务平滑迁徙,同时针对局部用户习惯应用 SQL 的形式,Scope 反对 SQL 2003 和全文检索 SQL 扩大,满足传统数据库迁徙到 ES 的需要。

相较于 ES,用户迁徙到 Scope 之后,能够实现海量存储能力确保百节点以上规模集群稳固运行,强一致性写入能力确保读写数据不丢。在高可用能力方面也有十分大的晋升,能够确保谬误分钟级重启复原。此外,用户还可取得多过程架构,内存精细化管制、负载平衡、数据分区等能力。

星环科技 Scope 在政府、金融等行业有很多 ES 国产代替落地教训,帮忙用户在海量数据检索和剖析、可扩展性、可靠性、数据恢复等能力上取得极大的晋升,帮忙企业实现搜寻产品的国产化代替。

剖析工具国产化平滑迁徙计划

(SAS/SPSS-> 星环智能剖析工具 Sophon)

大数据分析工具能够帮忙用户更灵便、更高效地进行数据分析,开掘数据价值。随着数据量的剧增,以及深度学习算法的一直迭代以及翻新,市面上如 SAS/SPSS 等剖析工具越来越难以满足企业用户更疾速、更高效、更灵便以及更低成本的需要。

例如,用户在应用 SAS 过程中可能会遇到如下几个问题:首先,其绝对比拟关闭,用户无奈针对单个性能授予许可证,应用老本昂扬;其次,SAS 自建机器学习算法无限,深度学习算法依赖内部如 Python 嵌入反对,用户无奈灵便地获取新的算法;再次,SAS 对分布式读写和计算存在局限性,对海量数据处理及大规模机器学习难以无效撑持,对实时计算更是无能为力。

此外,SAS 是过程性语言,代码量偏多,加上闭源个性,SAS 社区不迭开源语言沉闷。随着 R、Python 的风行,SAS 人才日渐稀缺,导致企业难以组织高质量团队。

星环科技 Sophon Base 是具备统计、机器学习、深度学习等齐备算法和丰盛算子的企业级分布式机器学习平台,反对从数据接入、数据处理,到模型训练、服务部署、线上监控的一站式可视化流程。

在多年的行业积攒和我的项目实际上,星环科技建设了一套模型迁徙方法论,整个过程被定义为 8 个阶段——业务了解、数据了解、元模型了解、数据筹备、模型迁徙、评估报告、利用和检测。星环科技 SAS 平滑迁徙过程强调针对实际业务问题,解决客户的业务痛点,产生理论价值。

通过对用户业务、数据、元模型的了解后,进行相应的数据筹备,包含框架设计、数据处理、方案设计等。当数据筹备好后就会进行模型迁徙,这一阶段次要是进行代码逻辑架构梳理设计、模型验证等。模型迁徙实现后会对迁徙成果进行评估,确认迁徙前后的准确性、一致性、以及优化成果验证。最初是部署上线来反对业务,对业务进行继续跟踪,一直优化模型,并对成果进行评估。通过一整套残缺的迁徙流程,保障 SAS 平滑、平安的迁徙到星环 Sophon。

星环科技 Sophon 能够提供残缺的 SAS 模型迁徙能力。相较于 SAS,迁徙到 Sophon 后能够反对多源异构数据的接入、丰盛的数据处理、多个框架的模型训练及公布、模型部署和保护等全过程,多源数据和建模流程灵便组合确保综合性场景高效撑持。用户能够取得 Sophon 自建的 200 多个高性能分布式 AI 算子以及对自定义算子的反对,齐全笼罩 SAS 原有的建模能力。同时,Sophon 还能带来模型可解释性、联邦学习等额定的反对,更好地撑持模型的业务利用。此外,在模型的对立治理、公布及监控方面,Sophon 也为企业客户提供了简洁、易用、稳固的解决方案,帮忙用户更好地获取数据价值。

正文完
 0