乐趣区

关于数据库:成为国产大数据基础软件第一股的星环科技未来发展空间几何-爱分析调研

10 月 18 日,星环科技正式登陆科创板,成为国产大数据根底软件第一股。这一事件不仅代表了星环科技这家公司获得的阶段性成就,也标记着在以后数字化转型以及信创建设继续推动的背景下,国产大数据根底软件已驶入了倒退的快车道。

对于星环科技,想必大数据业内的从业者都不生疏。其成立于 2013 年,外围团队曾在英特尔负责大数据技术的研发,公司最后基于开源的 Hadoop 技术提供大数据平台产品。但自 2014 年起,为冲破大数据技术瓶颈和欠缺企业级产品性能,星环科技逐步通过自主研发的大数据技术取代了开源技术,现已造成了包含一站式大数据根底平台 TDH、分布式剖析型数据库 ArgoDB 及交易型数据库 KunDB、基于容器的智能数据云平台 TDC、大数据开发工具 TDS、智能剖析工具 Sophon 等在内的多个大数据软件产品系列。

星环科技为何能在国内大数据根底软件市场中怀才不遇?大数据根底软件技术和行业倒退有哪些重要趋势?国内市场厂商的要害竞争因素有哪些?星环科技和国内大数据根底软件市场将来前景如何?爱剖析将通过本文对这些问题进行具体探讨。

01
大数据根底软件是数字化的要害基础设施,市场空间广大

大数据根底软件,是指可能对多种起源、多种类型的源数据进行采集、存储、治理、建模、剖析、开掘,撑持下层数据利用的各类软件工具的统称,通常包含了数据库、大数据平台组件、数据开发与管理工具,数据迷信与机器学习平台等。

表 1:大数据根底软件次要形成

在数字化时代,大数据根底软件是数字化的要害基础设施。首先,数字化的外围要义是要让企业的业务由教训依赖转向由数据驱动,因而须要大数据根底软件来买通企业全链路的数据,并对数据进行加工解决,开掘数据价值,从而撑持企业的数字化转型;其次,随着企业须要解决的数据规模急剧收缩,数据类型更加丰盛,以及数据利用场景越来越宽泛,大数据根底软件也须要紧跟市场发展趋势,推出性能更高、性能更丰盛、更易用的产品,满足用户更宽泛的需要的同时,也在数字化转型中施展更加重要的作用。

大数据根底软件的重要价值加上宽泛的需要,使其成为一个空间微小且具备高成长后劲的市场。依据钻研机构沙利文的数据,中国大数据软件市场规模在最近五年保持高速增长,整体市场规模将从 2019 年的 146 亿元,增长到 2024 年的 492 亿元,复合增长率 27.5%。

图 1: 中国大数据市场规模(2019-2024E,亿元)

02
市场参与者泛滥,三大要害竞争因素决定将来市场格局

中国大数据根底软件市场的微小空间,也吸引了国内外诸多厂商参加。

在国外厂商方面,以 Oracle、IBM 和 Teradata 等为代表的关系型数据库厂商,和以 Cloudera、MongoDB、Elastic 等为代表的大数据平台或分布式数据库厂商,凭借其较当先的产品技术,以及早年进入中国市场的先发劣势,在中国市场曾经取得了肯定的市场占有率。

在国内厂商方面,重要的参与者除了以星环科技为代表的业余大数据软件厂商以外,还包含以华为云、阿里云为代表的私有云厂商,以及以新华三为代表的 ICT 厂商。

在这个参与者泛滥、竞争强烈的大数据根底软件市场,以下三方面的竞争因素决定了各家厂商的竞争力和将来市场格局。

1、技术架构与场景实用能力

因为大数据的利用场景十分宽泛,并且还在一直变得更加简单多样,这就要求大数据根底软件采纳更先进的技术架构来满足不同场景对于性能、性能、应用形式的不同需要。咱们察看到,数据库和大数据平台的技术架构有以下三点要害的演进趋势:

1)从单模型到多模型数据对立解决

随着各行业企业的结构化、半结构化和非结构化数据处理需要的快速增长,对不同模型数据的解决变成了企业的常态化需要。在以往的大数据解决方案中,企业会依据不同的利用场景和数据类型,别离部署不同类型的数据库。

例如,大型银行通常会部署十多种类型的数据库系统,用 Hive 做大规模批处理,用 Neo4j 做图剖析,用 MongoDB 做文档解决,用 Elastic 做搜寻剖析等,但这也会给企业在数据利用中带来新的问题。首先,在做跨库的联结剖析时,用户须要跨多个零碎,应用多种查询语言,并做屡次数据连贯能力失去后果,整个操作流程非常复杂,对用户的技能要求十分高,并且也难以保证数据的一致性和实效性;其次,多套零碎同时部署的混合架构,要求企业针对每个零碎独自建设相应的开发和运维体系,适配不同的产品接口,学习老本和治理老本十分高。

针对这些挑战,国内外一些当先厂商近年来开始摸索多模数据对立解决技术,通过对立的 SQL 语言实现不同数据模型的查问和操作,从而实现跨模型的联结剖析。

2)从集中式到分布式

随着挪动互联网、物联网、5G 等信息通信技术的一直倒退,企业须要解决的数据量更大、类型更丰盛、速度要求更快,传统集中式架构的大数据软件在扩展性、容错性方面已无奈适应这样的变动。在扩展性方面,以银行领取零碎或城市的核酸检测零碎为例,在应答高峰期比平时多几个数量级的数据处理需要时,采纳传统的集中式关系型数据库会呈现数据计算迟缓,甚至导致系统解体的情景。在容错性方面,随着数据成为企业越来越重要的资产,数据必须要满足高可用,这就要求企业通过应用分布式数据库实现数据的多幅本。

上述挑战导致了大数据软件从集中式架构到分布式架构的演进,行将数据扩散在网络上多个通过高速网络互联的节点上进行联结计算。

3)从传统独立部署到云原生

随着企业数据利用需要的逐渐减少,以及数据利用敏捷性要求一直晋升,传统独立部署的大数据平台在应用和运维中诸多问题也一直浮现,包含:

传统大数据平台存储和计算是耦合的,无奈依据数据利用的需要,对存储和计算资源进行别离扩大,减少了应用老本;

传统大数据平台无奈依据利用的需要给租户独立分配资源,同时共享数据存储,也无奈给租户独自的利用负载以及权限体系来满足租户的自我管理;

传统大数据平台在应答大量临时性、轻量级的数据利用时,无奈做到疾速上线和灵便的定制化,并对大量的数据利用进行对立调度治理。

基于容器化的云原生大数据平台因为具备存算拆散、麻利弹性、平安隔离等劣势,成为了近年来数据库和大数据平台的一个重要技术方向。

2、国产化自研能力

因为大数据技术首先在美国等国家产生和倒退,目前较成熟的支流大数据技术都被国外公司所把握,并且这些公司对外提供相应的开源版本产品,导致国内大部分大数据根底软件厂商目前都是基于国外开源技术做商业版产品并提供相干服务,但这种模式存在的三点问题会让国内厂商的国产化自研能力变得越来越重要。

首先,基于开源技术做发行版产品的技术总是落后一代,加上先进技术不会立刻利用于产品,理论的产品整体上会落后更多。因而,只有通过自主研发建设本身的技术壁垒,打造本身产品的技术劣势,才可能在强烈的市场中造成强有力的竞争力。同时,基于自研技术打造的产品,能够提供更加业余的原厂服务,为客户带来更加高效的技术支持。

其次,国外一些当先的大数据公司的实际表明,在大数据根底软件畛域,基于开源技术做发行版产品的商业模式更难取得较高的财务收益。因为当开源我的项目足够成熟好用时,很难向用户免费,而当提供性能被简化的免费版产品,并靠服务免费时,厂商又难以获得较高利润。出名大数据公司 Cloudera 前几年倒退始终处于颓势也正是因为这个起因。同时,咱们也看到越来越多的大数据产品开始向闭源的方向倒退,如原先开源的 MongoDB、Elastic 近年来都推出了开源许可证,要求第三方在售卖其软件时须要取得其受权,并向其付费,Cloudera 和 Databricks 目前也在开始推广这一模式。这进一步升高了厂商应用开源技术这一模式的利润程度。

此外,在近年来美国继续降级对中国的技术进口管制措施的背景下,国内陆续出台了一系列政策,来推动国内的信创产业建设,尤其提到要重点培养一批包含数据库等根底软件在内的重点企业。这一因素也导致了少量政府机构以及国有企业今后在洽购根底软件时必须自主可控,从而倒逼国内根底软件厂商增强自研能力,走出一条独立自主的路线。

3、商业化落地能力

商业化落地能力也是评估厂商竞争劣势的一项关键因素,因为良好的商业化能力能保障厂商继续取得客户与收益,一直优化和迭代产品,取得更好倒退空间。而厂商商业化能力次要体现在以下两个方面:

第一,厂商在特定行业的落地案例,尤其是行业标杆案例的落地状况。厂商行业落地案例数量多,且取得很多行业标杆案例,不仅反映了其产品技术失去了该行业客户的认可,也代表了其产品能力在大量利用场景中失去宽泛验证。

第二,基于行业了解提供针对性的行业解决方案。不同行业企业因为其所需解决数据量、数据类型、剖析场景存在差别,其对大数据软件产品的性能、性能、老本等方面的要求也各有不同,加上国内企业对于很多利用场景的简单需要。使得厂商须要针对特定行业积攒更丰盛的教训,了解行业特点和企业需要,从而晋升其在该行业中的市场份额。

03
星环科技:当先的一站式多模型云原生大数据平台提供商

基于以上大数据根底软件市场的要害竞争因素,咱们认为星环科技在自主原创、技术先进性、以及商业化落地能力方面均具备显著劣势。

1、自主原创:真正的国产大数据平台

星环科技的外围产品大数据根底平台 TDH,以及分布式剖析型数据库 ArgoDB 及交易型数据库 KunDB 等均已实现了真正的自主研发。以大数据根底平台 TDH 为例,其从底层的资源调度零碎,到两头的分布式数据管理系统,分布式计算引擎,多种模型的数据存储引擎,以及下层的编译器均为自研,依据依据工信部电子第五研究所代码扫描测试报告,大数据平台 TDH 的 1200 万行代码里自研代码率超过 70%,ArgoDB 代码自主率超过 90%。

2、技术架构先进:多模型、分布式、云原生技术均有布局

星环科技重构了大数据与分布式数据库软件栈,公司目前曾经积攒了 31 项核心技术,次要体现在分布式技术、SQL 编译技术、数据库技术、多模型数据对立解决技术、基于容器的数据云技术以及大数据开发与智能剖析技术六个方面。以下咱们对其多模型数据对立解决、分布式,以及云原生技术进行重点剖析。

1)多模型数据对立解决技术

目前常见的多模型数据库或大数据平台次要有四种实现门路。第一种是为每一种新数据模型开发独立残缺的存算策略,其毛病是存算耦合,反对的模型越多,零碎的开发量和复杂度就越高,耗费存算资源也较多;第二种是用繁多存储引擎撑持多个存储模型,毛病是因为不同计算数据模型对于存储的要求不同,繁多存储引擎无奈随之匹配适宜的存储策略,从而限度了多模型数据库的性能;第三种是在多种独立数据库之上提供对立的用户界面,对底层多个数据库进行转发,毛病是因为底层多个数据库开发语言不统一,导致了理论开发时的高难度,排除故障的老本也较高。

图 2:四种多模数据库 / 大数据平台实现门路 

为了解决现有解决方案中存在的种种问题,星环科技于 2020 年在大数据根底平台 TDH 上采纳了创新性的大数据技术架构,包含对立的 SQL 接口、对立的计算引擎、异构的数据存储模型、对立的数据管理系统和对立的资源管理零碎。其中较要害的对立数据管理系统,实现了对立的数据分片、复制、存取和事务管理,使得平台可能反对更快捷地开发不同模型的存储引擎,具备较好的模型扩展性。相比业界同行的单个数据库或数据平台,大数据平台 TDH 反对的数据模型数量更多,目前一个平台已可能反对多达 10 种数据模型。

表 2: 星环科技大数据根底平台 TDH 反对的模型列表以及支流同类产品举例

2)分布式技术

目前,分布式数据库或大数据平台的实现,次要有两个技术难点须要厂商去解决优化。首先,分布式架构中数据很难放弃强一致性,因为分布式集群的规模越大,零碎就越容易呈现故障并导致正本的数据不统一的状况,这不仅制约了集群的扩展性,也影响了数据利用的实现。其次,如上文所述,随着大数据平台往多模的方向倒退,单个的分布式数据库都是针对特定数据模型设计分布式治理技术,为了对立解决不同模型的数据,厂商还须要为大数据平台开发对立的分布式存储系统,以及对立的分布式计算引擎。

星环科技也针对分布式软件架构设计了全新的大数据技术栈,实现了对立的分布式计算技术、分布式一致性技术、分布式存储管理技术和分布式事务技术,应用对立交融的数据平台架构取代了业界的混合架构。同时,星环科技产品从 2015 年开始反对分布式事务技术,提供了强一致性和完整性的保障,突破了过后业界普遍认为大规模分布式系统只能实现最终一致性的认知,扩充了大数据技术在要害外围零碎中的利用范畴。当先的技术也让其产品在从 GB 到 PB 不同量级的数据处理上都具备很好的计算性能,其中,大数据根底平台 TDH 是寰球首个通过 TPC-DS 基准测试并经官网审计的产品,表明其基于分布式架构构建的根底软件在海量数据的计算和剖析上达到业界先进程度。

3)云原生技术

相较于国内外大部分同类厂商在 2020 年左右才开始采纳云原生技术,星环科技早在 2015 年开始做容器化研发,并于 2017 年 5 月行将大数据技术与容器云技术无效联合,在大数据根底平台 TDH 中利用基于容器云的资源管理技术,并推出基于容器的资源调度产品 TCOS 和数据云平台 TDC。

通过对云原生技术的采纳,星环的大数据平台产品能为用户提供对立资源管理技术、多租户隔离技术和对立的工作负载治理技术。对立的资源管理技术使得产品反对多种架构的芯片和操作系统,也反对国产 CPU 与 X86 架构的混合部署模式,让客户能逐渐实现国产化的代替;多租户隔离技术能够保障同时运行的服务之间可能实现资源隔离,互不影响;对立的工作负载治理技术不仅能够治理包含数据库、大数据平台、机器学习平台等分布式软件,也能够治理业务利用。

3、商业化落地能力:在泛滥国民经济支柱行业宽泛浸透

截至目前,星环科技已累计有超过 1,000 家终端用户,散布在金融、政府、能源、交通、制作等泛滥国民经济支柱畛域,具备宽泛的客户根底,并在多个行业建立了标杆客户:金融行业包含中国银行、浦发银行、浙江农村商业联结银行等,政府畛域包含上海市大数据中心等,能源行业包含中国石油、南方电网等,交通行业包含中国邮政团体、东方航空等,制造业包含湖南中烟等。

04
将来瞻望

大数据根底软件市场市场空间广大,参加厂商泛滥,但与国外市场相比,咱们认为国内该市场仍然还处于倒退绝对晚期的阶段,将来市场格局将会产生较大变动。

首先,大数据根底软件齐全开源收费的时代将逐步成为过来时,国内厂商在应用很多国外开源技术时将须要获得开源许可证并为其付费,届时,具备自主技术的国内厂商不仅能够凭借技术和老本劣势取得更多的客户,也能够成为私有云、ICT 等厂商的单干付费对象。同时,国内信创政策提出的自主可控的要求下,将进一步使得具备自主技术的国内厂商取得更多的市场份额。

其次,国内大数据软件的用户根底尚未真正成熟。美国等国家的信息化和数字化相比中国当先数十年,早已培养了一大批成熟的大数据软件的终端用户,依据巴克莱银行的估算,寰球目前曾经有 2750 万的数据分析师,依据寰球最大的数据科学家社区 Kaggle 的数据,寰球目前曾经有超过 300 万的数据科学家群体。而中国市场无论是倒退阶段,还是用户根底,相比国外市场还有很大差距。
正是因为有着当先的技术、成熟的商业模式,以及宽泛的用户根底,才使得国外市场呈现了像 Snowflake、Databricks 这样的市值或估值达到数百亿美金的大数据软件公司。

置信随着国内市场环境的成熟,曾经具备当先自主技术和市场先发劣势的星环科技能够在这个过程中一直晋升竞争力,取得更高的市场份额和利润程度,逐步进入真正的成熟收获期。

退出移动版