共计 15278 个字符,预计需要花费 39 分钟才能阅读完成。
报告编委
李喆
爱剖析合伙人 & 首席分析师
廖耘加
爱剖析分析师
目录
1. 钻研范畴定义
- 市场洞察
- 厂商全景地图
- 市场剖析与厂商评估
- 入选厂商列表
1. 钻研范畴定义
钻研范畴
在后疫情时代,以数据分析为代表的数据生产场景日益丰盛,数据驱动业务增长成为市场共识,数据开发治理越来越受到企业决策者器重。
以后,各类管理信息系统、协同办公零碎的利用,物联网和边缘设施的遍及,都让企业端数据采集和剖析的场景变得越来越多,数据驱动的场景从以后集中在前端的营销、销售环节,正在向后端供应链的全场景延长,从与生产互联网严密相干的批发电商向金融、教育、医疗、工业等全行业笼罩,数据生产场景的丰盛和剖析需要的快速增长导致数据利用开发需要迅速减少。
金融、批发等行业头部企业纷纷成立独立的数据管理部门,在数据开发与治理方面的投入明显增加。建设银行、民生银行、兴业银行等金融机构通过新建数据管理部门来施行大数据策略,疾速开释数据生产力,实现数据资产的集中管理,汇集数据人才,深度开掘与共享数据资源,从而利用数据驱动全方位反对业务倒退。
只管对数据的需要和投入一直增大,但在理论治理和利用时企业仍面临诸多挑战:
企业外部数据管理的合作老本越来越高。一方面,数据分析工具多元化导致数据用户角色更简单,企业内当初设置了如数据工程师、数据管理员、报表开发人员、运维工程师等多个职位,反而容易造成职责边界穿插含糊,合作艰难。另一方面,IT 部门、数据部门和业务部门之间难以建设起严密的交融关系,数据部门绝对弱势,难以推动业务部门被动用数,整体数据利用效率较低。
单个环节的自动化无奈解决全局问题。只管企业在数据开发、数据治理等单个环节洽购了相干的工具或平台,实现了部分的自动化,然而仅仅能解决外表问题,无奈真正解决全局需要。难以建设笼罩所有业务的标准对立、集成互联的数据根底,从根本上打消数据孤岛,实现企业级数据集成整合、全面共享利用,晋升企业大数据能力。
数据利用开发需要增长与数据用户角色的简单以致企业数据开发、数据运维工作量以及数据利用交付协调难度大大增加。因而,企业须要一套全新解决方案,真正实现数据驱动业务增长。DataOps 以其能服务于业务部门、大数据部门,提供敏态数据开发反对,优化数据生产者和数据消费者合作效率,成为解决以上问题的最佳计划。
在此背景下,为企业引入 DataOps 过程中提供全面的布局、建设和产品选型参考,爱剖析调研并撰写了《2022 年爱剖析 DataOps 厂商全景报告》。
DataOps 市场定义
图 1:数据全生命周期
数据全生命周期包含三个阶段:首先,由业务部门在业务运行过程中产生原始数据;其次,大数据部门(IT 部门)对原始数据进行数据加工;最初,加工后的数据再次回到业务部门实现数据生产。因而,在数据全生命周期中外围环节基本上由大数据部门(IT 部门)实现。
大数据部门(IT 部门)职责包含两方面:1)数据资产对立治理;2)反对业务部门的敏稳双态数据生产需要。
DataOps 外围是面向于大数据部门的第二项职责,既满足业务部门稳态的数据生产需要,如数据报表、数据可视化、自助式剖析等;也要满足业务部门敏态的数据生产需要,如机器学习建模、智能举荐等,敏态需要迭代速度更快,其中波及到很多摸索式需要。
DataOps 市场定义:服务于业务部门(业务部门 ITBP)和大数据部门,满足敏稳双态数据生产需要,晋升数据加工环节效率的征询、工具和服务。
图 2:DataOps 市场全景地图
基于数据全生命周期三大阶段,进一步将数据加工环节拆分为数据采集(数据同步)、数据开发、数据服务(数据虚拟化)和数据品质晋升;将数据生产环节拆分为数据分析和数据利用。并依据每一阶段存在的业务需要,映射出对应的细分市场。
本次报告,爱剖析认为 DataOps 全景图次要笼罩数据加工环节,具体来说,与数据采集、数据同步对应的是“麻利数据管道”市场;与数据开发对应的是“一站式数据开发治理平台”市场;与数据服务对应的是“数据服务平台”市场、“智能数据资产目录”市场和“指标中台”市场;与数据品质晋升对应的是“数据可观测性平台”市场和“数据治理”市场。
爱剖析认为,甲方企业真正要实现 DataOps,必须具备残缺的数据能力,建设一整套面向业务需要的数据开发管理机制,仅仅具备单点能力是远远不够的。因而,上述对 DataOps 市场划分,次要是思考到市场倒退现状、甲方企业建设停顿和厂商能力,并不意味着具备单点能力就能够实现 DataOps。
爱剖析综合思考市场关注度、甲方需要和理论落地停顿等因素,选取以下 3 个特定市场进行重点剖析,别离是“一站式数据开发治理平台”、“麻利数据管道”和“智能数据资产目录”。
本报告面向金融、制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT 部门负责人和业务部门(业务部门 ITBP),通过对各特定市场的需要定义和代表厂商能力解读,为企业数字化转型布局与厂商选型提供参考。
厂商入选规范
本次入选报告的厂商需同时合乎以下条件:
厂商的产品服务满足各市场剖析的厂商能力要求;
厂商具备肯定数量以上的付费客户(参考第 4 章各市场剖析局部);
厂商在特定市场的营业支出达到指标要求(参考第 4 章各市场剖析局部)。
- 市场洞察
1.DataOps 市场规模超 180 亿元
爱剖析推算,2022 年中国 DataOps 市场规模为 185.1 亿元人民币,同比增速为 13.0%。思考到大部分 DataOps 我的项目甲方还是大型企业,立项和交付受疫情影响很大,2022 年增速较 2021 年显著放缓,但预计 2023 年会 40% 以上的增速,市场进入疾速倒退阶段。
图 3:中国 DataOps 市场规模预测
DataOps 市场由软件产品和服务组成,现阶段整个市场并未造成统一标准和标准,绝大多数 DataOps 我的项目都是基于甲方企业本身需要进行落地,因而,软件产品占比 30% 左右,大量我的项目还是以服务为主。大部分 DataOps 我的项目是厂商提供外围产品组件,基于理论甲方需要,造成 DataOps 解决方案。
DataOps 市场甲方以金融、制作、能源、消费品与批发等行业为主,次要是以集团型甲方企业和行业头部甲方企业为主,但两者对 DataOps 的需要略有不同。集团型甲方企业在理论发展数据管理工作时,曾经粗浅意识到数据管理与数据服务的挑战,正在寻求新的数据管理解决方案。行业头部甲方企业在数字化转型、数据能力建设处于行业前列,数据部门本身有很强烈的翻新和摸索志愿,违心尝试更多新的技术计划。
2.DataOps 是实现数据驱动业务的要害基础设施
DataOps 概念一经呈现,就会一直跟数据中台进行比拟。爱剖析认为,数据中台承载了企业实现数字化转型的久远愿景,DataOps 解决了数据驱动业务的理论问题。
2019 年至今,数据中台始终备受诟病,建设预期与理论后果之间的微小落差是大量数据中台我的项目失败的重要起因之一。很多数据中台我的项目需要来自企业决策者,并非技术部门或数据部门,数据中台往往承载了企业决策者实现数字化转型的美妙预期,不过数字化转型并非欲速不达,企业在数字化转型中遇到的挑战也不可能齐全依附技术平台来解决。
数据中台建设尽管呈现很多负面新闻,但继续数年的数据中台建设对整个数据智能市场倒退还是起到了重要推动作用。第一,数据中台在理论企业业务发展中还是施展了价值,数据驱动业务、数据驱动决策的理念深入人心,越来越多的企业决策者和业务人员器重数据的价值,将数据分析作为一项重要工具。第二,“数据对立治理与共享服务”等理念被大量企业的技术部门和数据部门所承受,越来越多的企业用这套理念来建设本身的数据开发与治理能力。
DataOps 的需要少数来自于技术部门或数据部门负责人,解决的是企业发展数据开发管理工作的挑战。当越来越多的业务部门关注数据,基于数据分析来实现业务增长,对企业的技术部门或数据部门而言,最大的挑战是如何基于无限资源,最大化地满足多个业务部门的数据生产需要。
一味地减少人力和估算,并不能从根本上解决这一问题。以某头部互联网公司为例,其数据开发治理团队一度减少到千人规模,但仍然无奈满足各个业务部门提出的数据需要。技术部门的挑战肯定要通过新的数据开发治理服务规范、流程和合作机制来解决,能力满足企业日益增长的数据生产需要。
爱剖析认为,实现数据驱动业务在技术架构翻新的同时,还须要关注数据与业务之间的合作机制、流程和规范翻新,后者是实现数据驱动业务的要害,DataOps 重点在解决这一问题。
3.DataOps 考验厂商的产品架构能力
与数据湖仓引擎、实时计算引擎不同,DataOps 并非技术架构翻新,而是产品架构翻新。性能是 DataOps 我的项目建设的重要指标,但并非最外围指标。大部分 DataOps 建设面临的问题是,如何实现技术、数据和业务的交融,同时满足三方的需要。
第一,利用开发与数据开发交融。以后大部分企业的利用开发与数据开发还是离开,但越来越多利用都是数字化利用,基于数据驱动的利用,数据开发与利用开发出现交融态势,如何在满足 IT 运维、平安等前提下,晋升数据开发的效率是一大挑战,特地是集团型企业少数都有很强的合规要求。
第二,业务深度参加数据开发工作。以后业务和数据之间的合作并不严密,自助式剖析等数据分析工具衰亡,让业务部门具备自助式数据分析和治理的能力,但大部分数据开发工作业务部门仍然没方法深度参加,会导致很多数据开发工作并不能满足业务需要,特地是在当下业务疾速迭代的背景下。
基于上述挑战能够看出,每个甲方企业在落地 DataOps 我的项目时,肯定存在十分大的差异化,但背地要解决的实质问题会十分相似。对于 DataOps 厂商而言,须要从数据开发治理的全局登程,以终为始,在设计产品架构时要思考到企业残缺需要,才可能应答不同 DataOps 我的项目的差异化甲方需要。
- 厂商全景地图
爱剖析基于对甲方企业和典型厂商的调研以及桌面钻研,遴选出在 DataOps 市场中具备成熟解决方案和落地能力的入选厂商。
- 市场剖析与厂商评估
爱剖析对本次 DataOps 我的项目重点钻研的特定市场定义如下。同时,针对参加此次报告的局部代表厂商,爱剖析撰写了厂商能力评估。
4.1 一站式数据开发治理平台
市场定义:
一站式数据开发治理平台,是指针对整个数据加工链路进行数据的监控、治理和运维,实现数据品质继续晋升。
甲方终端用户:
金融、制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT 部门负责人
甲方外围需要:
对甲方而言,外围是建设一套面向未来数据开发的机制,晋升面向业务视角的数据开发能力,而不仅仅是实现数据整合。
过往,甲方更多是将数据整合和治理作为企业的阶段性指标和我的项目来实现,对数据如何利用、如何在业务场景中施展价值关注度有余。在实际过程中,投入大量资源和人力,实现数据整合之后,“取数难”、“用数难”、数据品质低等问题仍然存在,甲方还是无奈施展数据的价值。
因而,甲方真正须要具备的是一套残缺的数据开发治理的能力,蕴含但不限于对立开发治理平台、面向业务需要的开发治理流程与机制等。
1)梳理流程,建设对立的开发管理机制。
在甲方现有流程中,利用开发和数据开发往往是离开进行,但思考到越来越多数字化利用是基于数据驱动这一趋势下,企业须要思考将二者交融。过来建设的数据中台只管肯定水平上可能反对报表、自助式剖析等利用,但本质上仍未能满足撑持整个数据开发管理体系,无奈满足越来越多基于数据驱动的利用需要,特地是以机器学习建模为代表的摸索式利用。
随着企业数字化转型水平加深,数据管理和利用需要越来越迫切,很多甲方成立专门的数据部门解决数据相干的问题,并与 IT 部门和业务部门厘清职责边界,建设起协作关系,数据部门与 IT 部门、业务部门如何进行合作,外部须要达成共识并建设合作机制。
数据开发和治理的建设并非欲速不达,而是一个长期的工程。在理论建设中,既要思考长期方向与指标,与整个公司策略方向相适配,又要设置阶段性指标,让高层和相干部门感触到落地成果。因而,甲方须要明确数据开发和治理的实现门路,并设置阶段性指标。
对于金融等强监管行业,整个机制还须要合乎监管要求。自数据安全法、个保法等法律法规出台以来,监管机构对数据安全审查增强,企业在数据开发和治理过程中要留神合规问题,审慎应用数据,晋升数据治理程度。
2)搭建功能丰富、具备扩展性的开发治理平台。
通过多年信息化和数字化建设,绝大多数甲方曾经具备肯定数据根底,以 MPP、Hadoop 为代表的技术架构,以大数据平台为外围的数据开发和治理工具,因而,一站式数据开发治理平台须要兼容现有的数据基础设施。同时,随着业务的倒退,将来产生越来越多的翻新业务场景,平台须要有充沛的扩展性以应答多元的需要,可能反对各类型业务场景发展。
平台须要围绕整个数据开发治理的需要,提供丰盛的性能,并具备自动化开发能力。企业须要在这一平台上实现所有类型数据的开发和治理,笼罩数据加工全链路的监控、治理、运维等需要,具备对全域数据治理的能力。同时,为应答越来越多且时效性越来越强的开发工作,还须要利用自动化工具晋升效率。
厂商能力要求:
厂商须要具备征询能力和胜利实践经验,能提供成熟的方法论。不仅提供数据平台的产品,还可能基于可复用的成功经验,针对客户的业务需要和外部建设现状领导施行落地;须要具备布局能力,可能设计一套实用于将来几年的框架,帮忙数据部门、IT 部门、业务部门可能达成共识,通过帮忙客户梳理流程,基于数据产品调整组织架构并优化合作形式,提供残缺的咨询服务;此外,还须要为客户提供倡议,帮忙甲方设置实现门路,并制订阶段性指标。
产品须要有较强的架构能力和可扩展性。须要具备解耦能力,采纳模块化形式构建,可能独自拆分功能模块按需提供。在扩展性方面,须要可能适配企业内的其余生态,反对多种接口协议,已封测及对接多种软件或硬件接口调用等形式,可能疾速满足企业将来的翻新利用。
产品须要具备丰盛的性能,可能笼罩数据加工的全流程,包含数据开发、数据治理、数据资产和运维监控等各个方面,可能提供多人可合作的我的项目空间治理,具备继续集成和公布的能力。
入选规范:
1. 合乎一站式数据开发治理平台市场剖析的厂商能力要求;
2. 累计在该市场服务客户数 10 家及以上;
3. 累计在该市场支出 5000 万及以上;
代表厂商评估:
火山引擎
厂商介绍:
北京火山引擎科技有限公司(以下简称“火山引擎”),是字节跳动旗下的云服务平台,将字节跳动疾速倒退过程中积攒的增长办法、技术能力和工具凋谢给内部企业,提供云根底、视频与内容散发、大数据、人工智能、开发与运维等服务,帮忙企业在数字化降级中实现持续增长。
产品服务介绍:
火山引擎数智平台(Volcengine Data Intelligence,英文简称 VeDI),基于字节跳动数据平台多年的“数据驱动”实践经验,会集端到端的数智产品、场景化的行业解决方案和业余的数智转型征询。其中大数据研发治理套件 DataLeap 是一站式大数据研发治理套件解决方案,提供数据集成、开发、运维、治理、资产治理等能力。以独立部署形式,通过数据治理的思维,综合使用数据管理制度、人员组织、技术办法和流程规范等伎俩,帮忙企业对数据资产在可用性、完整性和平安上实现全面无效的治理,赋能企业基于数据驱动下的业务翻新。目前,已服务几百家来自汽车、批发、互联网、金融、文旅等行业的知名企业。
厂商评估:
整体来看,火山引擎基于数智平台和一站式大数据研发治理套件打造的数据驱动治理解决方案,在产品性能、产品架构与理念、落地实践经验、体系机制四方面具备劣势。
1)功能丰富易用,提供一站式数据研发全链路管理。
DataLeap 为企业提供基于 DataOps 麻利研发流程、海量工作秒级调度能力和开源计算引擎的拓展能力,笼罩数据研发与运维、数据治理、数据资产和平安合规等各个方面,赋能业务团队进行数据自治。
具体来说,在全场景数据整合环节,DataLeap 反对 20+ 多源异构数据集成,涵盖常见的业务存储系统,反对全量、增量、实时的数据同步;在全链路的数据研发环节,DataLeap 反对多引擎(批、流、OLAP),麻利开发 CI/C,对开发、测试、公布、运维等研发全链路进行治理;在数据治理环节,DataLeap 汇合了基线监控、数据品质、SLA 治理等能力,提供事先预警、事中解决、预先复盘及举荐优化的性能;在数据资产建设方面,DataLeap 具备数据资产疾速接入及主动构建全链路血统等技术。
2)技术架构先进,交融分布式数据治理理念,可能应答高并发、大批量数据处理需要。
火山引擎创新性提出分布式数据治理的理念,并落地于 DataLeap 产品中。DataLeap 采纳了标准化、组件化的解耦架构,各个模块均可独立应用分布式治理模式,建设周期较短,适配能力强;企业用户不仅能实现各级业务及集体的自驱治理,还能充沛依据业务阶段来制订治理的内容,让数据治理对业务的冲击和影响能够尽可能最小化;业余的治理常识能够积淀下来,实现产品化协同,并联合智能化举荐性能,为企业晋升执行效率。
DataLeap 通过对引擎和架构的优化,晋升了产品性能、扩展性和实时性,以应答业务多样性和复杂度带来的宏大数据处理作业量要求。为满足时效性的需要,火山引擎通过自研的散布式调度零碎,实现了秒级调度能力。同时提供了工作的分级打标机制,通过多种工作资源管制形式,实现资源最正当的调配。还能够依据工作的历史状况,对不合理的工作配置,提出配置优化的告警倡议。
3)数据技术能力均来自于字节跳动外部多年实践经验的积攒与积淀。
VeDI 及 DataLeap 积淀了字节跳动各业务线的数据治理教训和规定,适宜多种类型客户在业务的不同阶段应用。
字节跳动依据外部业务的痛点和需要,从 2014 年开始研发并逐渐迭代出一套可能开掘剖析海量数据、无效赋能业务的数据平台。利用这一平台麻利反对外部今日头条、抖音、西瓜视频、朝夕光年等各大业务线后,对大数据的架构、产品、治理、平安隐衷、组织设计等方面积攒了丰盛实际,开始对外 To B 输入和商业化。目前,火山引擎曾经积淀了残缺的行业 Know-How,可能基于各局部产品组合和调用为客户提供端到端解决方案,并以整体 VeDI 的形式出现。
4)引入 BP 机制,帮忙客户建设体系化的数据治理办法。
火山引擎为客户引入字节成熟的数据 BP 模式,从组织层面配合数据产品实现数据治理落地,切实把握业务的痛点,让数据工具和平台真正用起来。
数据 BP,即“数据业务搭档”,实质是将具备数据业余能力的人才回升至业务线。数据 BP 的职责是在一线配合数据分析师充沛满足数据需要,同时保障数据治理工作的有序落地。心愿在数据治理成绩推动到肯定水平之后,为企业进一步摸索数据赋能业务倒退的办法。
火山引擎还会派专家团队驻场,近距离参加企业的数据治理工作中。对企业的理论状况进行具体问题剖析后,在数据指标治理、业务数据治理、埋点数据治理、数据底座管理体系四大方向上,给出倡议并帮助企业进行体系化建设,为企业跨职能的数据治理实际提供长期稳固抓手。
典型客户:
失去
代表厂商评估:
科杰科技
厂商介绍:
科杰科技是一家数据能力构建商,核心技术团队领有丰盛的头部互联网企业云数据平台搭建及经营教训,致力于将成熟齐备的数据底座产品与多业态简单场景的最佳实际有机交融,为企业提供数据治理、开发开掘、运维一体化的整套计划,助力企业疾速构建数据能力,实现高度规范化、麻利化的数据工作协同与数据利用翻新。现已服务百余家 政府单位及金融、能源、汽车、批发等行业头部企业。
产品服务介绍:
科杰科技外围产品湖仓一体数据智能平台 Keen Data Lakehouse 是基于云原生技术自主研发的数据底座产品,产品设计内置 12 大功能模块,在实现多云资源对立纳管、弹性扩大和灵便调度的根底上,满足数据对立采集、存储、开发、治理和服务的需要,具备高性能高稳定性的个性。其中数据开发治理平台 Keen BDP、数据同步零碎 Keen Dsync、实时计算平台 Keen Stream、数据规范产品 Keen DSM、数据品质产品 Keen DQM、主数据管理平台 Keen MDM、数据资产目录 Keen Asset、数据服务平台 Keen DAAS、数据标签平台 Keen TAG 功能模块与一站式数据开发治理平台间接相干。
厂商评估:
整体来看,科杰科技造成了“当先的大数据技术 + 全域数据资产治理 + 大数据工作方法论”三位一体的解决方案,在产品、技术、行业 Know-How 和咨询服务方面具备劣势。
1)产品性能全,产品架构能力强。
基于过往实际,科杰科技笼罩数据开发治理的全生命周期,产品功能丰富。科杰科技将 DataOps 的实践融入产品设计中,反对 DataOps 继续集成、继续开发、继续经营方法论的最佳实际。科杰产品矩阵笼罩数据集成、数据转换、数据开发、智能工作依赖、智能血统解析、主动积淀数据资产的全生命周期,在贯通全流程工程化能力的同时提供全局对立数据规范、数据品质、主数据管理、元数据管理以及数据安全的全方面数据治理能力,是数据治理与数据工程相交融的增强型大数据平台产品,提供一站式数据源到数据洞察剖析和数据编织能力,为企业数字化转型提供数据底座能力。
科杰科技对重点性能进行产品化、模块化封装,整个平台采取松耦合架构,可能独立交付部署。Keen Data Lakehouse 整体采纳松耦合构造搭建而成,产品具备高度自主性和灵活性。科杰科技针对重点性能进行产品化、模块化封装,每个模块都可能与企业内信息系统进行对接,反对独立交付和部署利用。因而可能面向多业态、简单的业务场景,以乐高式的产品组合形式搭建,反对大型组织全角色精细化业务发展,继续高效地发明高质量、可复用的数据资产。
2)底层技术架构当先,撑持团体企业多源异构数据对立纳管。
Keen Data Lakehouse 采纳了当先的湖仓一体、新一代技术架构。这一架构兼具数据仓库的高性能、强治理能力和数据湖的灵活性,具备批流一体、存算拆散、数据编织、ACID 事务性等特点,买通企业的数据孤岛和数据烟囱,提供一个对立可共享的数据底座。通过将生产过程中大量结构化和非结构化的离线、实时数据抽取到数据仓库,实现多源多态数据汇聚,为后续数据标准化、资产化、平安治理等需要提供了根底条件。
科杰科技通过多模数据对立解决技术,实现企业数据在数据湖和数据仓库之上的无缝调度和治理,防止大数据平台、云数仓、剖析型数据库等现有数据资产的迁徙。既能利用企业已有建设成绩提供包容性撑持,对历史数据、实时数据进行存储、计算和查问,放弃现有业务的连续性;又能以逻辑对立的数据资产和合作形式进行开发,面向未来数据工作放弃开放性,为技术部门与业务部门的高效合作奠定了根底。
3)行业落地经验丰富,对团体企业的数据资产对立治理和高效合作形式有深刻理解。
科杰科技的外围研发成员具备互联网大厂背景和十多年大数据实战经验,曾亲身经历大型企业的大数据部门组建、数据中台我的项目的建设,对于大型企业的团体、分公司、不同业务条线之间数据权限、数据安全、数据应用和存储压力问题理解深刻,可能依据不同企业的组织架构、业务流程等特点,提出适宜的解决方案。
基于多年实践经验,科杰科技总结造成一套规范欠缺的企业级数据底座落地施行流程,联合 Keen Data Lakehouse 产品矩阵,可能大大晋升我的项目施行效率。目前,已在金融、新批发、能源、工业互联网、汽车、通信等行业胜利落地,并打造了具备针对性的多个行业解决方案。
4)具备咨询服务能力,能为企业继续构建大数据能力提供倡议。
科杰科技可能为客户提供后期的数字化咨询服务,依据企业现状给出问题诊断和建设门路,帮忙企业外部的 IT 技术部门、数据部门和业务部门达成共识、明确指标、梳理流程、制订规定,真正实现数据驱动业务、数据驱动治理,推动一站式数据开发治理平台我的项目真正实现落地。
典型客户:
一汽、中石化、永旺、中金公司、银华基金
4.2 麻利数据管道
市场定义:
基于 ETL、ELT、CDC、Kafka 等形式,从多种数据源采集原始数据,通过数据转换,存储至数据湖(数据仓库)中,实现数据集成和标准化。
甲方终端用户:
制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT 部门负责人和业务部门(业务部门 ITBP)
甲方外围需要:
甲方的指标是更加麻利、自动化地搭建数据管道,并对数据管道进行对立治理和编排。
随着数字化转型的深刻和数据生产需要的减少,甲方外部的 IT 环境和数据环境越来越简单,数据集成工具越来越多,彼此难以交融,互相割裂运行,对运维和治理提出了很高的挑战。与此同时,数据管道的重要度越来越高,特地在业务部门对数据分析需要日益增长的趋势之下,越来越多的数据管道建设需要来自于业务部门。
因而,数据管道逐渐从整个大数据平台独立进去,作为一个独立我的项目进行建设、运维和治理。以新生产、新能源为代表的行业,IT 部门规模不大,但业务部门有很强烈的数据分析需要,麻利、轻量、自助式数据管道建设需要日益加强。
1)数据类型和利用场景越来越多,对数据管道建设提出了更高要求。
传统企业面临的数据利用场景也更加多元,如 BI 报表、实时决策、基于机器学习的预测性剖析等;同时,数据体量和多样性也在快速增长,随着物联网利用的落地,时序、GIS、图像、视频、文本等新兴数据类型大规模涌现。因而须要反对离线和在线场景,结构化、半结构化、非结构化等数据类型的数据采集。
2)业务疾速迭代,麻利搭建和自动化运维治理是数据管道建设的必备能力。
企业业务进行数字化转型,产生大量数字化利用,对数据分析、数据利用提出了更高的要求。一方面业务倒退变动快,传统的 ETL 数据抽取、转换和加载工作量繁冗,单这一流程会消耗数周乃至上月工夫,导致业务面临时效性之后,因而须要可能疾速搭建数据管道;另一方面随着管道数量和数据量的迅速减少,数据管道的运维治理压力变大,人工运维的模式无奈应答,须要更多自动化的工具。
厂商能力要求:
厂商须要反对多类型数据源,满足业务场景需要。同时反对离线和实时集成模式,满足 ETL、ETL、CDC、Kafka 等多种技术路线,反对常见的各类型数据源,满足各类型业务零碎之间简单的数据散发、推送、传输和共享公布。
围绕着运维治理监控,厂商须要反对丰盛的工具链和较高的自动化水平。提供组件化的多种类型数据处理工具,反对互相连接组合,以满足数据采集、数据转换、数据存储过程中的各种数据处理需要,并把反复的工作流程嵌入自动化,晋升效率。
产品须要具备易用性。数据管道的应用人群不仅仅是 IT 部门,还有一部分业务部门的 ITBP 角色,因而依据不同应用角色的需要,须要反对通过拖、拉、拽等简略操作形式实现数据集成流程的构建和相干性能。
入选规范:
1. 合乎麻利数据管道市场剖析的厂商能力要求;
2. 累计在该市场服务客户数 10 家及以上;
3. 累计在该市场支出 1000 万及以上。
代表厂商评估:
谷云科技
厂商介绍:
谷云科技(广州)有限责任公司成立于 2017 年,是国内最早一批专一于 iPaaS 混合集成中台研发的产品和技术解决方案提供商。公司专一于数据集成、服务集成、MQ 音讯集成、API 治理畛域,从底层开发框架动手齐全自主研发,并基于对立平台自主研发了全线 RestCloud 系列产品,服务于批发、制作、金融、教育等行业企业客户,以及政府机构等各类组织。
产品服务介绍:
RestCloud 数据集成平台是谷云科技基于 DataOps 理念齐全自主研发和翻新的新一代数据集成平台,平台一站式交融了 ETL、ELT、CDC、API 等能力,可帮忙企业客户疾速搭建批流一体的数据集成底座,实现业务零碎之间的数据集成和多源异构数据的替换和交融。
作为一套面向数据集成的轻量化、标准化产品,RestCloud 数据集成平台采纳全 Web 化配置,开箱即用,可能让用户实现自助式构建数据管道,并具备丰盛的组件,帮忙用户实现开发、测试、公布、监控、告警、运维等一系列工作。同时,联合谷云科技的 API 服务平台,RestCloud 数据集成平台能够帮忙企业疾速构建轻量级数据中台,满足企业对立数据管理和数据共享需要,帮忙 IT 部门实现对业务部门的反对。
厂商评估:
整体来看,谷云科技自主研发的数据集成平台在数据传输性能、任务调度架构、产品易用性和零碎稳定性等方面具备劣势,同时翻新的把 CDC 和 ETL 进了一体化设计,使得实时流数据和批数据能够进行混合解决和合并。
1)技术能力强,笼罩多种技术路线,满足多种场景数据处理要求。
谷云科技的 RestCloud 数据集成平台反对 ETL/ELT 离线数据处理和 CDC 实时数据处理等技术路线,可能满足企业客户离线和实时业务场景的数据处理需要,满足大中小型企业进行数据仓库 / 数据中台构建、客户主数据平台的构建、工业互联网 IoT 设施的数据采集、云上云下 SaaS 数据同步、混合云数据同步等各种简单数据集成利用场景的需要。同时,通过配置 BI 以及 API 数据服务,谷云科技还可构建各种数据利用的翻新场景,满足于企业敏态化数据生产需要。
谷云科技的 RestCloud 数据集成平台可能广泛支持企业的各类数据源和数据类型,岂但具备功能强大的离线数据处理能力,同时具备实时数据传输能力,可能反对蕴含国产数据库在内的 40 多个数据源,以及 Kafka、MQTT 物联网数据、HTTP 等多类型实时数据流接入。
2)产品架构设计能力强,具备标准化、轻量化等特点。
谷云科技将 RestCloud 数据集成平台分为执行层、管理层和调度层反对 10000+ 数据管道的精确调度和执行,平台作为标准化产品,可能按模块进行自在地拆散和组装,大大加强了平台的灵活性和可扩展性。一方面,平台能够疾速接入新的数据源,满足不同场景的数据需要;另一方面,能够依据用户的偏好和现状,自定义配置平台的性能和数据处理组件,平台采纳轻量化架构能够几分钟内实现部署上线并可运行在私有云、公有云以及个人电脑上。
3)产品易用性强,可能满足不同倒退阶段的企业需要。
基于过往实践经验,谷云科技将大量数据集成、数据服务过程中波及的功能模块封装到 RestCloud 数据集成平台中,数据抽取、加载、荡涤、运算、脱敏、行转列、列转行等相干组件超过 100 种。
思考到不同企业用户本身 IT 能力的差别,谷云科技的 RestCloud 平台反对自助式开发设计,反对基于纯 Java 语法的自定义规定和算法,可能通过规定实现简单的自定义业务逻辑解决。因而,用户通过可视化拖、拉、拽形式,实现数据管道的构建并实现数据抽取、转换、荡涤、脱敏、加载等性能。
4)底层技术架构以自研为主,平台零碎稳定性、可用性强。
谷云科技基于微服务架构研发的 RestCloud 数据集成平台,可能反对大规模的分布式部署架构,满足企业用户的云原生利用场景的需要。基于微服务架构对整个平台进行技术解耦,每个功能模块都能够独立运行,使得平台将来具备 SaaS 化的发展潜力。
ETL、ELT、CDC、调度平台、API 开发平台等技术均以自研为主,而不是基于开源技术架构之上做改良和优化,底层技术能力齐全自主可控,晋升了整个平台的稳定性和可控性。
典型客户:
浙商证券、中金财产、三一重工、中建科工、亿纬锂能
4.3 智能数据资产目录
市场定义:
面向业务场景,联合机器学习和常识图谱技术,实现元数据一站式、自动化治理,蕴含数据采集、数据血统、数据规范、数据发现、权限治理、资产监控等。
甲方终端用户:
金融、制作、汽车、消费品批发、能源等行业及政府机关的大数据部门负责人、IT 部门负责人
甲方外围需要:
业务与数据“脱节”是很多甲方以后面临的重要问题之一。一方面,数据开发部门对业务了解无限,导致整个数据开发过程迟缓;另一方面,不同业务之间的数据如何买通和交融,建设对立的数据规范,对数据开发部门来说挑战很大。以政府应急治理为例,数据来自于多个不同的委办局,须要以一套规范、流程和标准来发展工作,实现对安全隐患的排查、监督和治理,背地是对不同业务的数据表单、字段和指标的交融和对立。企
针对以后疾速、多变的数据服务需要,甲方的指标是基于现有数据资产目录根底上减少更多面向业务场景的标签和指标,实现数据部门与业务部门的连贯,并同时具备自动化迭代能力,继续晋升数据开发效率。
1)疾速梳理业务、建设业务认知的方法论。
以业务为核心,解决“数据在哪里”、“数据谁负责”以及数据如何用等问题,辨认出业务主责部门、相干外围业务零碎的外围对象、外围数据,买通查数 / 取数环节、买通根底类数据和指标类数据的分割。这些问题须要有一套方法论,可能帮忙数据开发部门疾速发展工作的规范、流程和标准。
2)兼顾以后和将来需要的可扩大架构。
随着翻新业务倒退,将来会有越来越多业务部门纳入到数字化建设中,数据驱动业务渗透率继续晋升,势必使得数据复杂度继续晋升,如何可能兼顾以后业务需要,并为长期倒退奠定根底,须要一套具备可扩展性的技术架构,能撑持将来的更丰盛的利用需要,实现业务流程和场景智能化的晋升。
厂商能力要求:
厂商须要满足对甲方业务理解能力,可能基于业务视角提供解决方案。基于厂商本身积攒的方法论,疾速从多维度业务视角了解业务表白的含意、关系和趋势,了解业务服务的对象、范畴,厘清数据与业务、业务与业务之间的关系,建设起对业务的认知,从而领导数据汇聚和数据利用。
厂商须要具备较强的技术架构能力,产品满足自动化和扩展性需要。可能通过原生集成和扩大的形式连贯全域数据,并联合机器学习和常识图谱等技术,实现主动编目数据、自动化数据和业务血统,反对数据治理工作,并满足不断丰富的业务场景和数据利用需要。
入选规范:
1. 合乎智能数据资产目录市场剖析的厂商能力要求;
2. 累计在该市场服务客户数 5 家及以上;
3. 累计在该市场支出 1000 万及以上。
代表厂商评估:
爱数
厂商介绍:
上海爱数信息技术股份有限公司(简称“爱数”)成立于 2006 年,是当先的全域数据能力服务商。爱数以全域数据能力、对立架构和平台 + 生态模式,打造翻新的大数据基础设施,通过 AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFabric 等产品笼罩全域数据的整合、治理、爱护,实现数据资产化和知识化,与客户共创数据驱动型组织。依靠本身弱小的大数据基础设施,爱数已服务超 40 个国家、地区的 27000+ 客户。
产品服务介绍:
AnyFabric 是面向全域数据的数据资产治理平台,为企业或政府机构提供的一套智能数据资产治理解决方案。基于畛域认知智能和 Data Fabric 架构思维,通过对元数据的全面采集、深度学习、认知推理剖析,主动关联数据的业务语义,疾速生成数据资产常识网络,实现业务与数据的连贯,业务与业务的连贯,从而实现以业务为核心的数据管理和经营,助力客户实现数据驱动组织,通过认知智能辅助数据管理和业务决策。目前曾经在政府、制作、批发等行业率先落地,曾经积攒了不少胜利落地案例。
厂商评估:
整体来看,爱数基于 Data Fabric 架构研发的 AnyFabric 在数据管理架构、认知智能和凋谢集成能力上具备劣势。
1)以业务为核心设计产品架构,产品功能丰富且贴近业务需要。
AnyFabric 通过业务治理整合数据孤岛,简化数据治理。相较于基于数仓的强管控模型下集中化的数据治理,爱数采纳了以业务为核心编织、连贯所有元数据,通过建设数据资产常识网络来编织和驱动数据的形式。AnyFabric 通过连贯型架构和畛域认知智能作为外围引擎,以业务模型为核心连贯全域数据,利用常识图谱引擎构建数据资产常识网络,造成了增强型数据资产目录。不仅可能赋能企业整合数据孤岛,还能从业务视角登程,自动化、准确领导数据归集、荡涤、开发和加工等,简化数据治理。
AnyFabric 基于业务晋升数据品质,实现数据资产化。AnyFabric 所建设的数据资产常识网络,可能疾速发现业务与业务之间的交融关系,监控业务指标、危险定位,做出问题剖析、价值判断等。在数据筹备环节围绕业务透视企业多个零碎间的简单关系,并实现间接获取业务部门真正须要的原始数据,进步数据品质。基于业务规范并联合畛域认知智能,高效组织和调度数据,发展数据治理,最终无效赋能业务最大化产生价值。
AnyFabric 的业务可扩展性强。爱数采纳业务视角的连贯型架构,并将智能资产目录建设的流程和模板固化到产品中。当企业呈现新的业务时,将依照步骤进行业务梳理和成绩输入,原有的业务语义可能由机器学习主动举荐,并辨认相干的业务对象、业务对象,最终迅速到融入畛域业务知识网络中。后盾通过自动更新,不断丰富业务和数据之间的关系,实现主动迭代和拓展,更好的应答企业的业务扩张。
2)交融常识图谱技术,具备自动化和智能化能力。
爱数在常识图谱畛域已有超过四年的技术积淀,并在多个行业有胜利我的项目落地教训。在原有数据资产目录之上,联合爱数现有常识图谱技术积淀,使得数据资产目录具备自动化和智能化,造成畛域常识网络,并在此基础上实现推理剖析和辅助决策,最终实现业务智能化。
AnyFabric 通过交融机器学习、常识图谱等先进技术,实现自动化的元数据采集、编目数据和数据血统跟踪。通过主动抽取本体和连贯,并辅以人工校核,主动造成单业务知识图谱,将多个单业务知识图谱主动汇聚,连贯生成企业级的业务知识网络,赋能数据服务开发工作。借助自动化、智能化技术升高整个过程中数据编目标复杂性和工作量,帮忙业务和数据管理人员轻松把握数据的转换和流动。
3)对立技术架构,可能与爱数其余产品线交融,可能提供端到端的解决方案。
AnyFabric 沿用了爱数对立的技术栈架构,与 AnyDATA、AnyShare 等爱数产品内置对接,在对立的 ONE 架构上交融部署和深度集成,升高数据管理的运维难度和复杂性,为企业提供全域数据能力和统一的用户体验。
典型客户:
中新天津生态城、郴州市城市大脑、中国中车
- 入选厂商列表