关于大数据:当我们在谈论DataOps时我们到底在谈论什么

随同着寰球数字化转型的高速倒退，在云计算、物联网、5G、边缘计算、元宇宙等新技术的驱动下，数据爆炸的时代曾经降临。IDC Global DataSphere 显示，2021 年，寰球数据总量达到了 84.5ZB，预计到 2026 年，寰球结构化与非结构化数据总量将达到 221.2ZB。

此外，在《数字化转型架构：方法论和云原生实际》一书中也提到云原生利用平台的倒退将经验 DevOps—DataOps—AIOps 的演进门路，能够看出在云原生的浪潮下，企业也越来越须要数据。但在面对数据量微小、数据品种繁多、数据急剧增长的窘境时，对企业驾驭数据的能力也提出更高的要求。如果不能对海量数据进行正当有序的组织和治理，非但不能产生数据价值，反而会对企业造成极大的累赘，从某种程度上来说，也是一种“数据劫难”，而这也是 DataOps 始终处于热门话题的起因。在开源 SREWorks 我的项目数据化建设过程中，咱们也始终在思考：DataOps 到底是在做什么？

在探讨 DataOps 之前，咱们先来看下 DevOps。DevOps 是一种软件交付治理的思维，它谋求一种麻利的、标准的、跨团队的软件研发合作状态，力求将一套软件的开发模式，从小作坊状态演变成一条规范的生产流水线。DevOps 在肯定水平上为 DataOps 的倒退奠定了根底，因而，DevOps 是咱们在探讨 DataOps 时绕不开的重要话题。

DataOps 自身也是属于麻利开发领域，相似 DevOps 以较短的开发迭代周期疾速满足各自的需要，同时 DataOps 也须要大量标准化数据工具或组件，依赖团队之间合作，进行数据的开发和剖析。与 DevOps 不同的是 DataOps 次要专一于数据流，因而，通过数据化的办法或方法论来推动企业经营程度的晋升都能够隶属于 DataOps 的领域。

DataOps 是 data operationalization 的缩写，DataOps 不单单指数据技术的工具和平台，更重要的是一套数据全生命周期治理的方法论和思维。基于数据驱动，通过一系列面向流程的工具和平台，将 DataOps 思维进行工程化落地实际，可能将所有零碎的相干数据采集起来，突破数据孤岛，对立建设高效标准的数据模型和数据体系，深度开掘数据价值。

DataOps 的方法论和思维次要是被剖析和数据团队应用，旨在简化数据应用、升高数据分析门槛，进步数据分析品质、缩短数据分析周期。也就是说，数据作为一种大数据时代的“新能源”，自身是须要通过平台化的能力，实现围绕“数据集成、数据开发、数据存储、数据治理以及数据服务”等体系化的数据管理流程。更进一步，基于数据驱动的思维，进行数据分析和数据生产，通过数据赋能，做好各个业务畛域的相干工作，真正解决理论生产过程中遇到的痛点问题，实现数据价值落地的场景化输入。

上面列举一些常见的数据相干的问题，对于想要施行 DataOps 的公司来讲，能够判断一下是否有遇到：

如何确保生产的数据品质？
如何判断生产的数据是否满足业务的需要？
如何判断某个数据型我的项目工程的价值并继续投入？
如何寻找大数据人才？
如何进步数据处理的性能？
大数据计划采纳什么技术栈？
大数据计划的运维稳定性如何保障？
引入了多个大数据计划，如何对立进行治理？
大数据的数据权限如何治理？
数据分析后果如何领导最终的决策？

下面常见的问题，能够归为三大场景：数据管理、数据运维和数据应用。通常施行数据化的公司都是在初期尝到了一些数据带来的苦头，然而在继续投入之后，却又发现这块的收益产出仿佛带有很大的不确定性：数据表逐步地被芜杂的数据堆满，数据产出链路经常提早，而通过数据分析进行决策仿佛也没像之前那么无效了。

简而言之，以后数据质变大，数据工程变简单之后，如果没有标准的体系和流程，整体的协作关系又容易变回小作坊状态，存在诸如数据计算口径不对立、数据反复建设以及数据品质不低等问题，须要寻求一些标准化、规范化、体系化、工程化的形式来进行解决。

正如前文所说，DataOps 自身是一套残缺的数据体系建设的方法论，其指标是可能让数据继续用起来，实现“数据集成、数据开发、数据存储、数据治理以及数据服务”等数据管理能力。这也意味着须要依赖泛滥的数据技术或数据组件来建设和经营 DataOps 数据平台，进而造成高效牢靠的数据资产化体系和数据服务化能力，也即针对 Data 的数据运维。

数据集成是构建企业级 DataOps 数据平台的第一步，依赖企业外部的跨部门合作，可能将不同起源的数据（不同的业务零碎）以及不同类型的数据（结构化、半结构化、非结构化、离线以及实时数据等）进行整合，实现互联互通。从源头上防止数据的反复造轮和资源节约问题，为构建规范化的数据体系、积淀数据资产以及开掘数据价值作筹备。

数据集成个别是通过数据引入形式，将一个零碎的数据按时按量集成到另一个零碎中。通常采纳 ELT(Extract-Load-Transform，提取 - 加载 - 转换) 的模式，重点在于数据汇聚，行将数据提取后间接加载到指标端存储中，这个阶段个别不做或者只做简略的数据荡涤和数据处理。业界优良的数据集成工具包含像 Sqoop、DataX、Kettle、Canal 以及 StreamSets 等。

数据开发的指标是可能将数据集成阶段的原始数据，依照业务的需要进行加工解决、将原始的低业务价值的数据转换成高业务价值的数据资产，也就是说数据开发阶段是实现数据资产化的外围技术手段。

数据开发作为数据加工解决的外围阶段，通常会采纳 ETL(Extract-Transform-Load，提取 - 转换 - 加载) 的模式 并集成一系列的数据开发管控流程和工具，不便数据开发人员对 ETL 工作的编写、构建、公布、运维以及工作资源管控等，晋升效率。通常数据开发次要分成离线数据开发和实时数据开发两大场景。

离线数据开发次要用于离线数据的批量定时加工解决，离线数据开发须要蕴含离线计算引擎、作业开发、任务调度、数据管控以及运维监控等外围能力，理论应用过程中，相干的离线 ETL 工作会依照事后设定的加工逻辑和 ETL 之间的拓扑依赖关系，进行调度执行。常见的离线解决框架包含 MapReduce、Hive 以及 Spark 等。在阿里巴巴外部也早已造成体系的 MaxCompute 通用大数据开发套件，疾速解决用户的海量数据离线计算问题，无效升高企业老本并保障数据安全等。

实时数据开发次要波及对实时流式数据的加工解决，满足像监控告警、数据大屏等对实时性要求较高的场景。在实时计算场景下，业务零碎每产生一条数据，都会通过消息中间件（比方 Kafka）被实时发送到流式解决平台进行加工解决，不再依赖调度引擎。常见的流式解决框架包含 Storm、Spark Streaming 以及 Flink 等。在阿里巴巴外部也基于 Apache Flink 构建了一站式的实时大数据分析平台，提供端到端的亚秒级实时数据加工解决剖析能力。

有了数据集成和数据开发的能力，下一阶段就是思考如何进行数据存储和数据组织，其外围是标准规范的数据仓库和数据模型建设，也就是说数据仓库是实现数据资产化的出现载体。

目前用的最多的数据建模形式是维度建模，典型代表有阿里巴巴建设的“OneData”数据建模体系，次要包含数据标准定义、数据模型设计以及 ETL 开发标准三局部。

数据标准定义：数据主题域、业务过程、指标标准、名词定义以及工夫周期等命名标准。

数据模型设计：模型档次划分(分成数据引入层 ODS、数据公共层 CDM 以及数据应用层 ADS 三层，其中 CDM 层又包含明细数据层 DWD、汇总数据层 DWS 和维度数据层 DIM)、模型设计准则、模型命名标准、模型生命周期治理以及数据品质标准等。

ETL 开发标准：数据处理作业的研发流程、编码标准以及公布运维准则等。

数据仓库施行工作流（起源：《大数据之路》）

数据仓库建设工程链路（离线链路 + 实时链路）

数据治理次要是对数据资产，配置数据管理策略，次要包含数据规范、数据品质、数据老本以及数据安全等内容。通过多维度进行量化评估，针对数据建设提出改良与优化倡议，确保数据品质、规范、平安、易用。它蕴含以下性能：

数据标准化治理：负责数据仓库中数据的表白、格局以及定义的规范性，包含模型标准、数仓元数据标准、名词术语标准、指标标准等进行治理，针对未标准化的内容提出改良倡议。
数据老本：次要从存储量和拜访状况等积淀相干治理项，比方：空表、有效表（未关联 ETL 工作表）、长期未拜访表、长周期表、大数据量表等，通过对治理项的运作，提出优化倡议，推动数据开发人员进行老本治理。
数据品质：围绕数据的完整性、准确性、一致性、有效性和及时性五个维度并对数据的重要性进行资产等级划分，对品质保障既包含事先保障，比方数据开发流程、数据规范执行等，又有事中保障，比方 DQC 的数据品质实时监控和告警，还有预先保障，比方数据品质故障复盘，确定品质问题根因等。
数据安全：评估数据安全危险，对数据设定安全等级，包含反对平安认证和权限治理、资源隔离、数据加密、数据脱敏等，保障数据安全可靠的被传输、存储和应用。

数据服务旨在提供对立的数据生产服务总线，可能将数据资产生成 API 服务，其指标是把数据服务化，让数据可能疾速集成到业务场景当中，施展数据平台的价值。它蕴含以下次要性能：

异构跨库查问：如果数据分布在多个异构数据库时，用户无奈简略的实现数据关联查问，通过数据查问服务，能够缩小数据同步作业，间接实现从多个源数据库加载数据与实现查问的能力。
数据 API 定义与治理：部份罕用的数据点查或统计分析，可通过定义数据集与 API 名称，并最终裸露为一个 HTTP 资源门路的形式，并对数据 API 进行公布和拜访受权，不便在各类脚本或代码中应用数据。
数据缓存：对于罕用的数据查问，可定义缓存与更新策略，来缩小数据查问穿透到数据库，进步性能并升高对数据库的性能负载。
服务编排：依照业务逻辑，以串行、并行和分支等构造编排多个 API 及函数服务为工作流。

有了标准化的数据体系当前，针对数据进行剖析和应用又是 DataOps 所关怀的另一个维度的问题，这也是数据驱动的关键环节，也即以数据为核心进行决策，驱动业务行为。数据分析人员利用各种数据统计分析办法和智能算法，通过数据平台提供的数据服务 API，对相干数据进行多维度、深层次的剖析开掘，撑持业务相干的数据利用场景，继续让数据用起来，真正施展数据平台的业务价值。

不同的业务有各自的利用场景，所以这一部分很难八面玲珑。本文仅简略介绍几种常见的数据利用场景，心愿能帮忙大家更好的了解，如何基于数据平台的数据资产和数据服务，进行数据分析和应用。

数据大屏：通过对数据进行剖析计算，借助 BI 类软件，联合业务需要，以图表等模式，把一些要害的汇总性数据展现进去，实现数据可视化，为业务决策提供精确牢靠的数据反对。

智能场景：属于 AIOps 领域，基于数据平台的数据，通过 AI 算法，从数据中进行提炼、开掘、洞察，为业务基于数据进行决策和运维经营时提供智能能力，取得更有前瞻性的数据反对。比拟典型的智能利用场景包含像智能举荐、智能客服、智能预测以及衰弱治理等等。

当然，数据分析也并不是数据的起点，因为随着数据的积淀，业务规模的扩充，很多数据分析的后果也可能会作为另一个更高维度模型的数据输出，被纳入数据平台的数据资产当中。因而，数据分析和开发人员须要从一个更高的维度和视角，整合海量的数据 – 这也就意味着数据处理的链路不是变化无穷的，是在一直随着业务成长的，数据模型也是在一直演进的。

总的来说，DataOps 作为一种数据管理形式，利用 DevOps 方法论对数据的全生命周期进行治理，通过数据平台把数据变成一种服务能力，进而晋升数据的应用效率，实现数据继续用起来的指标。以数据平台为承载，以数据场景为驱动，反对更大的翻新空间和更优良的业务模式。

SREWorks 云原生数智运维平台，积淀了阿里大数据运维团队近十年经外部业务锻炼的 SRE 数智化工程实际，蕴含 DataOps 在运维畛域的最佳实际，欢送体验。咱们旨在秉承“数据化、智能化”运维思维，帮忙更多的从业者采纳“数智”思维做好运维。

参考资料

https://www.synopsys.com/blog…

https://zhuanlan.zhihu.com/p/…

http://www.uml.org.cn/bigdata…

https://en.wikipedia.org/wiki…

https://www.tamr.com/blog/fro…

关于大数据:当我们在谈论DataOps时我们到底在谈论什么

1. DataOps 到底是什么？

2. DataOps 可能解决哪些问题？

3. 如何进行 DataOps 实际？

数据集成

数据开发

数据存储

数据治理

数据服务

数据利用

4. 总结