关于大数据:DataOps不是工具而是帮助企业实现数据价值的最佳实践

32次阅读

共计 3873 个字符,预计需要花费 10 分钟才能阅读完成。

2008 年,“大数据”一词在《大数据时代》中被首次提出,距今已有整整 14 个年头。在这 14 年中,许多人亲眼见证了数据的力量,以及目击它如何扭转世界。大部分企业的决策者都明确了一个情理:数据才是企业中最有价值的商品,它能够被人为抉择成就还是毁坏业务。

然而,自风行词“大数据”呈现的 14 年后,如何取得更高质量的数据,以及更智能的数据管理,帮忙企业做出理智和及时的决策,依然是许多企业的“疑难杂症”。每个人的嘴里都在议论数据治理和数据管理,却没有人真正晓得该怎么办。

侥幸的是,一种帮忙企业晋升数据分析品质和效率的方法论正在衰亡,它就是 DataOps。基于 DataOps,企业数据中台能够实现数据利用率最大化,放慢生产周期,及针对后果优化的数据管道。

明天,咱们将开展说说 DataOps,以及为什么它对于每一个想要真正实现数据赋能业务的企业都很重要。

一、DataOps 是什么

DataOps(Data Operations)并不是一个新的概念,依据维基百科的阐明,早在 2014 年就被 IBM(Lenny Liebmann)提出,在 2017 年失去大范畴关注,并在 2018 年正式被纳入 Gartner 的数据管理技术成熟度曲线当中。

往年,中国信通院正式牵头启动了 DataOps 的规范建设工作,以此为根底推动我国大数据产业的多元化倒退,为企业经营决策提供数据反对。

同时需注意的一点,DataOps 不是一个工具或产品,能够了解成一种「方法论,或者最佳实际」,相似软件开发中的「麻利办法」。不能以性能的视角去对待 DataOps,而是以「我应该如何做」的视角来对待此问题。

DataOps 的指标是提供工具、过程以及结构化的形式来应答快速增长的数据,对企业内的数据团队赋能,可能使企业内的数据团队更高效、高质量的实现数据分析,它强调交换、合作、多系统集成以及自动化流程,并配套具备对应的度量形式。

二、DataOps 的涵盖内容

下图为规范的 DataOps 涵盖的内容,次要包含数据技术、数据管道、数据处理 3 个方面,最终为商业用户输入价值。

原图出自:https://www.eckerson.com/arti…

三、数栈 DataOps 实际

从倒退上看,自 2018 年被纳入 Gartner 的数据管理技术成熟度曲线中以来,DataOps 的热度逐年回升;从实际上看,欧美企业对于 DataOps 的摸索和倒退要早于中国,DataOps 在我国仍处于一个从萌芽期到暴发期的要害过渡阶段。

数栈根据多年教训,通过敏锐的嗅觉快人一步开始摸索 DataOps 的实际,总结出 DataOps 的 3 个档次 + 4 个外围能力,助力企业放慢数据洞察的步调,具体分析如下:

1、根底层:多环境(集群)治理

在根底层,数栈反对多环境多集群治理,反对一套对立的平台来对接多套不同规模、不同类型的集群,反对 Cloudera Hadoop、华为 FusionInsight、华为 MRS、星环 Inceptor、Greenplum、GaussDB、MySQL 等各类数据库作为计算引擎,提供对立的开发与利用体验,具备跨云部署以及对跨云 EMR 的兼容能力,面向多云场景提供对立开发、对立管控能力,用户可在不同的集群环境中(同类型引擎)实现代码及相干资源的无缝公布。

2、开发层:数据开发全链路

依照数据开发的根本过程,分为:模型设计、数据开发、部署上线、品质稽核 4 个步骤,日常用户的次要操作均是在这 4 个步骤之中,上面具体论述:

1)模型设计

依照规范的数据中台建设模式,分为「制订规范」、「模型设计」2 大部分。制订规范、模型的在线设计均可在数栈中在线进行,无需线下保护独自的数据规范文档、数据模型文档等内容,一般开发人员实现模型设计后,需提交管理员审核,模型经审核后容许上线 / 变更操作。

模型设计及规范制订可细分为 6 个单元,如下图所示:

其中数仓层级、标准设计、模型元素属于表级别定义,数据词表、词根、码表属于字段级别定义,数栈将 6 个单元以产品化的模式进行梳理、组合,便于企业建设本人的数据治理体系。

3)数据开发

数据开发环节,通过丰盛的工作类型、代码的版本治理、责任人机制等,实现数据开发、数据分析的可继续倒退,具体内容如下:

● 20+ 种丰盛的工作类型

反对离线同步、实时同步、离线计算、实时计算、关系型数据库计算、治理节点、脚本工作等 5 大类,20+ 种不同的工作类型。用户可将企业内的数据采集、加工的各类离线、实时处理过程对立由数栈进行治理,实现一体化的数据开发平台。

● 数据测试

反对上传样本数据,模仿测试,进行数据逻辑验证与测试。

● 代码预查看

提交代码之前进行「预查看」,避免上线后产生问题。

将来数栈将在零碎规定的根底上,反对自定义校验规定,用户可基于数栈裸露的接口进行自定义开发,例如代码 JOIN 次数限度、分区表禁止全表扫描、禁止跨数仓层级拜访等规定,可通过自定义开发 Jar 包的形式进行自定义规定校验。

3)部署上线

用户实现开发后,需将代码从测试环境公布至生产环境,平台需反对疾速的工作公布,将开发 / 测试环节的代码及其依赖资源疾速公布至生产环境。

数栈的部署公布分为两种模式:

● 双我的项目模式

可将一个我的项目中开发的工作公布至另一个我的项目。双我的项目模式能够在代码层和底层数据层面实现很好的隔离性,保障数据安全。

● 导入导出式公布

对于物理环境隔离的场景,可将开发的工作代码、依赖的 UDF 函数、Jar 包等关联资源一起导出为 zip 包,并在生产环境执行一键导入。

除了代码公布外,还反对代码的版本治理、版本比照、疾速回滚能力。数栈能记录每次提交公布的工作代码和运行参数,并标注每个版本的批改内容,帮忙定位代码问题,同时可反对一键版本回滚。

3) 治理层:对立元数据 品质稽核

治理层次要包含对立元数据及品质稽核两块能力:

对立元数据

反对将数栈平台内的各类元数据汇聚、展现、买通、剖析等,包含:元数据根底属性、离线表 / 工作、实时表 / 工作、API、标签、指标等各类元数据。

● 全域血统买通

依据数据在中台内的采集、流转、对外服务等各环节的解决形式,主动建设全平台的血缘关系,基于外围的智能化 SQL 血统解析能力,实现平台内跨利用的血统买通,可视化展现数据的流转影响链路。

● 资产剖析

可反对资产的版本变更记录 / 比照、数据产出剖析、应用剖析、品质剖析等统计内容。

品质稽核

反对对数据进行品质校验,帮忙企业及时发现数据问题。通过事先规定配置、事中规定校验、预先剖析报告的流程化形式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障企业数据品质服务,反对规定配置、工作查问、实时校验等。

4) 要害能力

数栈 DataOps 包含以下四大能力:

对立调度编排

数栈内置散布式调度引擎 Taier,反对百万级别简单依赖调度。调度平台在数栈内为底层通用能力,离线、实时、品质校验、标签、指标等各工作均应用对立的调度能力。

在此基础上,各产品模块之间可进行灵便的相互依赖,例如离线实现数据抽取 + 计算后,主动触发标签工作的计算等场景。

对立监控 / 告警

数栈反对对立的告警通道,不同的产品模块内可能都会应用告警能力,例如离线工作冲破基线、实时工作失败、API 调用失败、品质校验未通过等。针对某个告警通道仅需开发一次,即可再各个产品内应用此告警形式,例如短信、邮件,企业微信、钉钉、电话告警等。

模型设计

数栈在数据安全层面可分为如下几个方面:

● 系统安全

通过服务高可用部署、数据定期备份等策略保障服务平安。登录明码可依照长度、复杂度、强制定期更换等形式反对多种安全策略,明码采纳国密加密传输 + 加密存储。

● 数据安全

底层可集成 LDAP+Ranger+Kerberos 数据安全组件。在 Hadoop 体系内可反对库、表、列、行级数据权限管制。在服务平安方面,可反对行、列权限管制、多种认证形式、国密加密等个性,保障用户数据安全。

● 平安审计

自动记录用户的要害操作行为、数据拜访行为,可由管理员进行用户操作行为审计,排查异样行为。

团队合作

● 责任人机制

每个工作、表、标签、API、指标、告警配置等「资源」均建设责任人机制,当产生异样需配合排查时,可疾速获取相干负责人,便于线下沟通。

● 一键交接

当产生人员变动时,反对一键交接,可批量将以后负责人的全副资源主动替换,便于工作交接。

● 用户组

当开发团队规模较大,须要再次细分时,可依照用户组的形式进行治理,例如按用户组批量增加用户、调配性能权限 / 数据权限、发送告警等场景,无需重复操作。

四、结语

随着工夫的推移,数据的数量、频率、多样性都在减少,在一个万物皆可被度量的时代,数据积攒的速度超过大部分企业跟上其脚步的速度。这也意味着可能帮忙企业实现自动化日常工作,进步数据品质,促成不同团队之间的合作,带来更精确的洞察和剖析,以及助力企业进入麻利、自动化和减速的数据供应链环境的 DataOps,将来将会在企业的数智化变质中,施展不可小觑的作用。

企业实现 DataOps 有赖于一系列宽泛的技术和流程,数栈目前曾经在采集、加工、治理的外围流程上,通过版本控制、团队协同、一键公布、品质稽核、数据安全等能力实际了根本的 DataOps 理念,但仍然有很多方面亟需改善,例如:利用 AI/ML 技术升高人为操作的老本与失误、对研发效力减少更多的的度量指标(Metric),以数据化的形式来掂量研发效力的增减等方面,均须要数栈团队,以及全行业一起致力。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

正文完
 0