关于阿里云:治理企业数据悬河阿里云DataWorks全链路数据治理新品发布

简介：10 月 19 日，在 2021 年云栖大会上，阿里云重磅公布 DataWorks 全链路数据治理产品体系，基于数据仓库，数据湖、湖仓一体等多种大数据架构，DataWorks 帮忙企业治理外部一直上涨的“数据悬河”，开释企业的数据生产力。

阿里巴巴团体副总裁阿里云智能计算平台事业部高级研究员贾扬清现场分享

“当数据量变得越来越大，单位数据的价值会变得越来越小，全链路数据治理让数据从低质低效向高质高效流动。”

阿里巴巴团体副总裁，阿里云智能计算平台事业部高级研究员贾扬清在现场示意。黄河泥沙的淤积使河床一直贬低，造成了河高于地立体的“地上悬河”，在河南开封，最高的悬河达到 10 米，并且河床每年都会以 10 厘米的速度增高，而随之而来的，两边的堤坝也在一直地增高。在企业的数字化转型中，数据量变得越来越大，机器变得越来越多，团队变得越来越大，数字化转型真的变得越来越好吗？对于企业来说，表象的凋敝不代表将来不会产生一场“洪水”。在阿里巴巴，双 11 曾经成为了日常，2021 年大数据计算服务 MaxCompute 的日常数据处理的水位线曾经超过 2020 年双 11 的峰值，一直增长的数据量曾经造成了极大的老本与效率的压力。

面对每年如此收缩的数据，阿里巴巴的解法是通过大数据 +AI 一体化平台的能力，让数据效率成为企业的外围指标。在机器的效率层面，MaxCompute 作为离线数仓，单日数据处理量曾经达到 1.7EB，然而除了数据量，更应该关注的是 MaxCompute 仅用 10% 的机器增长，就撑持了 75% 的数据量增长。这外面是 MaxCompute 在底层的存储和性能一直地谋求极致的优化，并且间断 5 年突破 TPCx-BigBench 100TB 规模性能世界记录。同时 Hologres 作为实时数仓，峰值每秒写入 5.96 亿条，单表存储高达 2.5PB，基于万亿级数据对外提供多维分析和服务，99.99% 的查问能够在 80ms 以内返回后果。Hologres 与 MaxCompute 组成离线、实时、剖析、服务一体化的数据仓库，从底层就极大地简化了大数据架构的复杂度。机器层面的效率往往容易被掂量，然而人的效率却很难被量化。DataWorks 从 2009 年开始成为阿里巴巴团体对立的大数据开发治理平台，实现阿里巴巴数据中台的搭建。对一个平台的欠缺性与易用性，用户往往会用脚投票。目前在 DataWorks 上构建的大规模协同数据中台的每日沉闷用户数曾经超过 5 万，均匀每 3 个阿里巴巴员工就有 1 个在应用 DataWorks，服务阿里巴巴外部简直所有部门，积淀的全链路数据治理外围能力超过数百项。FY2020，阿里巴巴通过数据治理的综合收益超过 10 亿元，能够说大数据开发治理平台 DataWorks 与计算引擎 MaxCompute、Hologres 组成了大数据架构下的“Wintel 联盟”，共同提高企业数据的效率。

数据治理也好、数据中台也好，素来也不是一个从象牙塔里想进去的产品，而是通过很多年磨进去的。阿里巴巴的数字化转型也经验过刀耕火种的年代，每个业务团队保护多套 Hadoop 集群，像一个个小作坊：有什么用什么，须要什么加什么，各种技术组件像搭积木一样逐步堆砌起来。而在这个过程中，常常会十分苦楚，平台公布了一个新的性能，不晓得什么起因把另一个组件搞挂了，而后技术人员花很长时间去排查另一个组件有什么问题，修复了一个组件，公布了一下，又把另一个搞挂了，问题一直冒出就像“按下葫芦浮起瓢”，如同永远没有止境。于是，阿里巴巴开始轰轰烈烈的平台对立打算，搭建起了大平台，把开源的架构改成自研的架构，数据逐步都迁徙到 MaxCompute 上。这个时候数据中台的概念也开始在团体内推广，逐步将 3 个 ONE 的数据中台方法论落地到 DataWorks，实现了阿里巴巴整个数据中台的搭建。至此，从外围的电商天猫淘宝，到饿了么、优酷、盒马等各个业务团队都在同一套大平台上进行一站式的协同数据开发。然而随着大平台的遍及，应用的人数越来越多，数据的治理也会越变得更加简单。在一直产生成千上万张表中，企业无奈晓得有多少条不标准的语句像白蚁一样正在耗费大量的计算资源；有多少张表正在反复地被复制，制作表象的“数据凋敝”；有多少脏数据在一直生产净化数据的品质；有多少张表正在被一直申请权限应用，面临数据安全的危险。这些问题都对大平台提出了严厉的挑战。于是，大平台逐步往麻利制作一直演进，通过全链路的数据治理能力，以全局的视角进行管控，并同时实现数据的决策的下放。

2021 云栖大会全链路数据治理峰会，DataWorks 在十二年积攒的数百项数据开发治理能力之上，重磅公布全链路数据治理系列新品。

数据治理核心

数据治理对于企业的大数据团队，不单是一个技术问题，更是组织和治理问题。对于整个组织来说，如何来掂量数据治理最终的成果？如何更好地施展组织的主动性？在一些企业当中，会成立了专门的数据委员会，制订一些数据治理的标准，然而发现平台并不能很好地反对这些标准，又或者说企业购买了一个数据平台，然而却不晓得如何通过平台来实现数据治理的工作。在阿里巴巴外部常常会参考一个衰弱分的概念，从组织设计上，数据委员会上面有平台团队，业务团队，以及风控、财务等协同团队。那对于某个业务团队来说，会制订一个往年的指标比如说把衰弱分从 80 分晋升为 90 分，从计算、存储等方面动手，不单从业务侧、生产侧发展治理优化工作，有需要也会提给数据平台团队，对引擎和数据平台产品进行优化演进，大家一起朝这个指标致力。组织有了可测量的形式，这些部门就能够把这些数字放到本人的指标里去。同时各类的数据治理战斗，各个团队的比武等等长效的经营工作，也能够通过衰弱分做一直地延展，达到组织数据协同的目标，施展数据治理组织的主动性。

DataWorks 全新公布的数据治理核心，针对企业计算、存储、研发、品质、平安五个方面造成企业数据治理衰弱分，以问题驱动的理念，笼罩事先、事中、预先的全链路主动式数据治理和数据治理衰弱度评估。企业的数据治理不再一个“阶段性我的项目”，而是一个“可继续的经营我的项目”。

智能数据建模

企业建了一个平台，做了很多标准治理，对于业务人员的价值到底是什么？省了多少老本，治理了多少问题，对于业务人员绝对是无感的。业务方只心愿更快地拿到想要的数据，于是原先的数据仓库建设形式更多的是自底向上小步快跑，疾速满足需要为先。而现在的全链路数据治理，让数据仓库的建设向规范化，可继续倒退方向演进，强调面向业务视角自顶向下进行标准建模与面向开发视角自底向上构建数仓并行不悖。

DataWorks 全新公布智能数据建模，积淀阿里巴巴数据中台建设方法论，从数仓布局、数据规范、维度建模、数据指标四个方面，以业务视角对业务的数据业务进行诠释。智能数据建模反对疾速数据建模，蕴含正向建模与逆向建模，提供分钟级的模型创立能力。同时买通数据开发，能够间接将数据模型公布到多个引擎，一键生成品质规定，间接公布表并主动生成 ETL 简代码。企业的业务人员能够不便地理解数据全貌，疾速获取所需的数据指标以及基于数据模型进行数据分析和探查，企业内所有的员⼯能够实现“数同⽂”的疾速了解与流通，让数据决策能够实现真正无效的下放！

盒马鲜生通过 DataWorks 智能数据建模落地新批发行业数据模型 Rex-LDM

同时，现场还公布了 DataWorks 数据集成实时同步能力、智能数据查问、隐衷平安计算、DataWorks 开放平台、数据作业迁云工具与迁云专家服务等多项性能。

中国信通院在 2021 年 9 月公布的《寰球数字经济白皮书》报道，去年我国的数字经济规模曾经达到 5.4 万亿美元，占比 GDP 近 1 /3。在数字经济时代，数据曾经成为要害生产因素，就像在农业经济时代和工业经济时代中，土地、劳动力是要害的生产因素。DataWorks 通过智能数据建模、全域数据集成、高效数据生产、被动数据管理、全面数据安全、疾速数据服务六大全链路数据治理的能力，承载千行百业数字化转型的可能。目前，DataWorks 曾经在数字政府、新金融、新批发、能源、工业、交通、游戏、教育、数字营销等行业落地数千家客户。

国家电网大数据中心通过 DataWorks 实现总部 +27 家省（市）公司 PB 级数据的对立治理，通过全链路数据中台的治理与监测经营体系，放慢电网整体数字化转型降级。

创梦天地基于开源的 EMR 引擎，用 DataWorks 替换自研调度零碎，企业外部的技术人员能够更加专一业务，助力游戏行业的数据化经营。

亿滋中国通过 DataWorks 智能数据建模进行全链路的数据模型治理，极大晋升数据中台的自服务能⼒，让企业数据决策实现下放，开释新批发的数字化力量。

企业数字化转型正在进入的深水区，“数据悬河”将逐步成为企业的“达摩克斯之剑”，阿里云正在与各行各业的客户与合作伙伴一起，通过全链路数据治理，管得好数据、用得好数据，让数据向先进生产力会聚！

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于阿里云:治理企业数据悬河阿里云DataWorks全链路数据治理新品发布

机器的效率 + 人的效率 = 数据的效率

建设教训：从小作坊到大平台到麻利制作

DataWorks 全链路数据治理新品公布