关于数据:数据的敏捷制造DataWorks一站式数据开发治理范式演进

127次阅读

共计 2666 个字符,预计需要花费 7 分钟才能阅读完成。

简介:企业大数据技术倒退至今,历经了两次变质。第一次变质从最后的“小作坊”解决大数据问题,到起初企业用各类大数据技术搭建起属于本人的“大平台”,通过平台化的能力实现数据生产力的降级。第二次变质让大数据从“大平台”向“麻利制作”的开发范式演进。在 2021 阿里云峰会上,阿里巴巴团体副总裁、阿里云智能计算平台事业部高级研究员贾扬清公布基于 DataWorks 的一站式大数据开发治理的平台,就是这个变质最好的佐证。

企业大数据技术倒退至今,历经了两次变质。第一次变质从最后的“小作坊”解决大数据问题,到起初企业用各类大数据技术搭建起属于本人的“大平台”,通过平台化的能力实现数据生产力的降级。

第二次变质让大数据从“大平台”向“麻利制作”的开发范式演进。在 2021 阿里云峰会上,阿里巴巴团体副总裁、阿里云智能计算平台事业部高级研究员贾扬清公布基于 DataWorks 的一站式大数据开发治理的平台,就是这个变质最好的佐证。

值得一提的是,诞生于 2009 年阿里巴巴团体外部的 DataWorks,不仅见证了阿里巴巴十多年大数据几次变质倒退,更是阿里巴巴数据中台建设的最佳实际之一。现在 DataWorks 平台能够撑持阿里巴巴外部上百个业务团队的数据业务建设,每天稳固调度上千万数据处理工作。阿里巴巴每天有超过 5 万名员工在 DataWorks 上实现数据分析、数据开发和数据治理工作。

那么,DataWorks 如何让大数据向“麻利制作”演进,背地具备什么样的外围能力?在全链路数据服务—大数据与 AI 分论坛,DataWorks 产品负责人黄博远走漏了 DataWorks 外围的三个“ONE”能力。

简略来讲,DataWorks 以一站式的理念,通过一条数据开发链路,一套数据规范架构,一套数据治理体系,与大数据计算引擎联合,让企业领有一站式的数据开发与治理能力。

1、一条数据开发链路

很多的企业倒退到肯定阶段当前都会面临这种状况:
1)数据来自于不同地区的数据中心,比方阿里云上有公共云、专有云,对于企业来讲也有本人的私域,同时又要服务企业内部的客户与合作伙伴,数据十分扩散。

2)大数据的引擎百花齐放,抉择多样。不论是阿里自研的 SaaS 模式云数据仓库 MaxCompute、交互式剖析 Hologres 和剖析型数据库 AnalyticDB,还是开源的 EMR、CDH、Flink、Elasticsearch 等等,品种极为丰盛,咱们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。

3)数据与 AI 及利用如何更好地联合?大数据加工解决完的数据还须要联合 AI 算法,以服务化的形式给到数据利用,如何实现 BI 与 AI 一体化,开释数据价值。

针对以上痛点,DataWorks 能够帮忙企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期治理整合到一条残缺链路中。

首先满足企业在简单网络条件下,DataWorks 实现近 50 种异构数据源的离线 / 实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了 MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算 Flink 版等大数据引擎,让多种计算引擎的数据开发治理工作都能够在同一个平台一站式的实现。最初,大数据平台加工好的数据集能够无缝对接到机器学习平台中进行 AI 训练与在线预测服务,也能够通过数据服务以 API 形式给到 BI、大屏等各类数据利用。

2、一套数据规范架构

对于企业而言,数据绝不是简略地沉积在一起,阿里巴巴通过数据中台建设,标准了团体对立的数据规范架构,将数据进行清晰的构造分层,每一层又有明确的范畴与边界。在贴源层,企业将实现全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据规范、数据建模等形式确立数据的标准体系。在汇总层,企业将基于业务需要对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务利用构建数据集市,为利用提供源源不断的高质量数据服务。这一套架构自身不具备产品化能力,但企业能够基于 DataWorks,疾速复制这套数据规范架构。

3、一套数据治理体系

企业如何治理数据资产?如何保障数据品质?如何保障数据安全?如何无效地管制老本以及缩小不必要节约?这些问题都对数据治理提出了更高的要求。失常来讲,各类数据治理工作通过人工的形式其实也可能实现,然而阿里巴巴当初每天解决的数据超过 1.7EB,每天调度的工作数在千万级,很难设想靠人工来实现所有的治理工作。DataWorks 将阿里巴巴十多年数据治理的实际积淀成产品化能力,残缺笼罩模型设计、数据品质治理、元数据管理、平安治理等贯通数据加工解决和应用的全链路所需的治理能力。一个平台,就具备一套残缺的体系化的能力。

在分论坛现场,DataWorks 全新公布数据建模产品,让企业从业务视角进行数仓布局、数据规范定义、维度建模和数据指标设计,用规范化的“图纸”领导大数据“建设”工作,晋升企业数据中台建设的规范性和规范性,大大降低企业数据中台建设门槛和老本。同时 DataWorks 将继续加大与生态搭档单干,推出具备不同行业属性和不同建模办法的数据建模类产品,以撑持不同行业不同场景的数仓模型设计。DataWorks 数据建模产品将于 2021 年 7 月开启公测,届时欢送大家在阿里云官网搜寻“DataWorks”开明体验。

除了数据建模外,DataWorks 笼罩了数据同步、元数据、数据资产、数据品质、数据地图、工作运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。

事实上,DataWorks 曾经利用到各行各业的数字化转型中。在工业行业,DataWorks 帮忙三一重工买通 86 个外围业务零碎,解决每月 50PB 的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks 帮忙企业建设 10 余种数据中台经营标准,实现四大场景 50+ 指标产出,标准数据治理流程,晋升数据可用率。在钢铁行业,DataWorks 让数据在数据中台进行自在流动,保证数据精确、准时、统一,让企业综合老本削减 1 亿元。在互联网行业,得物 APP 通过 DataWorks OpenAPI 构建全链路数据血统,自主研发全链路解析能力,下线 2 万张表与近千个计算工作,让企业老本升高 20%。

将来企业的数字化转型将对数据的治理与剖析提出更高的要求,DataWorks 将帮忙企业疾速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“麻利制作”成为企业数字化的“麻利转型”。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0