关于存储:阿里数据中台底座的12年建设实践

44次阅读

共计 5552 个字符,预计需要花费 14 分钟才能阅读完成。

简介: 在当下热火朝天的金融行业中台建设浪潮中,不少金融机构对于中台建设仍存诸多迷思,中台建设将走向何方?数据资产到底该如何治理?阿里巴巴的中台建设之路应该能为金融机构带来借鉴。日前,在阿里云举办的 2021 阿里云金融数据智能峰会上,阿里云智能计算平台事业部研究员关涛对阿里巴巴如何构建数据中台外围三要素中的平台技术局部进行了全盘分享,其中包含数据平台倒退的四个典型阶段,反对中台业务的四大技术挑战,以及数据平台的四大技术趋势等。

文 / 阿里云智能计算平台事业部研究员 关涛

阿里巴巴数据平台倒退的四大阶段

构建数据中台,一个弱小的数据平台作为底座必不可少。阿里巴巴数据平台倒退的四个阶段,肯定水平上其实也是阿里巴巴数据中台倒退的四个阶段。这四个阶段里,你能够看到阿里巴巴对本身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计算数据资产化和数据高效利用的新思路以及对数据平台治理过程中面临的组织变革等。

阶段一:业务百花齐放,发现数据价值

2009 年到 2012 年,阿里巴巴电商业务进入暴发期,涌现出十分多有名的业务团队,比方淘宝、1688、AliExpresss、一淘等。每个业务都是基于数据驱动的全场景业务,业务方对数据有着强烈的诉求。那个时候,阿里巴巴技术简直都是 IOE 架构,外围数据系统是 Oracle。2 年工夫内,阿里巴巴建成了全亚洲最大的 Oracle 集群。然而在 2010 年,Oracle 曾经不能满足计算的要求,有十分多数据提早和不满足性,再加上低廉的老本,没方法持续撑持业务倒退。阿里巴巴开始认真扫视建设下一代数据平台的重要性,同时启动了两个并行我的项目:一个是“云梯 1”,基于开源 Hadoop 技术体系,多个业务团队构建多个 Hadoop 集群,集群规模达到 4000 台服务器。一个是“云梯 2”(ODPS,现 MaxCompute),作为阿里巴巴自研产品启动研发,集群规模 1200 台左右。蚂蚁小微贷款“牧羊犬”业务是第一个吃螃蟹的业务,上线“云梯 2”的过程被称为“人肉云计算”与“分步试计算”。王坚院士 2018 年曾在央视《朗读者》节目朗诵《进入空气稀薄地带》,形容的就是自研数据平台那时的现状与信念。两个我的项目在阿里巴巴外部造成竞合状态,并行摸索阿里巴巴数据平台倒退的轨迹。这个期间,所有业务方的数据简直都是垂直建设,以本人业务状态造成独立小闭环的模式飞快向前奔跑。

阶段二:业务垂直小闭环,数据孤岛浮现 

2012 年到 2015 年,阿里巴巴电商业务在飞速发展的同时,涌现出更多的新兴业务:2013 年,创建菜鸟,启动“all-in 无线”策略;2014 年,投资高德,与银泰合资,阿里旅行成立;2015 年,推出钉钉 / 批发通、成立口碑、控股阿里衰弱等等。这个期间,阿里巴巴业务蓬勃发展,造成了 12 个业务部门和 9 套不同的平台零碎,而且每套平台零碎架构都不一样,用户数字化流程须要横跨多个 BU 的多套数据系统。数据孤岛景象开始日益严重,数据老本越来越高,对立的数据平台建设曾经火烧眉毛,这也是阿里巴巴数据中台的终点。与此同时,“云梯 1”和“云梯 2”也正在经验大改革。2013 年 3 月 28 日,阿里巴巴团体技术保障部架构师云铮的邮件中转团体高层:“依照数据增量与将来业务增长的状况,云梯 1 和云梯 2 两套零碎的存储和计算能力将在往年 6 月 21 日达到瓶颈。”届时,许多的业务将因为技术的限度而无奈开展。这意味着,数据平台曾经无奈再同时并行“云梯 1”与“云梯 2”两个我的项目,必须抉择其中 1 个。如果抉择“云梯 1”,Hadoop 的 5000 节点限度如何冲破?波及到金融业务,开源体系如何保障大数据的平安与可用性?跨机房计划业界无参考如何解决?业务交互频繁,跨机房如何保证数据稳固交互?一系列的技术难题都逐步将数据平台推向自研路线。最终,阿里巴巴团体多个技术部门合璧,决定抉择“云梯 2”挑战 5K 巅峰。短短几个月工夫,“云梯 2”从 1500 台跨入 5000 台并冲破单物理机房限度,通过 10 倍压力测试,同时反对跨集群计算与高可用,为阿里巴巴将来多年的大数据倒退奠定了松软的技术根底。5K 我的项目实现技术冲破后,新的压力接踵而来。业务疾速倒退导致数据规模也急剧收缩,如何对立治理数据、对立保障数据安全、具备对立凋谢能力等问题成为数据平台思考的外围。为此,阿里巴巴外部启动了一个比拟有名的我的项目,将所有业务部门数据都同步到对立的大数据平台,对立进行治理。这个我的项目经验了两年,波及阿里巴巴所有事业部,这个过程中,还逐步推动通用数据平台能力产品化并具备金融级平台的能力。从过后来看,阿里巴巴建设数据平台的过程是全面对立数据的过程,也是中国第一个超大规模数据中台建设和迁徙的过程。

阶段三:数据中台撑持业务可继续倒退

2015 年到 2018 年,阿里巴巴数据中台方法论开始确立,拉开了数据中台建设的大幕。2015 年,阿里巴巴团体发表启动“中台策略”后,开始构建合乎 DT 时代的更灵便的“大中台,小前台”组织机制和业务机制。阿里巴巴每个经营小二都能够基于数据制订笼罩用户生命周期的数据化经营策略,生意顾问开始摸索数据业务化,更多的业务开始走向实时化。然而,数据和计算的高速增长、资源的高速耗费带来了数据须要治理的问题。阿里巴巴的团队们开始思考怎么把数据中台的方法论落实到平台层,让数据平台撑持数据中台的建设。

数据是谁的? 谁来用? 谁来管控?数据品质由谁负责?· 平台团队和业务团队是两个团队,老本关系是什么?· 中台方法论,如何落地在数据平台落地?如何治理?· 数字增长很快,超过业务增长,怎么办?· 一张外围表 12PB,每个部门复制 1 份,一年几千万就没了怎么办?· 我晓得要删除一半的数据,但到底是哪一半?

这些问题的背地是数据的治理以及资产化,咱们须要一套平台零碎把方法论承载进来,真正造成统一化。在数据平台侧,DataWorks 构建大规模协同数据开发与治理的一站式能力,MaxCompute 反对服务器集群达到十万级,服务阿里团体全副 BU、20 多万员工的日常经营,一起撑持各项业务的可继续倒退。

阶段四:云上数据中台与业务伴生

2018 年之后,整个阿里巴巴数据平台零碎曾经很成熟,平台方和业务方达成一个十分好的配合状态。业务方认可数据平台的价值,业务部门与技术部门相伴相生,数据中台服务业务达到正循环,成为数据中台建设胜利的一个标记。阿里巴巴从 2018 年外部所有零碎开始上云,到 2021 年实现了云上数据中台与业务伴生:双 11 外围零碎 100% 上云,阿里巴巴全面云原生化;每秒 53.8 万笔,阿里云抗住寰球最大流量洪峰;数据中台笼罩阿里团体所有 BU;经营小二及时发现问题、剖析问题,实现实时经营决策;短视频、直播等新业务持续涌现…… 能够看到,阿里巴巴的数据中台建设是胜利的,并且仍在高速向前倒退。

MaxCompute 智能数仓让双 11 成为日常,湖仓一体逐渐成为下一代大数据平台架构,DataWorks 建设的数据中台全面服务业务,反对团体内数百个数据利用,通过全链路数据治理,以低成本增长反对团体业务高速增长。

数据平台建设的四个外围挑战

一个数据中台建设的胜利与否的外围指标,不是零碎效率,不是平台效率,而是“数据效率”。阿里巴巴次要从规模与弹性、数据的老本、数据的正确性与可维护性、数据利用率 4 个方面来掂量“数据效率”。

在这个外围指标下,方法论、组织、平台能力则是数据中台胜利的外围三要素。那么,数据平台要想建设好,背地到底有哪些办法,建设过程中有哪些难点须要留神?背地要做的工作其实十分多,本次仅从面向业务的 4 个切面做介绍,暂未波及存储、计算引擎等层面的挑战。

挑战一:数据资产管理体系

对于数据资产来说,首先要解决的一个问题是:什么叫企业的数据资产?阿里巴巴的每个 BU 都有一个本人事业部的数据资产全景图,咱们通过一张图统管阿里巴巴 99.9% 计算数据资产,每个部门的存储计算成本将全副量化,间接展示在管理者的背后。第二个问题:如何看资产?对于企业而言,资产难道就是一个个老本的数字吗?阿里巴巴通过数据资产的透视,让管理者晓得我本人的数据来源于哪,服务给谁,谁又是我最好的合作伙伴,同时又能够满足数据流动审计的需要。第三个问题:如何进行资产的规模化?新的业务合并 / 收买 / 翻新,如何将这套资产体系疾速地复制?在 DataWorks 等工具中提供数据中台建模工具,可能为数据中台建设提供规范化图纸,针对不同的业务域进行划分,进行智能建模,让新业务疾速复用之前成熟的数据架构,达到资产规模化的能力。

挑战二:数据质量体系

对于数据品质来说,首先要先解决的一个问题是:事先品质如何定义?金融行业常常提到一个概念叫对账,阿里巴巴数据也要对账,针对超过千万级别数据表的对账问题,咱们提了“品质规定”的概念。700 多万品质规定,每天新增 1 万多条,人工要怎么配?阿里巴巴建设了 37 种规定模板,通过智能规定举荐匹配,驳回率达到 75%。第二个问题:事中品质如何执行?700 多万条品质规定须要消耗大量计算资源怎么办?通过什么形式来降低成本?咱们通过智能化技术建设了数据品质调度引擎、ETL 引擎,数据变更后实时触发品质监控,采纳优先级策略,进行闲暇运行。第三个问题:预先品质如何自动化?规定写死了,但数据是活的,遇到周期性稳定和变动怎么办?咱们在数据品质建设的时候融入很多人工智能的技术,通过机器学习形式学习数据生成的样子,可能对动静阈值进行智能预测,通过算法匹配周期性稳定。

挑战三:数据安全体系

对于数据安全来说,要解决如何升高应用老本,进步易用性;如何笼罩数据全生命周期;如何做权限管控;如何数据脱敏,如何辨认敏感行为进行数据溯源等问题,阿里巴巴外部积淀了超过 20 项不同的平安治理规定,这些规定最终可能帮忙平台在满足业务高速增长的状况下同时满足集体合规的要求。

挑战四:数据治理体系

当数据治理进入深水区,数据老本增速如何不超过业务增速;如何调动全员治理的积极性,造就老本意识,在阿里巴巴,数据治理是引擎、平台和人的互相配合,引擎对算力和老本极致谋求,继续突破快速增长的数据计算与老本增长的线性关系,平台通过存储衰弱分、计算衰弱分成为团体各团队数据治理战斗的外围指标,推动人做数据治理和治理,利用平台全链路工具,构建数据治理技术经营体系。通过这样的老本报表的形式把平台层的老本和价值展现分明。能够看出,在 12 年数据平台建设期间,阿里巴巴从数据的资产、品质、平安、治理等多个纬度积淀出了数据中台产品化的能力。

作为中台底座,数据平台下一站走向何方

将来,作为中台的底座,数据中台将从数据智能到智能数据,“湖仓一体”满足架构灵便降级、“智能数仓”解决超大规模下的数据管理难题、“智能查问”极大升高数据分析门槛、AI 的云原生化 / 规模化 / 标准化与普惠化让其成为大数据的终极进口,一直减速大数据与 AI 一体化的交融。

趋势一:一体两面的湖仓一体

作为下一代数据平台架构,湖仓一体满足简单现状下架构的灵便降级。数据仓库主打企业级数据,解决更精密、更经济、更高效。企业能够建设本人的数据中台,无论是引擎优化,还是数据管理,有一整套方法论以及撑持的工具。然而进入门槛很高,老本又贵,还有应用门槛。数据湖是脱胎于开源体系的技术,进入门槛和老本较低,比拟灵便,企业容易实现自建数据湖,只是数据对立存储之外,企业须要进一步做各种精细化治理,心愿数据能治理,能治理,成本低,还可运维。如何买通数据湖和数据仓库割裂的体系,架构上交融数据湖的灵活性以及数据仓库的企业级能力,阿里巴巴提出的湖仓一体架构,对立存储和元数据,买通数据体系,利用智能数仓技术针对不同的数据和任务,做主动分类存储和解决。

趋势二:数据仓库进入“主动驾驶”时代

超大规模数据带来治理难题,传统的“DBA 模式”曾经很难胜任。阿里巴巴有超过千万级别的表,很多外围数据开发工程师,一个人负责上万张表,没有方法做精细化的治理和建模,这样的零碎不能随人的形式扩大,所以将来,越来越多的 AI 技术会交融进大数据系统,进入“主动驾驶”时代。

趋势三:所查即所得,基于自然语言的智能数据查问

阿里巴巴正在数据之上尝试构建一个超大规模的常识图谱,通过常识图谱的形式做数据到语义层的翻译,再通过 NLP(自然语言解决) 等技术跟用户做联合,造成一个桥梁。比方用户输出北京市互联网客户有哪些,就能够主动生成失去一份数据。阿里巴巴正试图把通过自然语言的智能查问在海量数据上用起来,规模化起来,让更多的非专业数据人员也能够独立实现数据分析工作。

趋势四:数据即智能,AI 工程化的根底能力 

数据须要智能的减速,AI 是大数据的终极进口。咱们晓得,真正想把 AI 用起来是一个十分难的事件,从最后的数据衰亡、数据提炼、模型训练、模型调优,再到模型部署和服务,整个链路十分长。如果咱们有 5 万人能够间接应用数据,可能真正能用 AI 的人可能不超过 5000 人,那如何把 AI 技术随着数据赋能给业务方,这就是所谓的 AI 工程化。

最初总结一下,上述内容只是泛泛地提到了阿里数据中台底座建设的四个典型阶段,遇到的四大技术挑战,以及数据平台的四大技术趋势等话题,这些内容还不是阿里巴巴数据中台的全副。通过 12 年工夫,阿里巴巴数据平台建设曾经有了十分多的技术积攒,这些平台能力也在一直推动数据中台向智能化进化,并且还会始终向前演进,服务阿里巴巴并输入给全社会。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0