乐趣区

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题

摘要:2009 年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台 MaxCompute 统一阿里巴巴内部的数据和大数据计算体系。
大数据时代,随着企业数据规模的急剧增长,传统软件已无法承载,这也推动了大数据技术的发展,Google、AWS、微软等硅谷巨头纷纷投入大数据技术的研发;而在国内,王坚也在十年前带领阿里云团队研发 MaxCompute,率先在国内开启大数据计算平台的自研之路。

十年后,MaxCompute 已经可以承载 EB 级别的数据存储能力、百 PB 级的单日计算能力,在公共云上已经覆盖了国内外的十几个国家和地区,电商、工业、医疗、农业、气象、教育等诸多行业企业开始采用这项技术,轻松处理海量数据,为社会和消费者提供服务。
MaxCompute 的自研之路
事实上,阿里大数据的发展历程映射出整个大数据行业的发展史。
十年前,阿里巴巴比其它公司更早地遇到互联网规模化带来的挑战。当时全球企业的数据库基本都是 Oracle,而阿里巴巴拥有亚洲最大的 Oracle 集群,计算规模达百 TB 级别。

按照当时淘宝用户量的增长速度,Oracle 集群很快将无法支撑业务发展,而最核心的问题就是算力不足。尽管当时阿里已开始把数据迁移到更大规模的 Greenplum,但后者在百台机器规模时就遇到瓶颈,给业务增长造成极大阻碍。
此外,Hadoop 之类的开源技术在可靠性、安全性上也遭遇了天花板。
2008 年,王坚带着解决大规模算力瓶颈的任务加入阿里。他发现,无论是 Oracle 还是 Greenplum、Hadoop,都不是大规模数据计算的最优解,必须自研一套自己的大数据处理平台。
2009 年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台 MaxCompute 统一阿里巴巴内部的数据和大数据计算体系。
事实证明,阿里做了正确的选择。
四年攻坚,MaxCompute 终于取得重大突破:2013 年 8 月 15 日,阿里云历史性地突破了同一个集群内 5000 台服务器同时计算的局限,为未来的大规模服务奠定基础。十年后,单集群规模已超过 1 万台,能做到这一能力的科技公司在全球都寥寥可数。
在阿里云云栖小镇,还竖着一尊飞天 5K 的纪念碑,碑上刻着参与解决这一技术难题的技术人员名字。
解决世界级算力难题
通过大数据计算平台,可以让订单实时准确汇聚,也可以精准预测变幻莫测的天气变化,各行各业都在大规模使用大数据来提供更好的服务,而实现这一能力就是海量数据分析的结果。

但要处理好这些数据并不容易。除了数据量的剧增,不同行业数据类型丰富多样,如结构化数据、非结构化数据等,都给大数据计算平台带来新的挑战。
MaxCompute 的创新之处就是采用 Datalake 技术,把不同的数据源用类似的方式存储,用统一的方法计算,提供一套标准化语言,快速实现不同类型数据的计算。
基于这套创新技术,2015、2016 年,阿里云刷新世界计算奥运会 SortBenchmark 的六项世界纪录;2017 年,完成全球首次基于公共云的 100TB BigBench 大数据基准测试。
如何快速“查询”也是大数据计算的核心之一。MaxCompute 采用“交互式查询”来解决海量数据查询慢的瓶颈,通俗地说就是系统可以预判用户将会做哪些查询,提前准备,大大降低大规模数据查询的时间。
此外,MaxCompute 提出多租户云安全隔离技术,突破传统大数据平台的安全局限,将安全边界细化到用户、进程、内核级别,完全满足金融级的安全需求。
顶级算力走向世界
过去十年,MaxCompute 能力不断提升:单日数据处理量从 2015 年 100PB,2016 年 180PB,到 2017 年 320PB,再到 2018 年的单日处理超过 600PB。
记录被不断刷新,并且得到了权威机构的认可:在 Forrester 发布的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里云 MaxCompute、DataWorks、ADB 等三款产品成功入选,并在产品功能(Current Offering)方面力压微软。

这一世界级的大数据计算能力也逐渐展示其价值,帮助数万企业用更低成本、更高效率计算海量数据,为社会和消费者提供服务。
在生活领域,墨迹天气开始通过 MaxCompute 为 4 亿用户提供气象预报服务,每天的用户查询超过 5 亿次。不仅如此,它们的存储和计算成本还令人意外地降低 70%。
在交通领域,城市大脑在杭州实时指挥 1300 个红绿灯路口、200 多名交警。从 2016 年到 2018 年,杭州从全国最拥堵城市排行榜上下跌 52 名。
在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。
在政务领域,浙江最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的 100 个事项 70 多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。
而在海外,MaxCompute 也已进入新加坡、欧洲等市场,将这一技术对外赋能给更多用户。
从线上到线下,从生产制造到互联网电商,从国内到海外,MaxCompute 的计算能力正在延伸到各行各业,极大地降低了社会的计算成本。
MaxCompute 产品官网 https://www.aliyun.com/product/odps

本文作者:晋恒阅读原文
本文为云栖社区原创内容,未经允许不得转载。

退出移动版