简介: 他初三上清华,现在是达摩院数据库首席科学家。李飞飞从学术界走向工业界,率领阿里云技术团队一手打造了云原生分布式数据库,让阿里「全面上云」的战斗再下一城。明天,他用一口水井为咱们道出了云原生!
如果要用一个关键词来定义中国当下的生产时代,“双 11”是再贴切不过了。
从 2009 年 11 月起,它只花了十年的工夫,就从一个只有 27 家商户参加的打折日,变成了一个全民狂欢的生产节,2019 年曾经有超过 18 万家品牌加入,累计成交额更是高达 2684 亿元。
每年的双 11,都是互联网的流量洪峰。
面对逐年攀升的成交额数据,到底是什么作为撑持呢?
阿里巴巴团体副总裁、阿里云智能事业群数据库产品事业部总裁、达摩院数据库与存储实验室负责人李飞飞在新智元专访中走漏,去年双 11 交易峰值达到了每秒 55 万笔,而每笔交易又能拆分成很多个事务,总的下来每秒会有几百万的 transaction 事务在 0:00:01 那一刻产生,交易量会暴涨 133 倍。比如说之前一秒有一个,当初就是一秒有 133 个。
短时间内如此高的增长,对后端的计算和存储系统的挑战微小。零碎的弹性、可扩展性及高可用性要十分好,不然难以撑持霎时的交易暴涨。
这是对数据迷信的极大挑战,也是每个有抱负的「数据科学家」最好的舞台,李飞飞为这个舞台筹备了 20 年。
从清华附中腾飞:李飞飞如何走上数据迷信之路?
李飞飞从小喜爱深挖钻研,加入了很多数学和物理比赛。
在清华附中的国家教委文科实验班,没有了高考的压力,李飞飞便一头扎进了比赛里。
16 岁是个分水岭。那一年,他初三毕业进入了国家教委文科实验班,确定了后续输送进清华的路线。
本科的毕业设计,让他第一次接触到了数据迷信。那个年代,大数据还没有衰亡,但在过后的李飞飞看来,这个工作具备前瞻性的意义。
即便来到了 2017 年,「数据科学家」这个岗位也仍然很「理性」。
因为过后,数据迷信还不是一门大热学科,「数据科学家」的概念还停留在表层,很少有人能透过干燥和乏味参悟到其中的魅力。
从 2001 年初到 2002 年上半年,在这一年多的工夫里,李飞飞都沉迷在本人的毕设我的项目里,每天都和外文网站上的海量数据打交道。
通过对 BBC、CNN 等网站信息的拆解并剖析 Hyperlink 资源,胜利将网站的构造拓扑进去,并描绘出一个残缺的后盾,还初步实现了对网站信息的自动化了解。
「当初回头来,咱们过后这个我的项目看其实是十分超前的,以过后的技术的确也也不大可能 lead to somewhere」,在谈到本科毕设的我的项目时,李飞飞如是说。
尽管过后只用了一些分词、词频统计等简略的办法,然而曾经有了古代 NLP 技术的影子。真正有前瞻思考的人总是走在时代的后面。
「01、02 年左右,还没有大数据的概念,但实质上,我认为大数据和数据库是同源同本的,也就是对数据的治理和解决。」
「这个我的项目对我的锤炼很大,过后的那个人工智能,包含深度神经网络跟 NLP 的技术还没有倒退起来,其实过后曾经有神经网络,我本科期间上过这门课,印象还很深,感觉这个成果很好,然而过后因为集群的规模、算力的限度,也没有深度的网络。」
管中窥豹,可见一斑。
通过这个我的项目,李飞飞很早地意识到了数据驱动的力量和永无止境的摸索空间。
「在那个年代,很多的下层利用剖析,很多时候是 rule-based,也就是规定驱动,定义规定,而后依据这个来搭建零碎,但过后咱们做那个我的项目就曾经感触到数据驱动的力量。
「数据从生产、解决到存储、生产,这个全链路的了解、开掘和治理,是永远没有止境的,因为数据量在一直地变大。数据类型在一直地这个复杂化。基于这些数据构建的下层利用也在多样性,也在多样化」
数据的开掘和治理如同一个滚滚向前的车轮,随着时代和技术的演进一直向前,激发了李飞飞在这个畛域摸索一直摸索的激情。
在这个具备超前意识我的项目的陶冶下,李飞飞毅然决然地走上了数据迷信的路线,转而到美国波士顿大学攻读数据库系统和大数据。之后又先后在佛罗里达和犹他大学计算机系任教,从助理传授到副教授,一路做到正传授,这一干就是 10 年。
这所低调的名校在图形处理方面和零碎方向颇有名气,赫赫有名的驰名软件公司 Adobe 联结创始人 John Warnock,就是在犹他大学实现了本科和博士学位。
连驰名动画公司皮克斯也是犹他大学教授和博士生独特创建,还出过三个图形图像方向的图灵奖获得者。
互联网 Internet 的前身—ARPANET 的诞生通常被认为是网络流传的“创世纪”,由西海岸的 4 个节点形成:加州大学洛杉矶分校(UCLA)、斯坦福研究院(SRI)、加州大学圣塔芭芭拉分校(UCSB)和犹他大学(UTAH),其中之一就在犹他大学计算机系。
零碎方向的顶级会议 OSDI 的最佳论文奖 Jay Lepreau Award 也是以犹他大学计算机系传授 Jay Lepreau 命名的。
阿里云总裁一席话让他决然退出阿里:技术发明新商业
谈到在数据迷信路线上的引路人,李飞飞讲到了驰名的数据库畛域的图灵奖获得者 Michael Stonebraker。
提到 Stonebraker 一般读者可能不相熟,然而在畛域内,他所搭建的支流开源数据库 PostgreSQL 简直是无人不知无人不晓。
Stonebraker 不仅仅 research 做得好,也能做到真正的 system driven research,做传授期间又开了很多家在行业内影响深远的数据库公司。
在数据库畛域,他是学术科研能力和技术产品化能力联合的榜样。在飞刀的印象里,Stonebraker 堪称真正的旗帜性人物。
在高校职教的八九年,让李飞飞更深刻地意识到学校和工业界的不同。学校是一个绝对来讲更加自在的气氛,造就的人也更加纯正,科研就是把简单的问题简单化,去找寻最实质的问题,而公司有更强的导向性,以市场、客户需要为导向。公司的短期指标更加明确。
「在公司里你要思考的是,如何将技术变成产品,如何将产品变成商品。而在学校里,你更关注的是在技术层面去翻新冲破,可能还没有到产品,或者远远没有到商品,这两者的能力象限要求是齐全不同的。」李飞飞在采访中提到。
在高校做科研的岁月里,李飞飞获奖有数,获 IEEE ICDE 2014 10 年最有影响力论文奖、ACM SIGMOD 2016 最佳论文奖、ACM SIGMOD 2015 最佳零碎展现奖、IEEE ICDE 2004 最佳论文奖等,然而走出高校的象牙塔,工程化产品化的吸引力也在感召着他。
回国之前,李飞飞也屡次接触过谷歌 Facebook 等硅谷大厂,但最终抉择回国退出阿里,还要源于时任阿里巴巴 CTO、现任阿里云总裁张建锋的一番话。
面试时,张建锋的一句话深深感动了他,「技术发明新商业」,让飞刀深刻思考起技术的实质。
「最初我想明确,咱们从技术角度思考的是性能晋升多少,老本升高多少,但最终实质上驱动这个社会倒退演进的是商业的力量。」
从这个意义上讲,阿里云的达摩院和数据库事业部正是科研和商业的有机联合,钻研技术的同时还能够参加产品的商业化过程,正中靶心。
此外,阿里外部包含电商、物流、新批发、金融等在内的多样化业务和海量数据带来的丰盛挑战也给了飞刀小试牛刀的用武之地。
「从一个历史长河的角度来看,可能发明商业价值的技术才是真正有生命力的,我真的是这样感觉。」飞刀总结说。
从清华附中腾飞:「一口井」钻出云原生数据库
事实中也有很多相似双十一的场景,都须要一个能够弹性扩容的数据库来撑持。
就在 2018 年,阿里启动了一个「全面上云」的战斗,将双 11 外围零碎的计算、存储、网络、数据库全都搬到了阿里云上。
而在往年刚刚完结的云栖大会上,阿里巴巴发表成立云原生技术委员会,同时推出了云原关系型数据库 PolarDB、云原生分布式数据库 PolarDB-X、云原生数据仓库 AnalyticDB(ADB)、云原生数据湖剖析 DLA、云原生多模数据库 Lindorm 等一系列自研的云原生数据库产品。
这些产品不是孤零零的,而是造成了一个残缺的体系。
此举也标记着阿里云数据库全面进入了云原生 + 分布式时代。阿里技术委员会主席王坚说,这将让阿里云与客户「坐在同一架飞机上」。
传统的数据库能够分类为 OLTP、OLAP、NoSQL,它们面临的最大挑战就是要保障读写并发量很高的时候的一致性,防止读写谬误的产生,以及海量数据的低成本存储和高效的计算与剖析。
云原生(Cloud Native)数据库在这三个畛域都有所利用。
要了解云原生,首先要了解的就是「云」。云不仅仅是把资源放到云端那么简略。传统的计算机架构中,资源都是「紧耦合」在一起的。
李飞飞举了一个活泼的例子——水桶和井。井里的水须要打进去拿到厨房用,如果把厨房比作 CPU,咱们能够说水井和厨房是紧耦合的。
当用水多时,除了加大井的深度和宽度,还能够构建「分布式」的水井,通过某种安装把各家的水井连接起来。
但通过安装来调度每家每户的水井,这种「分布式」的过程也十分复杂,须要一个高效的调度零碎。
了解了分布式,再来看云。
李飞飞示意,「云」的第一个实质就是「用虚拟化的技术将资源池化」。
用水井的例子解释「云」就是,外表上还是 100 口独立的水井,然而水井的底部曾经连在一起,造成了一个隐形的池塘。
「云」的第二个实质是「资源解耦」,存储和计算要解耦合,再将存储和计算别离池化。这样的益处就是扩容能够变得非常灵活,如 CPU 的外围数和存储能够自在扩容。
云原生数据库就是通过资源池化、存储和计算拆散、资源解耦,从而具备更高的弹性和高可用性以及分布式的能力,来满足业务对按需按量应用和按需按量付费的需要。
云原生关系型数据库 PolarDB、云原生分布式数据库 PolarDB-X、云原生数据仓库 AnalyticDB(ADB)外表上看起来和传统数据库没有很大的区别,都具备存储引擎、优化引擎、界面引擎等,然而底层对资源的应用和调度却产生了天翻地覆的变动。尽管底层产生了变动,但心愿对于用户来说,是一个通明的感触不到的扭转。
李飞飞还示意,将来,多模态数据的解决问题和资源的智能调度,是云原生数据库要面临的挑战之一。
疫情期间,在线教育和游戏行业都产生了实质的变动,应用云原生数据库能够更好的满足弹性的需要。
不仅如此,云原生数据库还能够实现离在线一体化,数据处理与计算剖析一体化,大数据与数据库一体化,帮忙用户实现会数据库就会大数据,不再须要编写简单的 Hadoop 和 Spark 程序,只须要简略的 SQL 就能够实现简单的工作解决,大大减少用户的开发难度。同时,很多用户定位的工夫问题也被缩短到了 7 分钟以内。
最初,李飞飞还示意,阿里云的云原生数据库保持自主研发、自主可控,在生态上会 100% 兼容现有的数据库,用户不用放心将来被锁死在这里,能够依照需要进行灵便迁徙。
云原生是趋势,技术发明价值才有意义
对技术的摸索,帮忙人类不断进步和晋升,那什么样的技术才值得咱们去谋求?
李飞飞认为,要从实质下来思考,这项技术最终会不会变成一个可规模化,继续化产生商业价值的货色。
这个问题听着如同很空很大,但实际上静下心来去想,什么节点须要去做什么样的翻新冲破,就容易实现了,比如说云原生为什么是一个趋势。
因为资源解耦、弹性可扩大这些真的是变成了按需按量,就跟以前为什么从家家户户从水井打水喝水,演进成都用自来水一样,不喝随时能够停掉。
所以云原生数据库来,实质上是解决了资源应用效率和领有资源老本的问题,这就变成了一个商业的问题。
那技术只有发明商业价值才是有意义的吗?
如果从人类文明的历史来看,很多技术在短期内能够没有商业价值。
然而,不能等到 100 年当前才变现,那这个技术就没有意义了。当初疾速变动的环境下,最多三年,必须要把技术演进带来的商业价值和逻辑讲清楚,因为公司须要去一直地演进一直地晋升经营效率。
做数据库的这些年,用李飞飞本人的话说,更偏向于从逻辑的角度去思考一些问题。
「比如说我会比拟关注这个因果关系,相关性,比如说我看很多货色就会先想他是不是有相关性,有了相关性之后,再想这个是简略的相干,还是有外在的因果关系。」
将来,所有都将是数据驱动的,寻找数据之间的关联能力衍生新价值。
原文链接
本文为阿里云原创内容,未经容许不得转载。