共计 6895 个字符,预计需要花费 18 分钟才能阅读完成。
简介: 阿里云网络的工程师们心愿,通过这个平台,帮忙企业更加智能地运维本人的网络、更加便捷地配置本人的网络,让上云的企业在“云高速”中实现“主动驾驶”。他们说,把路修的更好,让网络更简略,就是本人的使命。而依附自研进行翻新,是倒退的基本力量。
互联网诞生至今,网络世界到底被谁主导?
《达芬奇明码》给出的答案是,整个互联网由十四个手中把握七把受紧密爱护的钥匙的人爱护着。
所谓“钥匙”,是为爱护网站和计算机调配 IP 地址的 DNS 进入权限,如果这个权限被一个人取得,他就能主导整个互联网。
事实中,这个把握钥匙的组织就是 ICANN(互联网名称与数字地址调配机构),它的存在的确关系着互联网世界的稳固、凋谢与唯一性。
但这仅仅是小说或者电影的思维。事实世界中,为人们网上冲浪提供基础设施的,次要是网络运营商与设施厂商。
网络畛域很长一段时间都没有陈腐事物,无论是产品还是守业公司,都鲜有陈腐脸孔。
直到十多年前云计算诞生,一些新厂商投身网络畛域搞自研,这个畛域才有了新现象。云网络开始表演越来越重要的角色。
在往年尤为显著。年初,新冠疫情暴发,国家按下“新基建”的快进键。
云计算作为新基建的外围环节,是互联网、大数据、人工智能等新技术的要害底座。云网络,作为云计算的标配,则是新基建的底座。
中国的云网络担得起吗?
缘起:网络高速来了“调度员”
故事还得从阿里云的成立说起。
2009 年春节后,一群阿里云的年轻人在北京上地汇众大厦一间快要废除的办公室里,写下了阿里云计算操作系统“飞天”的第一行代码,开启了中国云计算的新篇章。
一年半后,阿里云公布了第一个商业化的产品 - 云服务器 ECS,逐渐迈向公共云服务。
原 CSDN 与《程序员》杂志总编刘江曾在《阿里云察看——阿里云总裁王坚专访》一文中写道:ECS 的上线,让许多得风气之先的中小开发公司兴奋不已。之前他们能够抉择的后端,要么是国内 IDC 服务器托管,运维压力如山大;要么是国外的云服务,又不得不忍耐网络的龟速。
阿里云的 ECS 让他们看到了国产云的心愿。但在此之前,阿里云本人先要解决好网速问题。
2010 年,阿里云用 x86 服务器搭载软件的形式,开发出第一款云网络产品——负载平衡 SLB(Server Load Balancer),对网络流量(网络上传输的数据量)进行平衡散发。
SLB 就像网络高速的“调度员”,为了进步信息传输效率,SLB 能够调配和调度“车辆”(比特)从不同的门路和进口进行传输。当大量的数据流量来袭时,有了 SLB,网络就不容易产生拥挤。
构想很美妙,但晚期的 SLB 性能并不稳固。晚期,工程师们将精力次要放在了技术研发上,开发出软件,先让云平台运行起来;不足对外服务教训,呈现了不少服务质量问题。
这导致看工单、接工单、解决工单,以及频繁缺席赔情赔罪会,成了 SLB 第一任产品经理李肆的工作日常。
他记忆最粗浅的一次赔罪会是阿里云创始人王坚亲自主持下进行的,那是个周六,在西湖国内——阿里云在杭州最后的办公室里,出名开发者社区“博客园”等客户缺席。
起初,王坚让阿里云的共事把“博客园”中记录阿里云产品问题的 100 多篇博客印成书,取名为《提高集》,要求阿里云的工程师们通读。
内有《提高集》的鞭策,内部有“云计算到底能不能把网络这件事做好”的质疑。顶着微小的压力,SLB 团队一直地晋升其服务稳定性。
一封邮件引发的“修路”反动
但留给阿里云自我变革的工夫不多了。
从 2012 年底开始,微软、亚马逊、IBM 等国内巨头陆续登陆中国,云计算市场俨然已呈红海状态。
与此同时,阿里云外部的“技术隐患”开始浮现。
2012 年底的阿里云技术布局会上,有人指出了阿里云的潜藏危机:
随着虚拟化技术的一直倒退,一台物理机能够虚构出的虚拟机比例将从 1:10 晋升到 1:30、1:50,也就是 1000 台物理机虚构出的虚拟机数量将从 1 万台变成 3 万台、5 万台。
虚构比回升,网络中用于记录虚拟机地址的 ARP 表上的数据,也会变为原来的 3 到 5 倍。如果寄存 ARP 表数据的交换机供给有余,虚拟机的迁徙就会受到限制。
一旦虚拟机宕机,用户 / 客户业务受影响,阿里云的口碑将遭逢“滑铁卢”,最终导致阿里云面临无奈售卖 ECS 的危机。而 ECS 是阿里云安身立命的基本。这是一个由云计算倒退导致的连锁变动。
与此同时,随着虚拟化网络的规模扩充,ARP 坑骗、播送风暴、主机扫描等多个问题会越来越重大,这都会对网络安全造成威逼。
有人将这些隐患写进邮件,发送给高层。江鹤(阿里云网络产品线现任负责人)遂被指派去调研这些问题,并找出解决方案。
2013 年年初,江鹤就带着四位工程师接手这个工作,开展考察。
果不其然,当他们将诉求转给“头牌”交换机供应商思科时,对方的回答是:无奈提供可能存储如此大规格 ARP 表的交换机。思科是过后寰球最大的网络设备厂商。这意味着,他们在全世界范畴内也买不到想要的交换机了。
一番考量后,江鹤决定另辟蹊径,在高空高速公路上方建筑一条“云高速”,并在“云高速”上开拓不同的“隧道”。
他的技术计划是:在底层网络互联互通的根底上,加上隧道技术,构建一个虚构网络(VPC)。
假如原来的信息传输方式是所有信息通过一条高速公路进行传输,用户间次要通过隔离带隔离。VPC 则是在云高速上开拓出不同的隧道,让不同的用户领有本人独立的隧道,再将带有惟一隧道 ID 标识的数据包送到物理网络上进行传输,这样做,会使数据传输更平安。
VPC 的构想,须要 AVS(虚构交换机)、SDN 控制器、网关(Gateway)三局部独特发挥作用。其中,AVS 用来连贯 ECS 与 ECS,网关用来连贯 VPC 和内部的网络,SDN 控制器通知 AVS 和网关如何发送数据包。
但对于这个技术计划,外部有不同的声音。不少人偏向于借力硬件厂商,用专用的硬件设施(如交换机)构建虚构网络(VPC),更重视性能、稳定性。江鹤的计划则是用通用的 x86 服务器搭载软件的形式构建虚构网络(VPC),更重视灵便治理和管制网络。
单方意见僵持不下,谁也无奈压服谁,最终高层拍板,两条路线同步进行。
这头,借力硬件厂商的计划小批量引入试点;那头,2013 年 5 月开始,江鹤带着一群决定自研的“修路工程师”英姿飒爽地上路了。
网络空间有了“高速公路”
VPC 还在艰巨的孕育中,IBM、SAP、AWS 等国外云服务厂商先后进入中国市场,开疆拓土;外乡厂商也纷纷涌入云计算畛域,腾讯发表凋谢腾讯云,百度正式将面向开发者提供的服务命名为“百度凋谢云”,中国电信天翼云正式对用户和开发者提供凋谢服务,青云私有云平台正式上线。私有云市场一下变得“冷落”起来。要想在竞争中取胜,阿里云必须将产品打磨的足够好。
酣战 10 个月,江鹤团队交出了他们的作品——由虚构交换机(AVS)、SDN 控制器、XGW 网关构建而成的 VPC。
他们将本来存储在交换机上的 ECS 网络信息存到了 XGW 网关上,对交换机屏蔽掉了租户 ECS 网络信息,由自研网关负责租户网络信息和租户业务的网络转发,交换机只用负责物理设施之间的网络转发。
单个 XGW 网关的线速可达 40G,传统网关线速只有 20G。因为既不像服务器也不像网络设备,网络解决能力却超强,XGW 网关被人们称为“怪胎”。
这个“怪胎”不仅从本源上升高了虚拟化技术对交换机的需要,解决了阿里云此前遇到的交换机难题,还能集群部署。单机房内,XGW 能够将 32 台服务器组合起来,网络流量转发能力可达 1.28T。1 个 T 是什么概念?如果咱们每个人以 10M 带宽全速下载一部电影,1 个 T 意味着 10 万人同时从一个服务器下载一部电影。
XGW 网关一出马,江鹤团队毫无悬念地博得了接下来的机会。
2013 年、2014 年,阿里云陆续拿下两个重量级订单——“云上贵州”、“海淀政务云”,打响了“决战 VPC 战斗”。2014 年 2、3 月份,阿里云抽调各路人马,组建了 VPC 联结我的项目实验室。9 月,VPC 产品正式公布。
VPC 为租户在公共云中构建出了一个隔离的网络环境,租户购买的 ECS、负载均衡器 SLB、云数据库 RDS、缓存 OCS 等云产品部署在这个隔离的网络环境中。租户能够自行购买计算、存储等一系列资源,齐全掌控本人的虚构网络,包含抉择自有 IP 地址范畴、划分网段、配置路由表和网关等。
海淀政务云、云上贵州、中石化等客户率先利用阿里云的 VPC 与专线服务,撑持了相干服务的运行。比方,南京的客户不再须要拉物理专线到杭州,只需退出南京本地的接入点就能够与阿里云构建混合云,老本和效率劣势显著。
工程师们新修的这条“云高速”,终于能够让客户畅通无阻、平安高效地通行。
小规模的尝试胜利后,2014 年年底至 2016 年,阿里云的工程师们将阿里云上的 100 多款云产品和百万客户全副安稳迁徙至 VPC 网络。
2016 年 4 月,在云栖大会·深圳峰会上,阿里云对外发表,云上所有用户都能够自主管理网络产品,“云产品进入 VPC 时代”。
“连成一张网”
随着云计算服务能力的不断完善,企业上云需要更加强烈,由此导致的简单场景也一直对阿里云的网络技术提出新需要。
2016 年,阿里云为应答大型企业数据处理和接入能力的瓶颈,推出了混合云计划。
这种模式下,企业的云被分为私有云和公有云,私有云承载前端服务,公有云承载企业外部的一些服务需要和数据。一些在多地部署了业务零碎的企业,则诞生了内网通信的需要。
基于这些需要,阿里云先后推出 NAT 网关、高速通道+VPC、云企业网 CEN 等产品,帮忙客户将云上云下的网络“连成一张网”。
2017 年双 11,阿里云首次采纳“高速通道 +VPC”的计划,搭建了寰球最大的混合云架构。商品浏览、订单领取、客户服务、物流查问等等,很多零碎调用频繁在公共云和企业本人的数据中心之间进行。
撑持双 11 大促后,他们将这个计划介绍给了客户。但事实总是有各种意外。一家出名在线教育公司在应用了同样的解决方案后埋怨——网络配置太简单了,CCIE(互联网络专家)都不晓得该怎么治理。
收到反馈后,产品团队开始想方法让业务组网变得更简略。起初推出的云企业网 CEN,让“点点鼠标”就开明寰球网络成为可能。
云企业网 CEN 推出一年后,AWS 才做出了对标产品 TGW。
从被云计算推着进行网络改革,到引领行业,阿里云网络的倒退与这家公司的初心严密相干。
作为一家输入技术的公司,阿里云始终强调要做到和客户在同一架“飞机”上。自 2013 年起,天猫双 11 就开始借助阿里云的计算资源来反对零点顶峰。云的弹性资源优势使得双 11 的 IT 投入老本降落超过 50%,但过后这架“专机”是专为双 11 定制打造的,内部客户买不到。
为了和客户在同一架“飞机”上,阿里云陆续对外对立凋谢这些技术能力,近些年更是将积淀十年的云原生实际造成解决方案,提供给客户。
云企业网 CEN 也是其中的代表性产品,是承载在阿里云提供的高性能、低提早的公有寰球网络上的一张平安网络。
2019 年 3 月,阿里云智能总裁张建锋发表:将来一到两年,阿里巴巴团体 100% 的业务要跑在公共云上,成为“云上的阿里巴巴”。
“双 11”驱动的软硬件一体化反动
实际上,这个指标早在一年前甚至更早就曾经定下。随着双 11 外围零碎 100% 上云后,阿里云承载的流量将迎来爆发式增长,虚构网络流量将达到一个天文数字,近 ECS 侧虚构交换机以及虚构网关将是网络流量的“重战区”,技术上需早做筹备。
在转发层面,到 2019 年双 11,上云流量将增长近 10 倍,整个云上云下的网络通讯带宽将达到数十 T 的水位。在管控层面,须要同时反对 5 万台物理机并下发表项,对交换机提出了极大挑战。“以前是单实例、单用户,当初的需要是几十倍甚至上百倍的减少。”
在这样的流量压力下,单纯靠 x86 服务器 + 软件的计划是行不通的。通过重叠服务器的形式,无论功耗还是老本,都将是难以承受之重。如此大的流量带宽,可能须要上千台服务器,单点服务器的稳定性等也将遭逢微小挑战。
2018 年 4 月,“阿里云网络 2.0 战斗”打响。这一次,阿里云的网络工程师们决定对原有网络架构进行软硬件一体化革新。
软件硬件化和硬件软件化始终是 IT 行业的热门话题。这其中波及均衡的艺术。
计算机指令集 CISC 和 RISC 就瓜葛了几十年。
RISC 想让硬件做最简略、最根本的指令,其余的交给软件;CISC 想将更多的甚至简单的性能由硬件来实现;现在,这两个指令集开始互相借鉴。
阿里云网络团队首先要做的一件事是,对 VPC 进行软硬件一体化革新,撑持“双 11”。曾经成为阿里云网络负责人的江鹤立下指标:将网关性能晋升 20 倍,交换机性能晋升 5 倍。
但对于做硬件这件事,外部也有一些质疑的声音,次要集中在“为什么放着现成的 x86 不必,折腾交换机和可编程器件,本人跟本人过不去?”
工程师渔滨在网络行业摸爬滚打了 20 多年,交换机和可编程器件是他的拿手好戏,自研网关和交换机的重任落在了他的团队身上。
要打仗,先招人,但渔滨要的是行业教训十年以上的老兵,花了半年工夫,他终于组齐了队伍。
彼时,没人能想到,网关和交换机这两座网络大闸将会用怎么的姿势迎接双 11 的流量洪峰。
直到 2019 年双 11,渔滨团队研发的“高性能硬件网关”承载了 10T 级别的流量,稳固保障了阿里经济体 100% 外围零碎上云。
图:阿里云网络团队撑持双 11 合影
“高性能硬件网关”由 CPU+ 可编程替换芯片组成,本来由 CPU 承当的网络转发工作交给可编程芯片实现,CPU 专一于业务解决。原来,一台服务器线速最多可达 80G,“高性能硬件网关”的线速可达 3.2T。
这一技术创新,不仅让阿里云实现了极限挑战,更让阿里云上的客户享受到了技术的红利。当国内一个顶级资讯平台提出 12T 的高带宽需要时,阿里云在一周内就满足了它的需要。
在渔滨团队为了双 11 奋战的同时,其余团队也没闲着。
2018 年下半年,江鹤随业务团队去东南亚访问客户,在印尼见了当地一个 TOP 级电商客户。
对方尖利提问:咱们的大促跟天猫双 11 一样火,阿里云能不能反对?
大促要求短期内撑持较大数量的网络流量。过来,为了避免浪费,在业务量无限的状况下,阿里云海内数据中心只装备了无限的资源,要满足客户这个需要,须要现买服务器等资源,扩容周期长(供给周期以月为单位)。
客户的质疑直指阿里云网络产品弹性有余,极大刺激了江鹤的神经。
访问回来后,江鹤下令,业务网元要放弃基于 x86 服务器构建,转向阿里云外围的弹性计算产品 ECS 构建,ECS 是阿里云储备最多的资源,基于它开发的产品将可能提供“有限弹性”;建设一个管控平台,屏蔽 SLB、NAT、VPN 等业务网元对底层资源的可见性,由管控平台对立对接各种业务需要,按需配置资源。
2019 年 10 月,新管控平台正式对外亮相。11 月,阿里云花了一天工夫就帮 A 客户实现了近百 G 流量迁徙。
“主动驾驶零碎”
至今,阿里云网络已走过十个年头,运行在阿里云网络上的云产品曾经多达上百种,并且数量还在一直减少。
但物理法则决定了没有 100% 牢靠的网络,故障无奈防止,但必须做到在故障产生时疾速定位问题、解决问题。
百万级网络设备、上千个网络指标,网络管理越来越有挑战性。
同时,AI、5G、边缘计算等新一代信息技术一直爆发,能够预感,基于这些技术演变生成的信息基础设施畛域将会迸发出大量新兴利用。这也意味着,阿里云网络将要同时连贯各种终端、集体、企业,为“万物互联”提供技术撑持。
这将是一个什么样的世界,无人可能预测,但新世界正在到来。
应答将来,阿里云的网络工程师们也储备了翻新技术——一个智能运维平台。
它好比一个主动驾驶零碎,可能诊断网络中的问题,理解网络上的运行状况,以及布局网络中的倒退方向,曾经帮忙阿里云撑持了多届双 11。
每年双 11 前,这个平台都会做出预测:双 11 当天某个中央的集群可能接受多少峰值流量、每条跨城线路预计会摊派多少流量、须要多少服务器来顶住压力,为双 11 作战打算提供数据撑持。
往年天猫双 11,流量洪峰在 0 点 0 分 26 秒呈现,在阿里云网络的撑持下,58.3 万人在这一秒中胜利下单。
现在,这个平台还在一直开发与欠缺中。将来,也将凋谢给阿里云的客户应用,摊薄科技翻新的老本。
目前,寰球有 300 多万家企业跑在阿里云上,云网络覆盖率达 95%,囊括了在线教育、金融、批发、制造业等多个行业。具备超强灵活性和超高弹性的云网络,不仅帮忙企业晋升了效率,还帮忙企业升高了 30% 的经营老本。
阿里云网络的工程师们心愿,通过这个平台,帮忙企业更加智能地运维本人的网络、更加便捷地配置本人的网络,让上云的企业在“云高速”中实现“主动驾驶”。
他们说,把路修的更好,让网络更简略,就是本人的使命。而依附自研进行翻新,是倒退的基本力量。
常言道,“路线通,百业兴。”
1988 年,改革开放,我国第一条高速公路——沪嘉高速公路全线通车。
2008 年,寰球暴发金融危机,为应答冲击,“四万亿”出笼,重点投资在了“铁公基”(铁路公路基础设施建设)畛域。截至 2017 年底,我国高速公路通车里程 13.6 万公里,位列世界第一。中国也跃居世界经济增长第一引擎。
今年年初,新冠疫情暴发后,国家按下“新基建”的快进键。只是这一次,更要紧的是云上信息高速公路,建设主力成了科技公司们。
原文链接
本文为阿里云原创内容,未经容许不得转载。