关于亚马逊云科技:亚马逊云科技-2022-reInvent-观察-天下武功唯快不破

11次阅读

共计 11061 个字符,预计需要花费 28 分钟才能阅读完成。

引子

“天下文治,无坚不摧,唯快不破”,置信大家对星爷电影《功夫》中的这句话耳熟能详。实际上,“天下文治,唯快不破”最早出自古龙学生的驰名武侠小说《小李飞刀》:“小李飞刀,例无虚发,只出一刀,无人能挡,只因天下文治无坚不摧,唯快不破。”

其意思是说,天下的泛滥文治里,只有“快”找不到克服它的办法。当文治的速度达到极致的时候,有时候不须要简单招式,只是简略的一招就能够克敌。

2022 年 11 月 28 日,一年一度的亚马逊云科技 re:Invent 2022 大会在美国内华达州拉斯维加斯拉开帷幕。据悉,本次大会吸引了约 50000 人现场加入,而线上加入的人数超过 300000 人。这场为期五天的云计算盛会又给大家带来了很多新的惊喜。

在笔者看来,本次峰会有三大焦点主题,别离是 数据、性能和平安。Amazon CEO Adam Selipsky 的 Keynote 至多一半工夫都在谈数据,包含数据的产生、数据的解决、数据的剖析、数据的爱护、数据的利用等。还有 VP Swami Sivasubramanian 的 Keynote,简直整个都在谈数据。而 VP Peter DeSantis 的 Keynote 则大部分工夫在谈性能,包含更快的网络访问速度、更高的磁盘访问速度、更快的芯片运行速度、更快的函数启动速度等等。实际上纵观峰会,还有疾速的产品公布速度、更快的数据流动速度、更快的翻新速度等。

所有这些“快”,就像火箭高速发动机,将亚马逊云科技推向了一个全新高度。如同“天下文治,唯快不破”中的“快”,“速度”也已成为亚马逊云科技手中的一把最快的刀,乘风破浪,势不可挡,奔向远方。下文,将选取本次峰会上泛滥公布之中笔者认为十分具备代表性的五个底层性能翻新,来一一为您讲述亚马逊云科技是如何将“快”做到极致的。

1. Lambda 函数冷启动工夫升高 90%

2015 年,亚马逊云科技正式公布 Amazon Lambda,创始了无服务器计算时代。过来 8 年间,Lambda 的性能始终在丰盛和欠缺中。

Lambda 具备独到的劣势。在开发方面,它采纳简略的编程模型,可不便地调用其它亚马逊云科技服务;在运维方面,Lambda 函数能疾速响应一直变动的应用模式。因而,越来越多的用户喜爱它、应用它。在本次峰会上,亚马逊云科技发表,每个月有 100 万客户应用 Lambda,每个月 Lambda 函数的调用量超过 100 亿次。

然而,过来,Lambda 函数冷启动工夫过长的问题始终在困扰着用户们。要了解这个问题的根因,需首先简略理解下其实现原理。

Lambda 函数运行在微虚机 (MicroVM) 中。对于 Firecracker,多年前笔者已经写过一篇介绍性文章,容器在私有云上的落地姿态,您能够参考,请留神文中有些信息可能曾经有些过期了。

亚马逊云科技划分了一个池子,专门用于运行 Lambda 函数的微虚机。当用户部署函数时,函数代码要么被上传到 S3 中,要么将函数镜像上传到 Amazon Elastic Container Registry(ECR)中。

当函数第一次被调用时,Lambda 从 S3 或 ECR 中拉取代码,而后拉起一个 Firecracker 微虚机,并进行运行时和函数代码初始化。接着,代码被执行,并返回函数的输入。

接下来,Lambda 将使这个微虚机放弃运行一段时间,因而后续申请都将由这个正在运行的容器来解决和执行。一段时间内没有函数调用的话,亚马逊云科技将敞开此容器。当一个新事件呈现时,Lambda 会启动一个新微虚机—这过程包含亚马逊云科技为启动“微虚机”所做的所有,以及初始化你的代码。

这就是亚马逊云科技启停其 Lambda 函数的根本形式。这种办法可进步亚马逊云科技的基础设施的效率,大大降低客户的运行老本。

每个 Lambda 函数的生命周期包含三个过程:初始化(init)、调用(invoke)和敞开(shutdown)。所谓初始化过程,指的是第一次调用函数时所须要的执行和响应工夫,包含下载代码、拉起微虚机、运行时初始化和函数初始化等环节所花的工夫。后续调用过程则会比第一次初始化快得多,因为只包含函数执行环节。咱们将函数的初始化过程称为“冷启动”。任何后续申请都将由正在运行的容器中曾经包装好的函数解决,每次函数调用只须要一次所谓的“热启动”。

依据对生产 Lambda 工作负载的剖析,冷启动通常产生在不到 1% 的调用中。冷启动的持续时间从不到 100 毫秒到超过 1 秒不等。其中,Java 语言编写的 Lambda 函数的冷启动工夫最长,次要因为三个因素:一是 JVM 的启动工夫,二是 Java 类的解压工夫,三是 Java 类的初始化代码的执行工夫。

Lambda 函数冷启动工夫过长会带来一系列问题,这也让 Lambda 函数启动性能优化成为近几年最热门的优化畛域之一。特地是其最长的 1 秒工夫,决定了 Lambda 函数可能很难用于对延时十分敏感的联机交易,这会大大压缩了 Lambda 的应用场景。为了克服这个问题,用户们甚至创造了非常规伎俩,比方每隔 15 分钟 ping 一次本人的函数,以确保它是活着的。

侥幸的是,本次峰会上,亚马逊云科技发表了 Lambda SnapStart 新个性。为 Java 函数启用 Lambda SnapStart,能够使其冷启动速度进步 10 倍。这是一次数量级级别的性能晋升。

咱们来看看该个性的实现原理。它利用了 Firecracker 的 MicroVM Snapshot 性能。在函数冷启动或函数更新阶段或新版本创立时,函数会被启动运行并实现初始化,Lambda 而后会为函数的内存和磁盘状态创立一个快照(Snapshot)并缓存下来。在冷启动过程中,通过复原(Resume)快照,就能够让函数很快就绪。

只有快照存在,当函数被调用时,只须要复原快照就能够了。而复原快照比创立和初始化新的 Lambda 执行环境要快 10 倍,这就是为什么该个性虽小但成果这么显著的起因。

此优化使 Lambda 函数的调用工夫更快且更可预测。实际上,该技术的背地还有三个翻新点。一是采纳一致性的快照技术,二是晋升了快照解决的效率,三是预测性快照加载。这三大翻新合并在一起,才带来数量级的性能晋升。

本次峰会上,亚马逊云科技推出了对应用 Amazon 本人的 JDK 发行版 Corretto (java11) 运行时的 Lambda Java 函数的反对,其余 Java 框架的反对应该很快就会推出。

实际上,咱们回头看的话,这性能切实太重要了,其实应该更早些推出才对,甚至在 2014 年发表的时候就应该具备。

这个看起来小小的个性,兴许能为 Lambda 微小的扭转,因为用户们太须要它了。他们在欢呼:“This is a great and long awaited change!”“Honestly, this is how Lambda should be, by default.”“其它 Java 版本、python 和 node.js 什么时候开始反对呢?”

亚马逊云科技的合作伙伴 Micronaut 急不可待地应用“Hello World”Java 程序做了比照测试。很显然,程序的启动速度失去了大幅晋升。

在该性能所宣称的性能晋升失去充沛的证实并在继续优化后,笔者甚至置信它将扭转 Lambda 的扩展性在无服务器畛域和整个行业中的认知,并将使得 Lambda 函数作为联机函数变成可能。甚至 Serverless 时代的真正到来会因而而大大放慢!

2. 数据库 TPS 性能晋升 30%

当初亚马逊云科技谈性能,曾经无奈不谈 Nitro 了。Peter DeSantis 在其 Keynote 中一上来就说,自 2014 年以来推出的每一个的 Amazon EC2 实例都在利用 Amazon Nitro 这项技术,它对亚马逊云科技产品和服务性能的晋升居功至伟。

本次峰会上公布的最新版本 Amazon Nitro v5,相比前一代 v4,它具备两倍的计算能力、多出 50% 的内存带宽和两倍带宽的外围组件互连高速 (PCIe) 适配器,反对每秒 60% 的数据包 (PPS) 速率减少,数据包提早缩小 30%,每瓦性能进步 40%。

在 2021 年 re:Invent 峰会上,亚马逊云科技公布了 Nitro SSD。

这款亚马逊云科技自研的 SSD,具备更低提早、更加牢靠、数据主动加密等特点,它不仅帮忙亚马逊云科技实现了对 SSD SLA 的管制而且还大大降低了老本了。

Nitro SSD 还有更多的价值。在 2022 年的 re:Invent 峰会上,亚马逊云科技发表基于 Nitro SSD,亚马逊云科技实现了 TWP(Torn Write Prevention,撕裂写预防)性能,使得数据库的 TPS 性能晋升了至多 30%。

数据库是网站、APP 等产品重要的底层外围撑持服务,其性能的重要性显而易见。而 TPS(Transactions per Second,每秒事务数)是数据库最外围的性能指标之一,TWP 使得 IO 密集型的利用能从 MySQL 或 MariaDB 上取得更高的性能和更低的时延。

简略介绍下 TWP 产生的背景。通常数据库场景下,数据写入页大小(page size)是 16KiB,而目前文件系统中罕用的页大小都是 4KiB。因而,数据库要将一个 16KiB 的数据写入磁盘,那在操作系统级别上须要写 4 个 4KiB 大小的数据块。在极其状况下(比方零碎断电或操作系统宕机)可能无奈保障这一操作的原子性,比方可能在写入 4KiB 时产生了断电,此时只有一部分写是胜利的,这样就产生了数据一致性问题。

为了解决这个问题,数据库实现上通常都会采纳“双写缓冲区(Double Write Buffer,以下简称 DWB)”的机制。如下图所示,当 MySQL 要写入 16KiB 数据的时候,数据首先被写入 DWB 缓冲区,而后分 4 次写入表空间。

显然,这种设计尽管保障了 16KiB 数据的写入可靠性和原子性,然而却带来了间接的性能损失和间接的成本增加。

得益于 Nitro SSD 对 16KiB 原子写的反对,TWP 技术使得亚马逊云科技数据库服务不再须要 DWB 缓存冲了,而只须要将文件系统的页大小间接批改为 16KiB 即可,数据库利用就能够原子性地一次性写入 16KiB 的数据。TWP 能够确保数据库利用的 16KiB 数据在写入事务期间产生操作系统解体或断电时不会被撕毁。

应用 TWP 技术,在 EC2、EBS 和托管服务(如 Amazon RDS)上运行 MySQL 或 MariaDB 等关系数据库的客户能够敞开双写操作,从而在不影响工作负载弹性的状况下将数据库性能每秒事务数 (TPS) 放慢多达 30%。

下图是在 Amazon r6i.16xlarge EC2 实例上运行 MySQL 8.0 并应用简略 OLTP 负载的比照测试后果。在敞开 DWB 的状况下,其 TPS 在 512 个并发线程数时晋升了 2 倍,而且随着线程数越多,晋升成果越大。

数据库服务是云上最根底的服务之一。TWP 这个性看起来兴许不大起眼,然而却能带来如此高的性能晋升,这让咱们又一次见证了硬件翻新的威力。

3. ENA 网卡性能跃升 5 倍

在看具体内容之前,咱们来看看过来 16 年中 Amazon EC2 实例的网络带宽的晋升曲线。这图十分直观、十分丑陋、十分震撼人心。re:Invent 资料的视觉效果越来越好了。

亚马逊云科技网络反对三种网卡,别离是 ENI、ENA 和 EFA。

  • ENI:Elastic Network Interface,弹性网络接口。ENI 是一种逻辑网络设备,代表虚构网卡,依赖 Hypervisor 通过网络虚拟化性能实现。
  • ENA:Elastic Network Adaptor,弹性网络适配器,是一种通过 SR-IOV(Single Root I/O Virtualizatio,单根 I/O 虚拟化)虚拟化技术实现的硬件网络设备。这是一种通过优化了的网络接口,能提供更高吞吐量和更好的每秒数据包 (PPS) 性能。
  • EFA:Elastic Fabric Adapter,应用定制的操作系统旁路技术来加强实例间通信的性能。一开始 EFA 用在高性能计算场景中,使得客户可能在亚马逊云科技上大规模运行须要高级别实例间通信的 HPC 应用程序,例如计算流体动力学、天气建模和油藏模仿。

三种网卡的个性比照:

须要留神的是,EFA 因为采纳了 SRD 协定,其最大单流带宽被进步到 100Gbps。但 EFA 和 ENA 有些不一样,它没有采纳规范 TCP/IP 协定栈,只能面向高性能计算场景。因而,很多用户早就在期盼着,若能将 SRD 用在 ENA 上,则能惠及更多用户的更多场景。

2022 年的 re:Invent 峰会上,亚马逊云科技首次将 SRD 利用到 ENA 上,新推出了 ENA Express。它具备三个特点:

  • 简略:在网卡上通过简略配置或一次 API 调用来启用 SRD 即可;
  • 通明:利用还是应用 TCP/UDP 协定,ENA Express 自动检测通信单方 EC2 实例之间的兼容性,并在两通信实例均启用 ENA Express 后建设 SRD 连贯;
  • 高效:能大幅提高 EC2 实例之间的单流带宽和升高网络流量尾部提早。

SRD 将应用 ENA 的 EC2 实例的最大单流带宽从 5 Gbps 减少到 25 Gbps,足足晋升了 5 倍。而且,它最多可将 P99 的提早升高 50%、将 P99.9 提早升高 85%。

那到底 SRD 有什么魔力能如此大幅提高网络传输性能呢?咱们来看看 SRD 是什么、从何而来,又要到哪里去。

2020 年,亚马逊云科技发表了一篇论文《A Cloud-Optimized Transport Protocol for Elastic and Scalable HPC》,对 SRD 进行了具体论述(论文地址:https://assets.amazon.science…)

在论文摘要中作者写道:

“亚马逊云科技从新扫视了现有网络协议,以提供超级计算应用程序(supercomputing application)所需的继续低提早,同时放弃公共云的劣势:可扩展性、按需获取弹性容量、性价比以及疾速采纳更新的 CPU 和 GPU。

咱们发明了一种新网络传输协定 – 可扩大的牢靠数据报 (SRD),旨在充分利用古代商业多租户数据中心网络的劣势(具备大量网络门路),同时克服它们的局限性(负载不均衡和不相干流抵触时导致的提早抖动)。

SRD 不保留数据包程序,而是通过尽可能多的网络门路发送数据包,同时防止过载门路。为了最大限度地缩小抖动并确保对网络拥塞稳定做出最快的响应,SRD 在亚马逊云科技定制的 Nitro 网卡中实现。

SRD 由 EC2 主机上的 HPC/ML 框架通过亚马逊云科技弹性构造适配器(EFA)内核旁路接口(kernel-bypass interface)应用。”

对于 SRD 的详情,可浏览该论文,本文不再赘述。简略总结,SRD 是一种基于以太网的传输协定,设计初衷是面向超算场景,要联合 EFA 能力应用。其次要特点包含:

  • 乱序交付:SRD 放宽了对按程序传递数据包的要求,亚马逊云科技在 EFA 用户空间软件堆栈中实现了数据包重排序解决引擎。
  • 等价多路径路由(ECMP): 两个 EFA 实例之间可能有数百条门路,应用大型多路径网络的一致性流哈希的属性,以及 SRD 对网络情况的快速反应能力,找到音讯的最无效门路。
  • 疾速的丢包响应:SRD 对丢包的响应比任何高层级的协定都快得多。偶然的数据包失落是失常网络操作的一部分,这不是异常情况。

咱们来通过 TCP 和 SRD 两种协定的比照来看看其劣势。TCP 的传统路由形式示意图:

丢包很大概率会引起 TCP 传输带宽的大幅下滑。

而 SRD 采纳全门路传输方式:

这种状况下,丢包对带宽的影响十分小,除了短时间的小抖动,简直没有影响。

“旧时王谢堂前燕,飞入寻常百姓家”。过来只能用于 HPC 集群中的 SRD 协定,现在利用到最为通用的 ENA 网卡中。就是它,让 ENA 网卡性能一下子跃升了 5 倍!

这种性能晋升带来的益处是实实在在的。以亚马逊云科技内存数据库服务 Amazon ElastiCache 为例,与一般 ENA 网络相比,ENA Express 可能升高 44% 的尾部提早,TCP 最大单流带宽将减少 4 倍,从 5Gbps 减少到 25Gbps。

4. EBS 卷最大 IOPS 晋升 4 倍

IOPS,每秒输出 / 输入操作(Input/Output Operations per Second)的缩写,是一个罕用来表征存储设备性能的数字,数字越大示意存储的性能越好。

当亚马逊云科技在 2006 年推出 Amazon Elastic Compute Cloud (Amazon EC2) 时(Amazon EC2 Beta),m1.small 实例的本地磁盘存储容量只有微不足道的 160 GiB。此存储与实例具备雷同的生命周期,并且在实例解体或终止时隐没。在 EC2 测试版和 2008 年推出 Amazon EBS 之间的两年工夫里,这些晚期卷可能提供均匀约 100 IOPS。

随着亚马逊云科技的晚期客户取得了 EC2 和 EBS 的应用教训,他们要求提供更高的 I/O 性能和灵活性。在 2012 公布过后新的预配置 IOPS (PIOPS) 卷时,其 IOPS 达到了 1000。多年来,随着客户群变得越来越多样化,亚马逊云科技为 EBS 增加了新的性能和卷类型,同时也在进步性能、耐用性和可用性。

2014 年,亚马逊云科技推出 Amazon Elastic Block Store 通用型 (SSD) 卷类型,无论卷大小如何,它都能使每个卷的每秒 I/O 操作 (IOPS) 激增至 3,000 次。

2020 年,亚马逊云科技与 SAP 单干为 SAP 认证了 Amazon EBS io2 卷。与 Amazon EBS io1 卷类型相比,io2 卷的卷耐用性进步了 100 倍,IOPS 与存储的比率进步了 10 倍。

下图是 EBS 家谱,从 2008 年的 100 IOPS 终点开始,到 2012 年单个 PIOPS 卷能够提供 1000 IOPS,再到明天高端 io2 Block Express 卷能够提供高达 256,000 IOPS。

从曲线视角来看 EBS I/O 性能的继续 14 年的大幅晋升历程:

从表的视角来认真看:

在下面 EBS 卷家谱中,引起笔者最大趣味的是 2021 年公布的 Io2 Block Express 类型,其最高 IOPS 和吞吐量比 io2 全都减少了 3 倍。这是一次如许大的性能跃升啊!

在 2020 年 re:Invent 峰会上,亚马逊云科技发表了 io2 Block Express 提供预览版本,它被设计用于对 IOPS 和提早有最高要求的最为要害的利用,比方 Microsoft SQL Server, Oracle, SAP HANA 等。

io2 Block Express 卷应用了多种 Nitro 零碎组件,包含 Amazon Nitro SSD 存储和用于 EBS 的 Nitro 卡。最大容量可达 64 TiB,并且提供高达 256,000 IOPS 和 99.999% 的耐用性和高达 4,000 MiB/s 的吞吐量。

2021 年 7 月,io2 Block Express 卷正式公布。

2022 年,亚马逊云科技发表将 SRD 利用于 io2 EBS 卷,这就是本章的配角 io2 Block Express 卷。过来的一年中,亚马逊云科技持续将 SRD 协定的覆盖面延长到 EBS 上。甚至能够认为,io2 Block Express = io2 + SRD。

Io2 Block Express 卷性能大幅晋升,两种翻新技术功不可没:一是在网络方面利用了可扩大牢靠数据报 (SRD) 协定;二是在存储方面利用了亚马逊云科技自研的 Nitro SSD。因为这两种翻新前文都提到过,这里就不再赘述了。

SRD 协定无效改善了 Amazon EBS 块存储性能,缩小 90% 的尾部提早,并将吞吐量晋升 4 倍。

Io2 Block Express 卷使得客户们能够摈弃本地数据中心低廉的 SAN 存储了。

亚马逊云科技发表从 2023 年初开始,所有新的 Amazon EBS io2 卷都将在 SRD 上运行。咱们刮目相待!

5. Graviton 全速冲刺云计算制高点

2022 年 re:Invent 峰会上,亚马逊云科技公布了 Graviton3E 芯片。

这是一款专用于高性能计算服务器的 Graviton 芯片,在 HPC 畛域内罕用的浮点计算和矢量计算上了针对性优化。与 Graviton3 相比,HPC 性能晋升了 30%。

在笔者看来,亚马逊云科技的 Graviton 芯片具备几个“快”特点。

一是公布速度快。2018 年公布 Graviton1,2019 年公布 Graviton2,2021 年 Graviton3。这速度刚刚的!

二是性能晋升快。从服务器视角来看,基于 Gravtion 的服务器的架构有很多间接改良:每台服务器 3 颗 Gravtion 芯片,芯片密度尽管晋升了 50%,但服务器耗电量却和两路芯片服务器相当;而且全副芯片由 Nitro 对立治理,晋升了安全性的同时,还节俭了治理老本。

从芯片自身的性能来看,很难对三款芯片的性能间接进行比照。无妨换个视角,从采纳了三种芯片的同样规格的 EC2 实例的性能和性价比上进行比照:

图上能够分明地看出,每一代 Graviton 的每单位容量老本的橙色条越来越短,而性能的彩色条越来越长。咱们没有理由不置信这种趋势会在 Graviton4 上继续下去。

三是,亚马逊云科技本人的服务向 Graviton 迁徙的速度快。

除了计算、数据库、大数据分析服务外,亚马逊云科技也把 SageMaker 服务也运行在 Graviton 上了。

四是用户的认可速度快。

Databricks CEO Ghodsi 提到:“越来越多的客户将 Gravtion 芯片带来的性价比晋升视为收费的午餐。”

Gravtion 实例在一些客户中变得如此受欢迎,以至于在某些中央,这种服务器有时候甚至会售罄。初创公司 Honeycomb 应用它从英特尔驱动的服务器切换到 Graviton 服务器所节俭的资金来开发其它性能,而无需进步其价格。该公司的次要开发人员 Liz Fong-Jones 说:“咱们应用咱们能够失去的所有 Graviton 2 和 Graviton 3 服务器,但在咱们须要的一些可用性区域 Graviton 3 服务器却售罄了。”

五是用户向 Graviton 迁徙的速度快。

这里举两个例子。

一个是 Databricks,它的软件放慢了开发机器学习模型的过程。其首席执行官 Ali Ghodsi 在最近的一次采访中示意:“自 4 月以来,当 Databricks 开始推广其在由第二代 Graviton 芯片提供反对的亚马逊云科技云服务器上运行的软件时,其软件性能进步了 20%,老本却升高了 20% 至 40%。”

另一个是 Snowflake。其产品高级副总裁 Christian Kleinerman 在一份电子邮件申明中示意,“与其余类型的服务器相比,在 Graviton 服务器上应用 Snowflake 的软件能够进步 10% 的速度。性能晋升意味着 Snowflake 客户不须要尽可能多地应用其软件,促使 Snowflake 在 3 月其支出将缩小近 1 亿美元。同时该公司示意,随着客户利用较低的服务器老本并将更多数据放入 Snowflake 数据库,它心愿补救这一有余。”

Gravtion 高速冲刺“抢占制高点”逻辑到底是什么呢?

从一代代产品公布,到一项项性能晋升,到本身服务全面利用,到用户减速切换,Gravtion 的所有动作都是那么疾速。这背地,亚马逊云科技的行为逻辑到底是什么呢?兴许,Forrester Research 高级云分析师 Tracy Woo 的一句话一语道破了天机:“Gravtion 服务器芯片成为了亚马逊云科技反抗追赶者的秘密武器,它是亚马逊云科技要把他们和追赶者拉开差距而正在做的最重要的事件之一”。

数据分析初创公司 Starburst Data 的工程副总裁 Ken Pickering 示意,在 Graviton 服务器上运行的一个劣势是,它们在并行化或同时解决多个不同的计算作业方面优于英特尔和 AMD,这使得应用 Graviton 处理器的云服务器,耗电量更少、速度更快。

这种劣势,也和很多客户反馈中失去了印证。有客户通过租用 Graviton 服务器节俭了 10% 到 40% 的计算成本。据一位间接理解相干数据的人士走漏,Twitter、Snap、Adobe 和 SAP 都是 Graviton 服务器的客户,Graviton 服务器在推出仅三年后就成为了一项支出达数十亿美元的业务。自从亚马逊在去年 5 月份推出更具老本效益的第三代 Graviton 芯片以来,竞争对手感触到了更大的追赶压力。

一方面,Graviton 服务器的速度和效率为亚马逊云科技客户节俭了资金。另一方面,客户对此服务器的需要十分弱小,亚马逊从中取得的支出也在飙升。据间接理解数据的人士示意,截至 2021 年秋,每年 Graviton 服务器支出无望超过 50 亿美元。这意味着持续高速增长的话,到 2022 年可能占亚马逊云科技弹性计算云支出的 10% 以上。这位人士示意,EC2 支出约占亚马逊云科技去年 620 亿美元支出的一半。(备注:亚马逊云科技尚未披露 EC2 或 Graviton 的支出。)

写在最初

前文介绍的这些性能晋升和优化,包含 Lambda 函数、ENA、EBS、TWP 和 Graviton,都产生在亚马逊云科技云基础设施的最底层。它们兴许不像全新公布的那些服务那么夺目,然而,它们带来的成果却是最间接的、最切实的、最惠及公众的、最能帮客户省钱的。因为这些服务,是亚马逊云科技数百万计的用户们最常应用的。

亚马逊云科技的翻新重视就地取材。比方在 SRD 翻新上,传统数据中心通常采纳 Spine-leaf 网络架构,如下图所示。

而亚马逊云科技数据中心网络采纳改进版本的 CLOS 网络架构。

能够说,SRD 是最适宜亚马逊云科技网络架构的网络协议。在这种网络拓扑之中,SRD 软件在网络端点间提供多路径,缩小拥塞并容许网络在硬件故障时主动修复,从而进步其网络的无效吞吐量,同时缩小网络提早。

亚马逊云科技采纳立体式全栈翻新,系统地晋升工程性能。基于各种黑科技,采纳以芯片为代表的硬件、以 Nitro 为代表的网络、以 SRD 为代表的协定,为性能带来了成倍乃至数量级上的晋升。

亚马逊云科技重视一种协定、全面采纳。SRD 在全面反对 ENA 和 EFA 的根底上,减少了对 EBS 的笼罩反对,真正实现了“一种协定,全面采纳”,最大化地施展出价值。笔者预测,SRD 必将成为亚马逊云科技数据中心内次要的根底网络协议。

亚马逊云科技自研芯片之战,已博得累累战果。自研芯片为亚马逊云科技带来了全面的专业性、高性能、翻新速度和安全性。以翻新速度晋升为例,数据显示,自从 Nitro 在 2017 年公布以来,EC2 实例类型从几十种一下子增长到五百多种。

亚马逊云科技在底层翻新的同时,还重视尽量不给用户带来额定改变老本。过来,SRD 始终专一在 HPC 畛域中,对 TCP/IP 的反对始终存疑。这一次十分要害的是,应用了 SRD 的 ENA Express 间接反对了 TCP/IP 和 UDP,因而客户不须要批改任何的代码,就能间接利用 SRD 所带来的种种能力晋升。

“快”是亚马逊云科技身上一道最亮眼的标签,让亚马逊云科技在短短十几年工夫内就成为寰球公共云霸主。亚马逊云科技越来越像一位大侠,在内力越发深厚的同时,出招还更快、更准。“快”的背地,是亚马逊云科技久远的眼光、精确的决策和坚定的执行力。

让这种底层翻新和外围性能晋升来得更多更剧烈一些吧!!

本篇作者

刘世民

云计算技术专家,曾就任于华为、IBM、海航等公司,专一于云计算。曾在海航团体易航科技负责云服务事业群总经理一职,负责 IDC、云平台、零碎运维、信息安全以及用户服务等业务。保护有“世民谈云计算”技术博客和微信公众号。《OpenShift 云原生架构原理与实际》作者之一、《Ceph Cookbook 中文版》《精通 OpenStack》、《机器学习即服务: 将 Python 机器学习创意疾速转变为云端 Web 应用程序》译者之一。

浏览原文:https://dev.amazoncloud.cn/co…

正文完
 0