关于边缘计算:连接云边端构建火山引擎边缘云网技术体系

2次阅读

共计 7389 个字符,预计需要花费 19 分钟才能阅读完成。

近日,火山引擎边缘云网络产品研发负责人韩伟在 LiveVideoStack Con 2023 上海站围绕边缘云海量分布式节点和上百 T 的网络规模,联合边缘云疾速倒退期间遇到的各种问题和挑战,分享了火山引擎边缘云网的寰球基础设施,交融凋谢的云网技术体系以及将来火山引擎边缘云网的倒退瞻望。

迄今为止,云计算曾经倒退了近二十年,成为了事实上的社会基础设施。5G 时代到来后,生产互联网开始一直向产业互联网延长,涌现了物联网、车联网等大流量、低提早、高并发的场景。原有云端的架构难以满足新场景下产生的各种需要,这促成了算力继续下沉,数据落至边缘。随着边缘云在不同场景的浸透,云核心和边缘联合的基础架构将成为新一代的基础设施,边缘云会减速进入成熟期。

韩伟示意:边缘云疾速倒退,须要网络的完满撑持。只有网络进来,算力就能进来,这也是火山引擎边缘云所继续冲破的指标,即让连贯和计算无处不在。如何构建一张交融凋谢的网络来连贯算力、数据、场景甚至多云?以下将分享火山引擎边缘云网络技术体系建设门路。

-1-

火山引擎边缘云网基础设施建设

首先是建设寰球云网的基础设施,火山引擎在 2020 年开始鼎力建设边缘云的资源底座,指标是提供寰球对立的资源及技术底座撑持业务的疾速倒退。截至今日,曾经笼罩了 50+ 国家,1300+ 节点,全网的带宽储备达到 110Tbps+。

此外,火山引擎选取了一些优质的区域节点,在不同的节点之间通过专线进行互联,同时还笼罩了不同国家和地区的跨域专线,通过节点互联,联合海量的分布式节点,构建了一张寰球的骨干网络,很好地满足了业务的疾速倒退。基于这张寰球骨干网络,向上撑持了内容散发网络、联网与减速相干的产品体系、以及平安防护一体的整个边缘云网的产品矩阵。

这张网络具备以下几点特色:

首先,超大的规模与弹性。上文提到骨干网络有海量的分布式节点,整体储备带宽达到 110Tbps+,此外,火山引擎边缘云在不同节点选取了高性能硬件,并基于此构建了整个边缘云的云原生操作系统。经验抖音的春晚、双十一、世界杯以及外部业务突发状况的锻炼。目前,边缘云基础设施在具备肯定规模的同时还具备了较好的弹性。

第二,骨干网络的买通。包含跨域专线、区域节点互联,真正做到了基础设施层面的寰球一张网,为下层业务的互联互通打下了根底。

第三,安全可靠。火山引擎边缘云基于业务诉求,选取局部节点建设了高防的荡涤核心。不同的节点具备云原生的 DDoS 和 WAF 防护能力,从而为下层业务保驾护航。

最初,节约老本。抖音规模曾经十分大,火山引擎边缘云将抖音的业务规模对基础设施的资源需要和 ToB 做了并池,使其在更大范畴内复用,极大优化了老本。

此外,火山引擎边缘云在边缘云网体系以及边缘计算节点体系中搭建了运维和治理的相干平台,升高运维老本的同时晋升了运维效率。

-2-

构建火山引擎边缘云网的技术体系

火山引擎边缘云网解决方案

边缘云网的解决方案曾经连贯了云、边、端,从下向上首先是整个网络的基础设施。

火山引擎边缘云领有海量分布式节点,并在线路较好的资源节点做了专线的资源笼罩。整体在根底网络层搭建了一张寰球骨干网络,合规跨境上则笼罩了东南亚 / 中日 / 中韩 / 中欧等次要区域。为了更好地应用这张根底物理网络,火山引擎边缘云在此之上形象出了边缘互联服务,可能联合边缘节点的公网带宽、专线容量进行整体的调度容灾,从而为下层业务提供更好的复用能力。

除了联合网络基础设施的底座之外,火山引擎边缘云还推出了边缘联网的产品体系,笼罩了 SD-WAN+ 产品,边缘接入产品、跨境减速以及边缘计算节点网络相干能力;通过 SD-WAN+,可能在端侧反对 VPN、挪动 APP 及 CPE 设施的接入。在边缘接入侧,通过专线的接入能力,可能解决企业上云相干场景;通过边缘节点间联网能力,能够连贯不同的计算节点,最终造成一张由分布式节点形成的具备业务自治能力的云上网络。

基于这个边缘联网的产品体系,火山引擎边缘云构建了笼罩 3 -4- 7 层、连贯了云 / 边 / 端的网络减速体系,分为三个产品:第一个是寰球减速,面向 4 层减速相干场景;第二个是 DCDN,反对一站式动动态混合网络减速服务,第三个是面向游戏相干场景的 GNA。GNA 在 APP 上会有减速和诊断的能力,再联合云上的门路择优、网络调度,可能为游戏减速行业的客户提供更好的服务体验。左侧是边缘计算节点,边缘计算节点的商业化会对网络提出云化的需要。火山引擎边缘云研发了满足边缘计算节点倒退相干需要所必须的产品能力,包含 VPC、负载平衡、NAT、EIP。不同的边缘计算节点之间可能通过边缘联网的整个体系互联互通,连贯到一起。

火山引擎边缘云网技术体系

图为边缘云网技术体系

最上层的基础设施有以下特色:笼罩寰球的边缘节点,目前火山引擎的规模比拟宏大,带宽储备比拟短缺;笼罩寰球的骨干网络,包含国内和海内,具备肯定的专线资源笼罩;优质线路,在选取节点的同时对线路的选取也有比拟高的要求,火山引擎边缘云提供了优质的复线及三线带宽资源;丰盛的硬件状态,针对不同节点的容量诉求及节点的布局,咱们提供丰盛的硬件状态,可能满足不同场景需要。

基础设施之上是技术层。首先,网络转发平台提供 EVS、EGW、TTGW 三个转发立体。其中 EVS 是主机网络,撑持虚拟机和容器的算力资源,提供网络隔离、网络限速及平安组等能力。EGW 是交融网关,边缘节点是异构的,有海量的分布式节点,咱们把很多网络能力交融到一个交融网关中,它是整个边缘云 To B 的网络和平安的流量入口以及平安支点。TTGW 是外围网关,整个团体的所有流量的公网入口都基于此构建,它同时承载了高防的流量入口。基于以上三个不同场景性能组件的诉求,咱们在底层形象出了一个网络转发框架,以解决设施异构问题,提供软硬一体的转发能力。此外,网络转发框架中积淀了通用的性能优化相干能力,可能为下层不同数据面的组件提供更好的复用。其次是根底云平安,咱们协同平安团队提供原生防护能力、主机平安以及高级网络威逼检测能力。

在边缘云上,有 CDN、DCDN、GA 和 GNA 等不同的网络减速场景,其中很多能力具备肯定的通用性,于是火山引擎边缘云形象出了网络减速平台。将来,网络减速平台还会对外开放,它将具备以下能力:第一,多维调度能力,可能基于老本、品质、容灾,提供不同维度的调度能力,供各个业务抉择;第二,通过自研的公有协定更好地优化传输体验,同时在传输优化方面发展了较多摸索工作,晋升了整个传输的性能。此外,在数据压缩上包含头部压缩及报文压缩,可能无效升高数据传输的负载。在门路探测方面,包含端探测及转发探测进行了有机的交融,可能更疾速地发现并定位整个数据转发门路中的各种问题,从而疾速复原。

整个边缘云网体系中的产品十分多,为了简化配置立体的复杂度,咱们将其形象为 北向的业务编排,南向的设施治理以及通用的技术服务

在北向,能够持续形象为面向业务的外围管制层,如 VPC、SD-WAN、EIC 边缘互联。这里北向次要面向用户配置,包含控制台及 OpenAPI 层,有许多业务本身的语义,须要元数据存储,进行元数据编排,造成底层可能了解的根底配置立体。

第二层面向设施,所有的配置下发须要连贯设施、治理设施、探测设施。其中,面向设施有许多通用能力,咱们构建了高性能的配置下发通道,并提供设施的水位治理,配置管理能力,通用的配置序列化通道;在资源调度层面,提供跨集群资源调度能力。举个例子,在多 Group 场景下,比方一个配置应该落在哪个 Group,须要依据配置水位及理论水位的状况,做全局调度优化;咱们会在通用管控层形象出通用的框架能力,从而满足各个业务方的需要。根底服务层也是一层形象,其中有很多形象出的原子的能力,可能被各个业务复用,包含任务调度、动静配置下发,如增量全量的配置下发、配置对账、一致性巡检,这些都可能在动静配置层被屏蔽。此外是针对南向的配置,编排之后的数据存储。

左边是联合网络运维及产品研发需要搭建的智能网络平台,次要面向运维、产品、售后、经营及研发等不同角色对网络平台的需要。基于此平台,做了变更的白屏化、自动化、告警、巡检、大盘展现、水位治理。面向产品售后提供局部问题根因剖析能力,如一键诊断能力。

网络的前台面向用户,而上述能力的采集、聚合、荡涤则在中台实现。对于这个智能网络平台,将来咱们心愿可能将一部分能力赋能客户,比方用户应用了云上的许多资源,它的治理如网络拓扑治理比较复杂,那么通过网络拓扑的可视化、网络门路的剖析可能帮忙用户更好地管理网络。其次,当用户配置比拟多时,常常会呈现谬误配置的状况,或者配上后健康检查不通,但用户发现不了,那么便能够通过一键诊断能力,在用户配置实现后,联合其配置做预查看,发现问题后给用户提醒。

综合以上的能力,边缘云网技术体系便可能很好地撑持计算服务及网络服务。

火山引擎边缘云网的技术特色

联合上文提到的产品体系及技术体系,这张网络的特点如下:

  • 云网一体,多点协同:GNA 产品在游戏端的 APP 上有 SDK 部署,而 SD-WAN+ 在端侧有 CPE,APP 及 VPN 等不同端的接入能力,基于端的连贯及治理能力,咱们可能更好地和云上协同。同时,边缘智能一体机会在近场、现场的边缘部署。围绕边缘的分布式节点,咱们会有许多互联及减速相干需要。目前这张网络的基座曾经具备了通用减速和通用互联能力,此外,咱们围绕边缘和核心的协同,在回源减速、带宽降本方面做了很多优化。动态带宽可能为更多业务所复用,云边互通可能反对公网及内网的互通。
  • 交融网络,更高性价比:边缘的网络相比核心会更加简单,线路资源也更多样化,包含小运营商,复线、多线公网带宽,及回源专线、跨境专线。对于如此简单的网络,咱们须要在更多维度进行调度及交融,给业务提供更极致的性价比,其中必须的是基于老本、品质、提早的全局调度。
  • 小型云化,灵便部署:边缘云的节点比拟多,异构比较复杂,不同节点的容量也各不相同,对老本灵便度的要求也随之进步。为了满足不同节点对网络的差异化需要,对外体现雷同的服务界面和产品界面,咱们把很多网络能力交融到同一个网关中,这是 All in one 的策略。比方公网入口、平安防护、跨域互联、专线接入都通过交融网关构建。其次,网络组件十分多,上文提到许多产品是由较多的技术组件组成,为了解决灵活性的需要,咱们反对裸金属、虚拟机、容器的灵便部署,同时在不同的节点上,虚拟机、容器、网络、存储也具备按需混合部署能力。通过这一系列的灵便部署可能更好地满足分布式云的小型云化需要。
  • 超大规模,寰球笼罩:目前,火山引擎的寰球节点达到 1300+,网络带宽达到 100Tbps,无论是线路抉择、节点互联、跨域笼罩,都造成了一张寰球优质的减速网络。
  • 软硬一体,高性能转发:边缘云分布式节点比拟多,而且大小容量差异性十分大。在边缘会有局部大容量节点及大流量场景,包含外围机房业务,咱们反对 P4 导流网关,单机能跑 3.2T 流量,能够级联到不同的软件转发能力上,通过 Overlay 的灵便调度和封装解决网络转发在全网的灵便弹性伸缩能力。其次,团体场景现在日头条、TikTok、抖音对外围的负载平衡提出了更高的要求,基于软硬一体的技术 目前咱们单机曾经能跑到 800G 带宽。最初,EVS 主机网络在边缘也会面临着更大的挑战,次要是边缘机型的差异化,网卡的差异化,咱们依照产品需要及布局,在局部机型及场景下进行了网卡 Offload 的优化。
  • 全面上云,稳固牢靠:边缘云的资源池是高度对立的,设施、带宽、专线都对立到了雷同的资源池。面向不同的计算、网络、存储相干场景,咱们在同一个资源池做复用和调度,从而更好地晋升资源的利用率和复用比。第二点是内外对立,大家看到的边缘云上所有的产品,无论是界面还是服务都与外部高度对立,咱们将许多外部的业务跑到了规范的 To B 产品上,能够更好地打磨产品体系。目前,CDN、DCDN、GA 等产品曾经全面上到边缘计算节点上,因而,火山引擎边缘云是通过大规模验证的,安全可靠的一朵云。

-3-

展望未来:网络后行,驱动业务倒退

在边缘云疾速倒退的过程中,韩伟对火山引擎边缘云网络有了更多的思考——网络后行,驱动业务倒退。

传输可视,数据驱动的网络智能平台

从定位来看,网络连接了算力、数据及不同的场景,所以各个产品和业务对它都有十分多的诉求。但网络常常遇到各种各样的问题,如网络不通、丢包、速度慢,呈现问题时候很难精确定位。在边缘云上,这个问题会放大。边缘云不同节点之间的规模差别较大,分布式节点较多,很多的场景,须要相互联动,节点之间还要互联,所以业务依赖比拟重,转发门路比拟长。作为云计算的厂商来讲,下面肯定会有各种各样的租户,承载的租户又十分多。所以整个网络的服务,其实面向了业务,面向了售后,面向了客户,挑战十分大。

站在咱们的角度来看,私网是绝对容易可控的,所以指标是能间接定位问题。对于公网,有一段是不可控的,所以在可控的范畴内定位问题,在不可控的范畴内做到能很快地定界,即判断是私网的问题,还是公网的问题。

基于这样的背景,咱们想去把网络的分层,做一个传输的刻画。

首先是网络层,面向 3 层,有很多的业务基于 3 层做网络的互联互通,咱们会在整个网络体系里减少很多的埋点,会对报文做染色,记录走了云上的哪些组件、产品、软件等,咱们通过软件定义网络的思维,会给这个报文去打标,当它丢掉后,可能晓得它的源端、指标在哪里,门路是什么样子的,判断出它在哪个门路的哪个点上丢了包。通过门路笼罩的能力,再联合场景的笼罩,能够把很多的场景枚举进去,当场景呈现问题时,埋点可能及时启动,就能够疾速地定位问题。

此外,咱们还建设了比较完善的异样发现体系,在告警、监控、巡检、丢包方面,减少了比拟细粒度的数据采集,心愿能先于客户先发现问题,有更多工夫来疾速修复它。

最初是可用性探测,云上的实例数量十分多,出了故障之后,咱们须要疾速判断分明它的影响面,所以会对云上的所有资源做一些低频的可用性验证。比方 DC 故障之后,很容易看到哪些可用率产生了大规模降落,从而更好地看到影响面。

在传输层,上文提到的产品中很多是基于 7 层利用代理转发的。在客户端到代理这一侧,其实是一个连贯,代理到后端的终端节点之间,是另一个连贯,两头是一个申请。站在申请的角度来看,咱们没有方法把客户端包含服务端的连贯,连贯在一起,因为两头被代理截断了,所以看不到整体。呈现问题后,只能去查日志分段定位,看一下到底是申请期待的工夫太长,还是建连或响应的工夫太长。咱们心愿不论是基于 kernel 还是用户态的协定栈,都可能刻画出整个传输过程,比方首包时延,响应的工夫,整个建连包含申请期待的工夫,而后在用户态形象出客户端的连贯和服务端的连贯,这样在连贯层面能看到从客户端到实在服务端之间的链路。在申请的维度,也能够把它关联到一起,这样当一个申请慢了之后,能分别是连贯层面还是应用软件自身产生了问题。

在应用层,联合日志剖析零碎,能够研发异样发现的能力,比方状态码、申请的响应工夫,包含申请的地区起源、指标资源,可能做很多的聚合,比方哪些资源有问题,哪些地区有问题,通过异样发现,获取业务散布,帮忙用户量化体验。

在联合网络层、传输层、应用层后,可能高效间接地定位许多网络上的问题。基于这样的思考,咱们会推出一个网络智能的平台,后面提到的是站在运维经营角度,而这里是指在网络传输,包含网络的一些疑难杂症维度发展更多工作;针对离线和实时数据的一些剖析,以及机器学习相干的解决后,火山引擎边缘云在网络大盘上,在更多场景下,把可视化异样诊断的能力做到更好。

网络凋谢,助力云上生态

网络从场景上会连贯算力、连贯数据、连贯场景,云上的各种产品和场景对网络是强依赖的。而边缘云的倒退,目前更多的发力点还是在 IAAS 和 PAAS 这一层。所以如果让云上的产品包含能力更加多元化,网络也须要更凋谢。

当下的网络更多是做了一些根底相干的能力,比方计算节点对网络云化的需要,资源商品化的需要;以及在网络根底能力之上,咱们在 PAAS 层做了一部分网络减速,游戏减速,SD-WAN 组网相干的需要,这些能力聚焦的点还是在 IAAS 和 PAAS 上。

再看用户需要场景,云倒退到前面肯定是生态,咱们须要协同更多的产业搭档去共建这个生态,能力有更好的倒退。很多的产品厂商,比方平安的厂商,在传统畛域可能做了十几二十多年,安全设备很简单,能力很强,技术也很深,然而以前次要市场在线下 IDC,到云上后,可能会做一些云化的相干场景部署,在云上卖镜像卖给用户,目前还是让用户本人解决部署问题。所以如果传统厂商能更好地上云并给客户提供服务,对云是十分好的补充。

第二就是传统行业的搬站,第一阶段解决的是企业上云,包含云上原生相干的一些场景,外面更多的是互联网相干的厂商,所以可能第一阶段更容易上云。第二个阶段更多的是金融政企相干的传统行业,因为他们对 IDC 的依赖比拟重,所以个别是在后一阶段上云。咱们在此阶段发现十分多问题,比方以前在线下的设施厂商,他的组网计划里有很多定制化,而在云上,更多是面向私有云的租户,做一些通用化的诉求,这就存在很多产品的能力匹配度问题。

此外,即便他们上了这朵云,将来可能也会有很多个性化场景的需要,因为在以往的教训外面,他们其实曾经享受到这个红利,很多设施厂商违心帮他们做定制化的场景。再者,很多的金融政企或者其余相似行业客户,他们心愿平滑上云,不心愿做太多的革新。所以从用户需要场景来看,包含从厂商的定位来看,都须要将这朵云凋谢进去。而云的凋谢模式肯定是网络后行。

网络凋谢分为以下维度:

  • 第一,能力构建方面,须要具备网络编排能力,在网络转发门路中能够接入更多利用的提供商和服务商。
  • 第二,接入后要为云上租户提供平安隔离的能力;而且不能让用户感到太多差异化,须要具备通明接入能力。
  • 此外,还需根底配套的运维、监控、日志体系,帮忙用户更好地应用及治理好云。

火山引擎边缘云心愿将来可能和更多的网络厂商、平安厂商、利用服务商成为合作伙伴。在产品生态、利用生态、服务生态协同促成,共建边缘云市场的今天。

对于火山引擎边缘云:

火山引擎边缘云,以云原生技术为根底底座,交融异构算力和边缘网络,构建在大规模边缘基础设施之上的云计算服务,造成以边缘地位的计算、网络、存储、平安、智能为外围能力的新一代分布式云计算解决方案。

正文完
 0