共计 6365 个字符,预计需要花费 16 分钟才能阅读完成。
前言
随着网络技术的倒退和云计算业务的疾速遍及,以后各行各业的客户都有迫切上云的需要,越来越多的要害业务,如:web 前端、视频会议、办公利用、数据存储等开始部署在云端;新的网络架构设计特地是骨干网,必然要适应云计算和互联网利用的倒退,而传统的 MPLS 骨干网不能适应这种变动,面临如下诸多挑战:
1、如何实现用户云下与云上、云上 VPC 之间、云下不同物理地位之间业务的灵便开明;
2、如何利用本地专线和最初一公里互联网线路构建混合组网能力;
3、如何确保要害业务的优先级和服务质量;
4、如何简化开明流程、疾速部署和对立策略管理;
5、如何晋升专线带宽利用率和流量可视化;
6、如何实现新一代骨干网智能、牢靠、可调度。
本文将联合 UCloud 根底网络团队新一代骨干网的架构演进过程,介绍 Segment Routing 技术在 UCloud 骨干网的落地细节,并具体论述以后骨干网如何通过 SR-TE 技术实现智能、牢靠、可调度的新一代骨干网架构。
DCN 网络疾速迭代
UCloud 数据中心基础架构网络(以下简称 DCN)在最近这几年经验了横蛮式的疾速倒退阶段,从北上广三地的数个可用区倒退到寰球 25 个地区 31 个可用区;业务云化和分布式数据中心的建设,推动了城域网(以下简称 MAN)和骨干网布局建设,如下图所示:
DCN 网络迭代过程如下:
1、同城单可用区降级至同城多可用区;
2、单 Region 多可用区降级至少 Region 多可用区。
DCN 网络疾速迭代带来的网络挑战:
1、MAN 网络高带宽与可靠性要求: 同城分布式 DCN 网络建设带来的问题是:客户业务扁平化部署,导致同城跨可用区有大量的东西向业务互访流量,对 MAN 网络的带宽和可靠性有严格的要求。
2、骨干网架构降级与流量工程要求: 随着 UCloud 寰球节点 DCN 网络的建设部署,跨地区客户开始有业务互访和跨域流量优化需要,对骨干网布局和流量工程提出了新的要求。
寰球专线资源布局
以后 UCloud 寰球 CDN 节点有 500+,25 个地区,31 个可用区;通过运营商专线买通寰球 25 个地区,如下图所示:
1、寰球机房专线接入骨干网
骨干网依靠 UCloud 寰球 DCN 网络以及专线资源,可为用户提供寰球范畴的就近接入,实现端到端网络稳固,解决跨域业务互访丢包和高提早问题。
2、寰球节点灵便组网
为用户提供基于本地专线和最初一公里互联网接入,实现用户的混合组网能力。
3、提供稳固、牢靠的基础架构
点到点专线资源提供物理层的带环爱护,一方面通过 SR-TE 技术实现流级别调度和疾速容灾备份能力;另一方面根底网络提供一张 1:1 基于 Internet 级的备份骨干网,保障整个骨干网达到 99.99% 可用率。
UCloud 骨干网架构演进历史
01、2018 年之前骨干网架构
UCloud 根底网络团队在 2016 年下半年开始布局第一代骨干网(以下简称骨干网 1.0),2017 年底实现了骨干网 1.0 设计规划,骨干网 1.0 架构布局专线资源接入到各 Region 的 MAN 网络外围设施(以下简称 M -Core), 各 Region 的 M -Core 之间通过供应商二层专线进行寰球组网;M-Core 之间运行 ISIS 协定,买通寰球骨干网 ISIS 域,每个地区双 M -Core 或者四 M -Core 和管制面 RR 建设 IBGP 街坊关系,M-Core 通过 IBGP 协定将本地区 DCN 网络路由信息通告至 RR,RR 反射给寰球所有 M -Core 节点;数据转发面通过 IBGP 路由进行迭代,最终通过 ISIS 转发至指标 DCN 网络。为优化骨干网流量转发,在关键设备上开启如下性能:
1、为实现骨干网等价路由(以下简称 ECMP),必须在 M -Core 和 RR 上开启 BGP ADD-PATH 属性;
2、为保障 IGP 最短门路转发,跨域之间 ISIS 开销值设置为两地区直连专线理论提早 *100,如:北京 - 上海专线提早为 30ms,那么北京 - 上海地区的 ISIS 开销设置为 3000。
骨干网 1.0 设计指标:
1、实现 Region 级别 DCN 网络互通,提供云业务跨地区容灾能力;
2、反对云上用户通过 UCloud 高速通道产品 UDPN 买通跨域 VPC 资源。
骨干网 1.0 新挑战:
1、MAN 网络与骨干网高度耦合,专线开明配置简单,减少运维难度;
2、不反对客户不同物理地位之间资源互通;云下资源到云上 VPC 之间资源开明简单、周期简短;
3、不反对跨地区级别的流量智能调度。
02、2020 年之前骨干网架构
针对骨干网 1.0 所面临的一些问题,2018 年 UCloud 根底网络团队设计规划了第二代骨干网(下简称骨干网 2.0)。在骨干网 2.0 中,咱们新增了租户隔离的个性,而要在骨干网上实现大规模的租户隔离,MPLS-VPN 技术最合适不过,但因为思考到整体的部署老本以及部署难度,咱们最终放弃了这个计划,借鉴了 DCN 网络的租户隔离思路,采纳 VXLAN 二层网关计划来实现;
骨干网 2.0 整体架构分为两层,Underlay 和 Overlay;Underlay 应用 VXLAN+BGP EVPN 实现网络大二层,在 Overlay 上实现骨干网 1.0 的架构需要;具体实现如下:
- Underlay 层布局
1、Underlay 层次要由两种设施组成:TBR 和 TER。TBR 用于运营商二层专线资源接入,次要用于数据转发,TER 用于封装 VXLAN 报文,即 VTEP 设施。寰球节点的 TBR 和 TER 设施通过 VXLAN+ BGP EVPN 技术组建一张寰球二层网络,这张二层网络提供寰球任意跨域节点之间二层业务开明。
2、TBR 设施通过 ISIS 协定买通整个 IGP 域,TER 和管制面 TRR 建设 BGP EVPN 街坊关系,各个站点互相学习 MAC/IP 路由;转发面数据通过 VXLAN 封装转发,管制面信息通过 EVPN 学习同步。
3、用户线下 IDC 业务互访,以及线下 IDC 到云上业务之间通过 VXLAN 开明二层业务。
- Overlay 层布局
跨域 M -Core 直连通过 VXLAN 开明,M-Core 之间运行 ISIS 协定,买通寰球骨干网 ISIS 域,每个地区双 M -Core 或者四 M -Core 和管制面 RR 建设 IBGP 街坊关系,M-Core 通过 IBGP 协定将本地区 DCN 网络路由通告至 RR,RR 反射给寰球所有 M -Core 节点,数据转发面通过 IBGP 路由进行迭代,最终通过 ISIS 转发至指标 DCN 网络。
骨干网 2.0 设计指标:
1、实现 MAN 网络和骨干网严格分层,晋升运维效率;
2、通过 VXLAN+BGP EVPN 构建业务接入网,实现业务灵便就近上骨干;
3、实现客户云下不同物理地位、云下到云上之间资源疾速开明。
骨干网 2.0 新挑战:
1、不反对骨干网流量智能调度;
2、本地接入只反对专线接入,组网形式不够灵便,减少网络经营老本;
3、VXLAN 包头开销过大,网络传输效率低下,专线结算成本上升;
4、不反对 L3VPN 客户接入场景。
为了解决骨干网 2.0 以后的问题,UCloud 根底网络团队在 2019 年下半年开始,对新一代骨干网架构进行从新设计、硬件选型,在新一代骨干网架构设计中采纳了以后比拟风行的源路由即 Segment Routing 技术(以下简称 SR),在介绍新一代骨干网架构之前先给大家简略介绍一下 SR 技术的基本概念。
Segment Routing 基本概念
01 Segment Routing
SR 架构基于源路由,节点(路由器、主机或设施)抉择门路,并疏导数据包沿着该门路通过网络,具体实现形式是在数据报头中插入带程序的段列表(Segment-list),通过 Segment-list 批示收到这些数据包的节点怎么去解决和转发这些数据包。
因为源节点(头端节点)通过在数据包报文头中增加适当的指令(Segment-list)即可实现基于指标地址的引流(甚至能够基于单条流粒度的引流),且除了头端节点之外,其它节点都不须要存储和保护任何流状态信息,因而引流的决定权都在头端节点。通过这种形式 SR 能够在 IP 和 MPLS 网络中提供高级的流量疏导能力。
02 罕用标签类型
- Prefix-SID
Prefix-SID 是由 ISIS 或者 OSPF 通告的全局 Segment,此 Segment 与 IGP 的前缀相干;Prefix-SID 代表一个路由指令,含意是:疏导流量沿着反对 ECMP 的最短门路去往该 Segment 相关联的前缀。Prefix-SID 具备如下个性:
- 全局 Segment,SR 域中的所有节点都晓得如何解决 Prefix-SID。
- 反对多跳,单个 Segment 逾越门路中的多跳,这样就缩小了门路所须要的 Segment 数量,并容许跨多跳的等价门路。
- 反对 ECMP,能够原生利用 IGP 的等价门路。
-Prefix-SID 个别是通过手工调配,也可应用控制器调配。
- Node-SID
Node-SID 是一种非凡类型的 IGP Prefix Segment,是 Prefix Segment 的子类型,通常是某个节点环回口的 32 位前缀地址,这个地址个别是 IGP 的“路由器 ID”;Node-SID 指令是:疏导流量沿着反对 ECMP 的最短门路去往该 Segment 相关联的前缀。其和 Prefix Segment 的指令是统一的。
- Adjacency-SID
Adjacency-SID 是与单向邻接或者单向邻接汇合相关联的 Segment,应用 Adj-SID 转发的流量将被疏导至指定链路,而不论最短门路路由如何,个别状况下节点会通告它的本节点链路 Segment(Adj-SID);Adjacency-SID 指令是:“疏导流量从与该 Segment 相关联的邻接链路转发进来”。Adjacency-SID 具备如下个性:
- 本地 Segment,SR 域中的只有 Adjacency-SID 始发节点晓得如何解决该 Segment。
- 反对显式门路,任何门路都能够应用 Adjacency-SID 来示意。
- 不依赖于 IGP 的动静路由计算,能够绕过 ECMP,走管理员指定的门路转发。
理论部署中应尽量少用 Adj-SID,因为其不反对 ECMP,且会减少 Segment-list 长度,因而倡议多应用 Prefix-SID,即反对 ECMP,又能够缩小 Segment-list 长度。
- Anycast-SID
SR 域中多个节点上配置雷同的单播前缀,那么该单播前缀就是一个 Anycast-SID,Anycast-SID 也是 Prefix-SID 的一个子类型。Anycast 汇合的属性是去往 Anycast 地址的流量被路由到 Anycast 汇合中距离最近(IGP 最短距离)的那个成员,如果开销雷同,则流量会进行 ECMP,如果 Anycast 的成员产生故障,则由 Anycast 汇合的其它成员来解决去往 Anycast-SID 的流量;Anycast-SID 指令是:疏导流量沿着反对 ECMP 的最短门路去往该 Segment 相关联的前缀。其和 Prefix Segment 的指令是统一的。
Anycast-SID 具备如下个性:
- 全局 Segment
- 天生反对 ECMP
- 反对高可用性
- 反对流量工程
留神:所有节点必须配置雷同的 SRGB,才能够通告雷同的 Anycast Prefix-SID。
03 SR Policy 个性
SR-Policy
为了解决传统隧道接口体系存在的问题, SR Policy 齐全摈弃了隧道接口的概念,SR Policy 通过 Segment 列表来实现流量工程;Segment 列表对数据包在网络中的任意转发门路进行编码。列表中的 Segment 能够是任何类型:IGP Segment、IGP Flex-Algo Segment(灵便算法)、BGP Segment 等。
从实质上讲,SR Policy(SR-TE)是 Segment 列表,不是隧道接口。
SR Policy 由以下三元组标识:
头端(Headend):SR Policy 生成 / 实现的中央。
色彩(Color): 任意的 32 位数值,用于辨别同一头端和端点对之间的多条 SR Policy。
端点(Endpoint):SR Policy 的终结点,是一个 IPv4/IPv6 地址。
色彩是 SR Policy 的重要属性,通常代表用意,示意达到端点的特定形式(例如低提早、低成本并排除特定属性链路等),Color 也是流量引流的重要参考属性。
SR Policy 生成的门路个别有两种:显式门路和动静门路
1、显式门路
显式门路个别是通过 CLI/Netconf 形式人工布局或者通过控制器形式下发的门路信息,次要包含信息有 endpoint 地址、Color、Segment-List 等;显式门路的最大弊病是无奈及时响应网络拓扑变动;为了能保障故障场景下 SR Policy 可能疾速收敛,能够通过验证头端的 SR-TE 数据来进行收敛。
倡议 Segment-List 应用描述符(IP)模式编写,头端默认会验证所有描述符;
- 一旦 SR Policy 候选门路不具备无效的 Segment 列表(描述符验证失败),则此候选门路变为有效;
- 当 SR Policy 所有候选门路都是有效的,则此 SR-Policy 有效。
如果 SR Policy 变为有效,则利用会生效;默认状况下 SR Policy 的转发条目被删除,流量回退到默认转发(SR-BE)门路。
2、动静门路
动静门路是由头端(路由器)或者 PCEP 依据头端的申请主动计算 SR Policy 候选门路:
- 动静门路次要示意为优化指标和一组约束条件,这两个因素指定了 SR-TE 的用意。
- 头端能够通过本地的 SR-TE 数据库算出门路,提供一个 Segment 列表或者一组 Segment 列表。
- 当头端不具备足够的拓扑信息时(跨域环境),头端能够将计算委托给控制器,由控制器主动算路。
- 当网络产生扭转时,动静门路会主动进行重算以适应网络变动。
04SR Policy 主动引流
SR Policy 引流反对域内场景和跨域场景,整体的转发流程如下:
- 着色 :进口 PE 在向入口 PE 通告 BGP 业务路由时,或者入口 PE 接管路由时对路由进行着色(标记路由 Color),Color 用于示意路由所须要的 SLA。
- 计算 + 引流 :域内场景下,头端节点收到 BGP 路由后,通过头端 SR-TE 数据库主动算路实现引流;跨域场景下,头端向控制器发送有状态的 PCEP 门路计算申请,控制器计算去往远端端点的 SR-TE 跨域门路。
- 转发 :数据包在头端实现引流,应用头端计算或者控制器下发的门路进行标签转发。
将 BGP 路由装置到 SR Policy 的动作称为主动引流,其原理次要是通过对 BGP 业务路由进行着色,将流量主动疏导至 SR Policy;SR Policy 的主动引流不须要简单和繁琐的引流配置,而且流量疏导对转发性能没有影响,流量管制粒度更为精密。
SR/SR-TE or LDP/RSVP-TE ?
UCloud 根底网络团队在新一代骨干网设计中转发面对立应用 MPLS 封装转发,而管制面的抉择通过慎重考虑,咱们具体比照了 SR/SR-TE 和 LDP/RSVP-TE 后,最终抉择了 SR/SR-TE,具体分析状况如下:
总结
本篇分享了数据中心横蛮式增长给 MAN 网络和骨干网带来的极大挑战,以及 SR 局部技术原理。在过来几年里,UCloud 根底网络团队一直演进骨干网架构,从骨干网 1.0 降级到骨干网 2.0 架构,实现了用户云下资源之间、云下到云上资源的疾速开明,但仍然满足不了以后互联网客户的业务疾速倒退需要,例如:不反对智能流量调度、无奈实现客户 L3VPN 接入需要,不反对最初一公里 Internet 线路接入等。
下一篇将重点介绍 UCloud 如何联合 Segment Routing 技术实现智能、牢靠、可调度的新一代骨干网,助力用户分钟级构建多地区寰球网络以及同城多可用区互访、多 Region 多可用区互联,实现 UCloud 与用户线上线下 IDC 无距离互通,升化云网协同。
本文作者:唐玉柱,UCloud 高级网络架构师、UCloud 新一代骨干网架构布局我的项目负责人。领有丰盛的数据中心、骨干网架构设计和运维教训;目前次要负责 UCloud 寰球数据中心、骨干网架构设施选型、架构设计和布局。