关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度二

在上篇《基于 Segment Routing 技术构建新一代骨干网：智能、牢靠、可调度（一）》中提到了 UCloud 数据中心横蛮式增长给 MAN 网络和骨干网带来了极大挑战以及 UCloud 骨干网 1.0、2.0 的演进路线、SR 技术局部原理介绍。本文将重点介绍 UCloud 如何通过 Segment Routing 技术改良管制面和转发面，实现智能、牢靠、可调度的新一代骨干网。

新一代骨干网架构

设计指标：

控制器智能计算门路和头端主动计算门路 ：控制器实时收集转发设施状态信息，响应转发节点门路计算申请和门路下发。
全场景接入，实现灵便组网 ：反对用户本地专线、互联网线路混合接入形式，实现用户灵便组网。
多维度 SLA 门路布局 ：满足多业务不同门路转发需要，确保要害业务的优先级和服务质量。
升高专线老本，进步整体专线利用率 ：破除骨干网 2.0 中的 VXLAN 技术，缩减包头开销，升高专线老本；通过智能流量调度正当布局专线容量。
流量可视化，按需调度 ：通过 telemetry 和 netflow 技术实现骨干网流量可视化，针对局部“热点流量”和“噪声流量”进行按需调度。

整体架构如下 ：

新一代骨干网次要包含三大组件：智能控制器、骨干边界转发 PE、接入侧转发 CPE&VPE：

控制器： 对全网转发 PE、CPE、VPE 等设施进行对立的资源管理、信息收集、配置下发，监控告警以及门路计算布局，实现全网资源的对立调度和治理。

骨干网边界： 全网 PE 和 RR 组成 SR-TE 骨干网核心层，用于实现多路径转发，流量调度；骨干网边界对外次要接入 CPE、M-Core、VPE&VCPE 等设施。

接入侧边界： 接入侧分为三种设施类型：CPE、M-Core、VPE&VCPE。

CPE： 次要用于接入本地专线客户；

M-Core： 私有云 MAN 网络外围，实现各城域网接入骨干网；

VPE： 通过 Internet 或者 4G/5G 网络接入用户分支机构的 VCPE 设施，提供用户混合组网能力。

近年来，云数据中心 SDN 网络设计思路大行其道，其次要思维是转控拆散，转控拆散益处不必多说，当然也有其弊病；SDN 数据中心网络中的管制面故障有太多血的教训，管制面故障带来的转发面影响也是重大的；毕竟转发面才是真正承载客户业务的中央，所以咱们在设计新一代骨干网时须要思考控制器故障时，如何放弃转发层面的独立可用性。

接下来将介绍基于 SR 技术骨干网的管制面和转发面的设计实现原理。

管制面设计

新一代骨干网的管制面次要包含两个方面：

一、智能控制器；

二、SR-TE 骨干网路由设计管制面。

控制器的次要架构设计如下：

整个控制器的指标为实现统一的配置下发与可扩大的调度策略。基于设施寰球部署的特点以及网络并非百分之百稳固的前提，该零碎采纳了数据层跨地区部署，同时为了兼顾失常状况下控制器的疾速响应，管制节点采纳了分机房的集群部署形式来保障业务的可靠性与高效的调度能力；下层控制系统通过 BGP-LS、Telemetry 技术采集转发链路状态信息，收集到数据库，之后对采集到的数据进行剖析解决，最初通过 netconf 和 PCEP 形式下发配置和智能计算门路。

其中数据采集次要包含：

根本的 IGP 拓扑信息（节点、链路、IGP 度量值）
BGP EPE（Egress peer Engineering）信息
SR 信息（SRGB、Prefix-SID、Adj-SID、Anycast-SID 等）
TE 链路属性（TE 度量、链路提早度量、色彩亲和属性等）
SR Policy 信息（头端、端点、色彩、Segment 列表、BSID 等）

Netconf 和 PCEP 次要用于配置下发和门路计算：

头端向控制器申请门路计算；控制器针对收到门路计算申请进行门路计算
头端从控制器学到门路，控制器通过 PCEP 向头端传递门路信息
头端向控制器报告其本地的 SR Policy

实现能力如下：

疾速的故障响应： 因为外部自定义的算法需要，在线路或者节点呈现问题时，须要从新计算整张拓扑，以避开故障链路；
疾速实现手动故障域隔离 ：借助架构的劣势，实现所有流量在线路级别与节点级别的隔离；
疾速自定义调优门路 ：能够依据客户的需要疾速将客户流量疏导到任意门路上，保障客户各类门路需要；
客户流量秒级实时监控： 可监控流级别的客户故障，并实现故障状况下的门路爱护；

为了实现用户 L2 和 L3 接入场景需要，在骨干网规划设计了基于 MP-BGP 的 L3VPN 和 BGP-EVPN 的 L2VPN，上面来做一个简略的介绍。

MP-BGP

新一代基于 SR 技术的骨干网采纳了 MPLS-VPN 的技术个性，大抵须要如下组件：

首先须要在 MPLS VPN Backbone 内采纳一个 IGP（IS-IS）来买通外围骨干网络的外部路由；
PE 上创立 VRF 实例，与不同的 VRF 客户对接，VPN 实例关联 RD 及 RT 值，并且将相应的端口增加到对应的 VRF 实例；
PE 上基于 VRF 实例运行 PE-CPE&VPE、M-Core 间的路由协定，从 CPE&VPE、M-Core 学习到站点内的 VRF 路由；
PE 与 RR 之间，建设 MP-IBGP 连贯，PE 将本人从 CE 处学习到的路由导入到 MP-IBGP 造成 VPNv4 的前缀并传递给对端 PE，并且也将对端 PE 发送过去的 VPNv4 前缀导入到本地相应的 VRF 实例中；
为了让数据可能穿梭 MPLS VPN Backbone，所有的外围 PE 激活 MPLS 及 SR 性能。

在传统的 MPLS-VPN 技术的根底上，摒弃 LDP，启用 SR 性能来调配公网标签，内层标签持续由运行 MP-BGP 协定的 PE 设施来调配。

BGP-EVPN

在 MPLS 网络中实现用户 L2 场景的接入需要，有很多解决方案比方 VPLS，然而传统的 VPLS 还是有很多问题，比方：不提供 All-Active 双归接入，PE 流量泛洪可能导致环路危险以及反复数据帧。

为了解决 VPLS 的问题，咱们在新一代骨干网架构中采纳了 BGP-EVPN 协定作为 L2 网络的管制面；EVPN 网络和 BGP/MPLS IP VPN 的网络结构类似，为了实现各个站点（Site）之间的互通，骨干网上的 PE 设施建设 EVPN 实例并接入各个站点的 CE 设施，同时各个 PE 之间建设 EVPN 街坊关系；因为 EVPN 网络与 BGP/MPLS IP VPN 网络的不同之处在于各个站点内是二层网络，因而 PE 从各个 CE 学习到的是 MAC 地址而不是路由，PE 通过 EVPN 特有的路由类型将本人从 CE 学习到 MAC 地址转发到其它 Site。

BGP-EVPN 有三个比拟重要的概念：

1、EVPN Instance (EVI)：EVPN 是一种虚构公有网络，在一套物理设施上能够有多个同时存在的 EVPN 实例，每个实例独立存在。每个 EVI 连贯了一组或者多组用户网络，形成一个或者多个跨地区的二层网络。

2、Ethernet Segment（ESI）：EVPN 技术为 PE 与某一 CE 的连贯定义惟一的标识 ESI（Ethernet Segment Identifier），连贯同一 CE 的多个 PE 上的 ESI 值是雷同，连贯不同 CE 的 ESI 值不同。PE 之间进行路由流传时，路由中会携带 ESI 值使 PE 间能够感知到连贯同一 CE 的其它 PE 设施。

3、ET（EthernetTag）： 每个 EVI 能够形成一个或者多个二层网络。当 EVI 蕴含了多个二层网络时，通过 Ethernet Tag 来辨别这些二层网络。如果咱们把二层网络看成是播送域的话（Broadcast Domain），那么 ET 就是用来辨别不同播送域的。

为了不同站点之间能够互相学习对方的 MAC 信息，因而 EVPN 在 BGP 协定的根底上定义了一种新的 NLRI（Network Layer Reachability Information，网络层可达信息），被称为 EVPN NLRI。EVPN NLRI 中蕴含如下几种罕用的 EVPN 路由类型：

相比拟 VPLS，EVPN 的劣势如下：

1、集成 L2 和 L3 VPN 服务；

2、相似 L3VPN 的原理和可扩展性和控制性；

3、反对双归接入，解决容灾和 ECMP 问题；

4、可抉择 MPLS，VXLAN 作为数据立体；

5、对等 PE 主动发现，冗余组主动感应。

BGP-LS

BGP-LS 用于收集转发设施的链路状态信息以及标签信息，具体布局如下：

1、所有 PE 和 RR 建设 BGP-LS 街坊，PE 将各自的链路信息、标签信息以及 SR Policy 状态传递给 RR；

2、RR 与控制器建设 BGP-LS 街坊，将 IGP 的链路状态信息转换后上报控制器。

01、骨干网核心层

骨干网 PE 设施之间运行 ISIS-L2，并开启 SR 性能，布局 Node-SID、Adj-SID、Anycast-SID；PE 基于环回口与 RR 建设 MP-IBGP 街坊关系，传递各站点 VPNv4 路由，实现 L3VPN 用户业务转发；同时 PE 采纳 BGP EVPN 作为 Overlay 路由协定，基于环回口地址建设域内 BGP EVPN 街坊关系，采纳 SR-TE 隧道封装用户二层数据，实现 L2VPN 用户业务通过 SR-TE 转发。

个别分为 SR-BE 和 SR-TE：

SR-BE 由两层标签组成：内层标签为标识用户的 VPN 标签，外层标签为 SR 调配的公网标签；

SR-TE 由多层标签组成：内层标签为标识用户的 VPN 标签，外层标签为 SR-TE 标签，个别由设施头端计算或者通过控制器下发的标签栈；

L2 用户通过查找 MAC/IP route 来实现标签封装，L3 用户通过查找 VRF 中的私网路由来实现标签封装。

02、骨干网边界层

骨干网 PE 与 CPE&VPE 以及私有云的 M -Core 运行 EBGP 收发用户路由，通过 BGP 实现数据转发；CPE 和 VPE 与接入用户 CE 以及 VCPE 运行 EBGP；特地须要留神的是 VPE 与 VCPE 是通过 Internet 建设的 BGP，所以须要通过 IPsec 协定进行数据加密。

介绍残缺个骨干网的架构设计后，咱们将别离针对骨干网的智能、牢靠、可调度三大个性进行分析。

01、智能

控制器对立编排业务场景 ：

1、分支网络设备自动化部署，实现控制器主动计算门路和流量对立调度以及业务编排；

2、控制器通过 BGP-LS 等收集网络拓扑、SR-TE 信息以及 SR Policy 信息，并依据业务需要进行门路计算，而后通过 BGP-SR-TE/PCEP 等协定将 SR Policy 下发到头端节点。

头端主动算路和主动引流：

1、分布式管制面，避免控制器故障带来的整网瘫痪影响，反对头端主动引流，破除简单的策略引流机制；

2、头端节点利用 IGP 携带的 SR-TE 信息和 IGP 链路状态信息、SR 标签信息等组成 SR-TE 数据库，而后基于 CSPF 算法依照 Cost、带宽、时延、SRLG 和不相交门路等约束条件计算满足条件的门路，并装置相应的 SR Policy 领导数据包转发。

基于业务场景对网络灵便切片：

依据业务的 SLA 要求，能够布局新的网络转发立体，能够将时延敏感型的业务调度到基于提早切片的网络转发立体。

如下为现网以后布局的两个网络切片转发立体：

毫秒级拓扑收敛、链路重算、门路下发： 线路故障场景下控制器能够做到毫秒级的拓扑收敛、故障链路重算以及备份门路下发；
流级别门路展现： 实现基于数据流级别的门路查问和展现。

02、牢靠

寰球外围节点专线组网： 节点之间提供运营商级的专线资源，SLA 可达 99.99%；
双 PE 节点 Anycast-SID 爱护 ：地区级的双 PE 配置 Anycast-SID 标签，实现门路的 ECMP 和疾速容灾收敛；
Ti-LFA 无环门路爱护 ：100% 笼罩故障场景，50ms 内实现备份门路切换；
SR-TE 主备门路爱护 ：SR-TE 门路中布局主备 Segment-List，实现门路转发高可用；
SR-TE 门路疾速逃生 ：SR-TE 故障场景下能够一键切换到 SR-BE 转发门路（IGP 最短门路转发）；
Internet 级骨干网备份 ：为了保障新一代骨干网的高可靠性，在每个地区的 PE 设施旁路上两台公网路由器，布局了一张 1:1 的 Internet 骨干网，当某地区专线故障时能够主动切换到 Internet 线路上；同时应用 Flex-Algo 技术基于 Internet 级骨干网布局出一张公网转发立体用于日常治理流量引流。

依据五元组，辨认并定义利用，反对 Per-destination、Per-Flow 调度；
跨域之间依据利用业务分类定义多条不同类型 SR-TE 隧道；
每种类型隧道定义主备门路，反对 SR-TE 一键逃生；
通过灵便算法定义 Delay、带宽、TCO（链路老本）、公网隧道等多种网络切片立体；
智能控制器反对主动下发、主动计算、主动调整、主动引流和主动调度。

以后依据业务需要布局了如下几种骨干网调度策略：

IGP： 最低开销转发，ISIS 接口的 cost 依据点到点之间专线物理间隔提早 *100 失去；

Delay： 最低提早转发，ISIS 接口配置 PM 性能，动静探测点到点之间理论提早；

TCO：最优老本转发，控制器依据每条专线的理论成本计算出最优老本门路；

FM：自定义转发，控制器依据业务长期需要下发需要门路；

FBN：公网隧道转发，每个地区之间提供公网 VPN 线路，提供备份转发门路。

SR Policy 中基于 Color 定义两种引流形式：

1、Per-Destination 引流模板 ：Color 在某种程度上将网络和业务进行理解耦，业务方能够通过 Color 来形容更简单的业务诉求，SR-TE 通过 Color 进行业务关联。

2、Per-Flow 引流模板： 通过 DSCP 标记业务，或者 ACL 进行流分类映射到 Service-Class 等级，Service-Class 关联 Color 进行业务引流。

Color 资源布局

Color 属性在 SR-TE 中标记路由，用于头端节点进行灵便引流；新一代骨干网络设计的流量调度中定义四种 Color 类型：

默认 Color： 每个城市节点的用户路由必须携带的 Color 值，用于引流默认隧道转发【预埋保留】。

城市 Color： 每个城市每用户 VRF 路由必须携带的 Color 值，用于全局流量调度应用【每个城市默认调配 9 种雷同 Color 别离关联到不同的业务】。

业务 Color： 在 Per-flow（基于流分类调度）场景中应用，每个城市的 MAN 网络和用户私网路由标记应用，全局引流作用。

本地 Color： 在 Per-flow（基于流分类调度）场景中联合自用 Color 应用，映射 Service-Class 服务等级，关联到业务模板。

上面以流调度为例来介绍 UCloud 骨干网业务基于 SR 技术联合的最佳实际计划。

Per-Flow 场景下业务模板 /Color 与 Service-Class 服务等级关联

1.Per-Flow 流量调度布局每个城市调配一个业务 Color，MAN 网络路由在 PE 设施上标记各城市业务 Color；

2. 每个头端节点 PE 上定义 8 种调度策略，对应于不同的业务模板，其中 2 个业务模板保留；业务模板与 Color、Service-Class 定义规范的映射关系；

3. 点到点的城市之间默认反对 2 条 FM 自定义策略（自定义隧道策略）；

4.IGP、Delay 应用动静 SR Policy，其它隧道采纳动态 SR Policy 策略；

5.Per-Flow 场景下的 endpoint 地址反对 Anycast-SID，头端的一台 PE 到末端两台城市的 PE 只须要定义一条 SR Policy 即可；

6. 以 20 个外围城市为例，单个城市的 PE Per-Flow 的 SR Policy 数量为 19*7=133 条。

在布局中，UCloud 根底网络团队依据私有云业务类型将业务进行分类，分类办法是对具体业务进行 DSCP 标记；而后数据包到了骨干网 PE 后再依据 DSCP 进行灵便引流。

业务模板与 Service-Class 服务等级映射：

咱们将骨干网当作一个整体，这个整体的边界端口应用 DSCP 和 ACL 入 Service-Class，上面明确定义下何为边界端口。

边界端口：

PE 连贯 CPE&VPE、MAN 网络侧的接口

DSCP 入队形式：

骨干网边界端口默认信赖接入侧用户的 DSCP 值，依据相应的 DSCP 入队到 Service-Class 服务

ACL 入队形式：

1. 在一些非凡场景下须要针对某些业务通过 ACL 分类后入队到 Service-Class 服务【业务自身无奈携带 DSCP】

2. 每种隧道调度策略都能够通过 ACL 对流进行分类，而后入队到 Service-Class

入队和转发流程：

1. 在 PE 上配置流分类，依照业务等级，将不同的 DSCP 值映射到 Service-Class(8 种等级)

2. 为隧道（Service-Class）配置对应的调度策略

3. 业务流在 PE 设施上会先依据路由迭代看是否抉择隧道（SR Policy），而后再去比对流的 DSCP 值是否和 SR Policy 中 Service-Class 映射设置统一，统一流将从对应隧道通过

4. 业务流依据 Service-Class 中的调度策略进行流量转发

分类业务和 SR-TE 隧道映射关系如下：

1、默认所有业务依照布局的 DSCP 和调度策略进行关联；

2、应用 ACL 实现非凡业务类型进行长期策略调度。

SR-TE 流量工程案例

上面介绍一个 SR-TE 理论调度的案例分享：

业务流量背景

业务顶峰时段根底网络收到香港 - 新加坡专线流量突发告警，智能流量剖析零碎发现突发流量为安全部门在广州与雅加达节点同步数据库。

调度前流量模型

失常状况下广州去往雅加达的流量通过 IGP 最短开销计算出的门路为： 广州 —> 香港 —> 新加坡 —> 雅加达 ，因为香港 - 新加坡段为出海流量的直达点，所以常常会在高峰期呈现链路拥塞状况。

传统流量调度计划

1、基于指标地址流量做逐跳 PBR，将大流量业务调度到其它闲暇链路转发；

2、基于目标地址的流量进行限速，保障链路带宽。

传统调度存在问题

1、逐跳配置策略路由，配置简单，运维难度大；

2、粗犷的限速策略有损外部业务。

SR-TE 流量调度计划

Segment 列表对数据包在网络中的任意转发门路进行编码，能够避开拥塞链路，通过 SR 流量调度后的门路为： 广州 —> 北京 —> 法兰克福 —> 新加坡 —> 雅加达。

SR-TE 流量调度劣势

1、头端 / 控制器能够定义端到端转发门路，通过标签转发；

2、基于业务流进行灵便流量调度（目标地址 + 业务等级）。

上文用很长的篇幅介绍了 UCloud 骨干网历史和新一代骨干网架构设计细节，其实以后基于私有云业务调度只能从 MAN 网络开始，还不反对从 DCN 外部开始调度；将来 UCloud 根底网络团队将设计基于 Binding SID 技术的私有云业务端到端的流量调度工程，大抵布局如下：

骨干网为每个城市的端到端 SR-TE 隧道调配一个 Binding SID，用于数据中心云租户引流；
数据中心宿主机通过 VXLAN 将租户流量送到骨干网 UGN(私有云跨域网关)；
UGN 解封装 VXLAN 报文后，封装 MPLS 标签，内层标签用于辨别租户，外层标签用于封装远端城市的 Binding SID 标签；
PE 设施收到带有指标城市的 Binding SID 后，主动引流进对应的 SR-TE 隧道进行转发；
对端 PE 收到报文后解封外层 MPLS 报文，而后转发给 UGN，UGN 依据内层标签和 VXLAN 的 VNI 的映射关系进行转换，最终通过 IP 转发至 DCN 的宿主机上。

UCloud 骨干网总体设计指标是智能、牢靠、可调度，一方面通过寰球专线资源将各 Region 私有云资源、用户资源买通；另一方面在接入侧反对本地线路 + 互联网线路接入，构建骨干网混合组网能力，从而造成了一张稳固且高性能的骨干网，为下层私有云业务、用户线下、线上资源开明提供牢靠的传输网络，整体上来看骨干网是 UCloud 私有云网络体系中十分重要的一个组成部分。

UCloud 根底网络团队在过来的一年重构新一代骨干网，使其具备了智能、牢靠、可调度的能力，从而可能正当的布局专线资源，升高了专线老本，且骨干网整体性能失去极大晋升。将来 UCloud 根底网络团队将会持续紧跟骨干网技术倒退潮流，为整个私有云跨域产品提供智能、牢靠、可调度的底层网络。

作者：唐玉柱，UCloud 高级网络架构师、UCloud 新一代骨干网架构布局我的项目负责人。领有丰盛的数据中心、骨干网架构设计和运维教训；目前次要负责 UCloud 寰球数据中心、骨干网架构设施选型、架构设计和布局。

关于网络:基于Segment-Routing技术构建新一代骨干网智能可靠可调度二

01、智能控制器

02、SR-TE 骨干网管制面

转发面设计

新一代骨干网三大个性

03、可调度

Color 调配规定

最佳实际计划

将来演进

总结