关于npm:混合云全网流量采集与分发方案设计与实现Part-II

37次阅读

共计 6454 个字符,预计需要花费 17 分钟才能阅读完成。

全网流量采集与散发计划

少数大型企业目前都存在多数据中心、混合云的 IT 设施资源,从网络的角度看如下图所示,自有的数据中心通过专有网络互联,并划分业务区,并且有可能存在多个分支机构网络。为保障资源弹性,业务疾速上线等,也大量应用私有云资源,抉择多个云服务商。企业从运维排障、经营治理、业务性能等方面都须要对网络有全面清晰的画像。


本计划的指标是为企业混合云建设对立高效的网络流量采集及解决平台,面对各类资源池实现对立的流量采集形象层,反对 IPv4、IPv6 协定环境,并且能对流量实现过滤、去重、压缩、截短等解决性能,能为网络经营核心(NoC:Network Operation Center)、平安经营核心(SoC:Security Operation Center)、大数据分析平台等多方流量生产端提供数据供应。

实现全网流量采集及解决,能够从区域以及资源池来布局,以下别离以数据中心侧、私有云侧及整体管制治理侧来论述计划。

数据中心侧

在数据中心侧,以通常所划分的网络分区为例,如互联网业务区、外联业务区、外围业务区等,对于整个平台的部署,可将数据中心按区域(Region)来定义,区域内可蕴含多个可用区(AZ:Available Zone)。

要获取区域内的网络流量,可蕴含可用区内的物理网络和资源池内的网络数据流量,如图典型区域所示。


在物理网络波及的范畴,除可用区外部网络外,还包含各类链路,如专线、互联网(_ISP:__Internet Service Provider_)链路等。获取流量或流信息可通过镜像、分光、sFlow、NetFlow/IPFIX 等形式。在混合云环境中,计划挑战性比拟大的是在资源池内所波及的范畴,网络边界次要由各类虚机交换机所形成,数量多、稳定大,同时新技术也波及多。

各类型号的 DeepFlow® Trident 流量采集器为全网流量采集计划提供根底捕捉能力。

资源池内网络流量采集

对不同的资源池装备不同状态的采集器,提供最优的网络流量捕捉能力,包含 VMware ESXi 采集器、KVM 采集器、KVM-DPDK 采集器、HyperV 采集器、容器 OnVM 采集器、容器 OnHost 采集器,防止配置池内虚构交换机,采集器以过程状态独立运行,缩小对现网的影响以及防止可能的烦扰生产配置危险。

对于裸金属设施资源池,获取其池内网络流量可通过 Leaf 交换机、接入交换机的端口镜像,汇总至 TAP 设施后交由专属服务器类型采集器实现对数据包解决操作,也能够抉择将采集器装置在每一台须要采集的裸金属设施零碎上。

物理网络流量采集

在物理网络中,流量获取次要通过端口镜像、分光等形式取得,采集器次要对网络数据包进行过滤、去重等解决,散布的采集点次要有互联网业务区中的 ISP 线路、外联区域的专线线路、各区进口线路以及防火墙、负载平衡设施前后线路。

在对物理网络管理中,须要对物理网络替换矩阵(Fabric)的转发门路、端口统计、遥测数据(Telemetry)等信息收集展现,通常由物理设施厂商的监控计划来提供并解决。DeepFlow®采集器可对接替换矩阵(Fabric)中网络设备 sFlow、NetFlow/IPFIX 等规范数据输入。

DPDK 环境下的反对

在运营商 CT(Communications Technology)网络中,曾经利用 NFV 技术计划,在其虚构网络实现中,虚构交换机,如 OvS(Open vSwitch),通过应用数据立体开发套件(DPDK:Data Plane Development Kit)_晋升数据包解决性能。在 CT 环境中,虚构网元(VNF:Virtual Network Feature)间的通信流量,尤其是管制信令流量,同样面临网络虚拟化后的采集难题。

在企业环境中,如果存在采纳 DPDK 套件的资源池,计划中能够抉择 KVM-DPDK 采集器进行资源池内流量采集。

多区域反对

少数思考对立流量采集平台的企业,IT 资源都存在于多个数据中心,而且存在泛滥分支机构。如下图所示,各地数据中心区域、各类资源池,网络流量采集需要都由相应型号的采集器实现。

私有云侧

私有云为租户提供 VPC 网络,Workload 采集器以用户态的软件模式部署在虚拟机、容器、裸金属设施等 Workload 上,反对 Linux、Windows 等支流操作系统,实现 VPC 内各类资源的网络流量采集。

在私有云侧,Underlay 网络由云运营商保护提供,采集器以用户态过程形式装置在 Workload 操作系统上,实现网络流量获取。同时在虚拟机部署容器的环境中,容器采集器能够实现容器 POD 的网络流量获取。

因为部署装置在 Workload 操作系统上,采集器数量多,能够通过镜像进行预装。

管制治理侧

后面两章节次要介绍了采集获取各类型资源池流量的能力,既然采集器数量大,策略维度多,稳定突出,对其的管理控制是计划能力评估的重点。

面对多数据中心、多云异构的混合云基础设施,对立建设网络流量的治理调度平台,解决规模大及可管理性的问题,管制面的设计是外围点。控制器是管理控制采集器及策略下发的管制中枢,可分为主控制器、备控制器、从控制器,可依照部署要求进行抉择。

主控制器 :整个 DeepFlow®平台的管制中枢和提供对外交互、服务的接口。部署后的 DeepFlow®平台中只有一台主控制器,主控制器所在的区域称之为主区域。
备控制器 :与主控制器的性能完全一致,当主控制器呈现宕机或不能提供服务的其余故障时,主动切换为主控制器。在没有备控制器的状况下,DeepFlow®控制器集群没有高可用能力。整个 DeepFlow®中只有一台备控制器,且必须和主控制器在同一个区域中,并共享一个用于提供内部服务的虚 IP 地址。
从控制器:负责管制所在区域(Region)或可用区(AZ:Available Zone)中的采集器及数据节点,将主控制器的策略和云平台资源信息同步至所有的采集器和数据节点。除主、备控制器所属的区域,每个区域中至多部署一台从控制器,同一个区域的多台从控制器之间能够实现负载平衡和高可用。

在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,当启动主控制器高可用性能,主区域内应部署多台控制器,通过心跳保障控制器间的状态同步,及时启动主、备控制器选举。选举产生主控制器后,为整体流量治理平台提供管制入口。除主区域外的其余区域控制器为从控制器,不参加主控制器选举。

在区域中能够划分多个可用区(AZ:Available Zone),通常以可用区为单元,由繁多控制器独立管制可用区内的各类型采集器,对本地采集器进行采集策略、散发策略、预处理策略下发。多区域间可通过专线网络进行管制通信,次要包含治理、策略等通信。

通常在有分支机构的环境下,数量绝对数据中心较多,次要是申请服务的流量,其区域内没有服务端,须要流量数据次要是构建网络整体情况以及业务端到端网络性能剖析。不须要独立部署控制器,能够按理论状况,将采集器划分在左近区域的控制器治理下。
私有云环境中,控制器部署在虚拟机中,治理范畴内的采集器。

控制器齐全管制采集器状态,各类采集器具备雷同状态机机制,如下图:

各类型的采集器可能处于自检、运行、进行、异样、爱护等几种状中,其中爱护状态,是确保采集器工作时,平台能对其应用 CPU、内存资源应用下限的限定。当配置采集器资源限度在 1vCPU、1G 内存时,运行过程中,如果呈现压力过大,采集器状态将由“运行”切换至“爱护”状态,对所采集、解决的数据包进行抛弃,以确保不对生产环境产生影响,直至从新调整资源配置或解决压力降落,切回至“运行”状态。

另外,控制器通过对接虚拟化资源池控制器、配置管理数据库(CMDB:Configuration Management Data Base)、私有云凋谢 API 等,实现多粒度下发采集、散发策略,在云环境、容器环境中,更灵便、更贴近业务利用。

繁多控制器可反对 2000 个采集器工作,这通常是一个可用区波及的采集器规模。主、备控制器与从控制器协同工作,控制器规模最大反对 50 台,并在主区域内实现选举机制。计划整体可满足 10 万台采集器规模,具备大型企业公有 IT、私有云、容器等对网络流量采集要求。

基于分布式的监控流量解决

采集器不再是简略地获取网络流量管道,是具备对本地采集的网络流量进行解决的计算单元,泛滥采集器以及控制器构建成一个与云网规模统一的分布式流量解决零碎。

全网网络整体情况、应用服务间拜访、负载平衡、安全策略利用状况等须要对现网捕捉到的流量进行解决后存储供剖析展现,集中后处理海量流量须要大量扩大计算资源,在此计划中,采集器具备专利算法的前置计算能力,散布在资源池中按需对流量进行解决,无效缩小散发数据对监控网络和后端剖析工具的压力。

通过各类型的采集器实现流量采集解决形象层,次要对数据包解决能力进行形象,包含过滤、去重、数据包截短、压缩、特色标记等性能。

过滤

过滤能力是高效进行流量获取、以及精准实现网络流量数据价值的根底,对所有数据包无辨别的解决、存储可不是一个好的可执行的计划。有过滤后,那条件维度就是下一个重要因素,对采集策略、散发策略、解决策略仅仅基于网络五元组设置过滤条件是远远不够的,在池化、多租户、容器环境中,仅有这些能够说是过期的。更丰盛的过滤条件,如业务、主机、服务、POD 等维度都是须要退出的。

去重、截短、流日志、压缩、标记

去重能力是保障获取流量数据后的准确性,采集器存在于网络流量的两端,有可能散布在不同资源池,不同区域,同时捕捉后,进行统计、辨别源、目标端等,为剖析、可视化的准确性提供撑持。

截短能力是对获取数据包后,针对性应答数据生产端需要的能力,同时,也是压缩能力的根底之一。可提供数据包包头,包头后指定偏移长度的截短能力。

流日志能力是对流量数据包获取网络元数据的能力,是对全网整体绘图、回溯查问的根底。反对 80 种类型元数据获取,除了根底的源、目标 MAC、IP 地址、端口外,按需要可获取更多 TCP 以及性能的日志信息。

压缩能力是保障获取流量数据后,无效利用传输带宽、存储资源。如果后端生产端须要数据包包头或流日志数据,可取得的压缩比 100:1,如果仅须要遥测统计数据,压缩比达到 10000:1,这也保障在整体计划中,对于一些分支机构,仅须要获取流日志信息,不须要专属网络线路,能够通过 Internet VPN 搭建计划。

特色标记能力是对数据包散发过程中,散发终点在封装的隧道包头保留字段中,标记特征值,卸载封装时能够辨认。供后端剖析工具、运维平台针对非凡数据包辨认,可用于网络诊断、采集点定位等场景。

包散发

包散发性能是解决对残缺的数据包剖析、平安保障的需要,外围须要保障数据包的原始性,包含数据包内容、程序等,同时能够针对繁多数据包进行多目的地的散发。

包散发性能是通过三层隧道实现(ERSPAN、VxLAN),控制器对立下发散发策略,由波及的采集器端间接进行数据包封装,并发往目标端,反对多目标端发送。

在混合云数据包散发的计划中,须要思考散发的网络立体,如果散发流量较大,能够思考预留独立的网络监控立体。如果仅针对大量外围业务,能够复用已有的物理网络。

在散发的目标端,须要思考对封装隧道的卸载计划。通常如果目标端是 NoC、SoC、大数据平台等大型平台,能够由物理交换机的 VxLAN 卸载性能进行隧道解封装。同时如果针对一些传统的剖析工具,没有隧道卸载能力,能够应用专属服务器采集器,运行隧道卸载模式,部署在剖析工具前端,解封装后,将数据包送至剖析工具。当然,如果剖析工具具备 VxLAN 卸载能力,能够间接接管隧道数据包。

整体散发计划利用如下图所示。在传统物理网络环境中,NPB 设施及计划很好地实现了数据包散发的需要,但在混合云环境中,资源池数量多,品种不同,在混合云环境中实现监控流量按需散发能力,并将散发操作以分布式架构散布在各个采集点实现,防止单点性能瓶颈及适配逻辑网络跨多资源的场景。

数据服务

对于非原始数据包的数据生产需要,平台提供凋谢的数据订阅形式。解决后的包头,网络元数据、遥测统计数据通过网络立体汇总至高性能时序数据库中,可通过 API,音讯队列为其余数据生产平台调用。

在每个区域、可用区都能够配置高性能时序数据库,通常在分支机构环境下,不须要部署时序数据库,其数据通过压缩后写入纳管区域内的数据库。

主控制器间接响应对网络数据的 API 调用,由主控制器查问本地时序数据库,或收集区域内数据库 API 返回的后果并回复申请端。

数据订阅可通过 ZeroMQ 等音讯队列提供,由数据需要平台向数据库发动音讯队列申请后,就可执行订阅服务。


数据订阅音讯队列示例,Python:

部署

整体计划次要波及采集器、控制器、高性能时序数据库三局部,在实现布局整体计划后,可分区域、分资源池按阶段投入建设,最终为企业混合云 IT 基础设施环境构建对立的流量监控治理平台。

因为传统物理网络已具备残缺的监控计划,通常抉择以 KVM、容器资源池进行第一步部署施行,解决虚构网络环境流量“黑盒”不可见的问题,满足对虚构网络流量合规审计的要求;采集流量对接已存在的监控剖析工具,闭合公有云、容器环境中的运维、业务剖析工具链。

第二步纳入更多资源池,与新建扩容的资源池同步部署,接入物理网络中交换机 sFlow 数据,接入专线等分光流量数据,实现对整体数据中心的流量采集能力,存在对立的流量监控立体;对接网络核心、平安核心、智能运维等平台,提供数据包、流数据服务,满足各平台对现网流量数据的展现、剖析需要。

第三步能够对存在私有云上所运行的 Workload 或实例流量进行采集,实现对混合云 IT 环境整体监控流量治理,具备整体网络画像、流量散发、反对对多平台流量数据散发服务能力。

对于曾经运行的混合云环境,能够在不影响生产环境运行的状况下部署施行,网络布局上将 DeepFlow®平台所波及的治理、监控散发立体复用在已有的网络立体中,通常能够复用曾经存在的网络管理立体。

对于整体规划的计划,倡议对整体混合云布局独立的网络监控立体,对于混合云的监管流量对立、独立地进行治理。另外,采集器对计算能力的要求,能够依据解决流量、资源状况进行整体规划,对繁多采集器最低可配置 1vCPU 128M 的资源应用。

计划劣势

流量采集先进

DeepFlow®全网采集计划中,次要是以采集器技术实现流量采集,采集器反对 KVM、VMWare、容器等型号,以过程状态部署装置,最大水平上防止对生产替换立体的烦扰,不存在与生产立体交换机流表抵触的危险,同时在操作系统上继承过程级爱护劣势,实现整体零碎稳固。

分布式解决零碎

采集到数据包后防止集中处理,采纳分布式架构,采集点散布解决控制器集中管理。

场景全规模大

整体计划是基于分布式设计模型以及多地区治理,能够充沛保障资源池规模弹性扩大,整体零碎可治理 10 万台采集器,涵盖虚拟机、容器、私有云资源池。

可管理性

平台主控制器是管理员对立集中的采集、散发策略配置入口,同时具备对所有采集器状态治理能力。各类操作贴近资源池个性,反对虚拟机名称、子网、集群、容器 POD 等多维度进行。资源存在迁徙、回收、重新部署等场景,策略追随保障采集能力在动静环境下的继续执行。平台治理的粒度是繁多采集器,对采集器的管理控制以及运行状态,历史记录都可回溯跟踪。

数据包、流数据服务

数据服务是将流量采集与后端平台对接的重要环节,残缺流量数据包多目的地散发,高性能网络时序数据库通过 API、ZeroMQ、Kafka 等音讯队列提供流数据服务。同时也将采集与后端各类剖析工具解耦,防止流量采集器局限在仅为繁多工具服务的竖井中。

总结

DeepFlow®混合云全网流量监控采集与散发解决方案为企业在混合云、云原生等新型 IT 基础设施环境演进过程中,提供残缺地、可继续的平台级流量治理,防止反复投入,反复装置,解决理论网络监管难题,也为企业布局整体运维、平安平台补齐现网流量、流日志这一板块。本计划已利用于金融、运营商等客户 IT 环境中。

正文完
 0