关于linux:谈谈Linux内核的噪声

43次阅读

共计 3639 个字符,预计需要花费 10 分钟才能阅读完成。

Linux 内核是广被应用的操作系统,从嵌入式家用设施,航空航天设施到超级计算机,到处都有 Linux 内核的身影,这归功于 Linux 内核丰盛的配置带来的微小灵活性。

网络虚拟化和软件定义网络的倒退,也从另外一个方面证实了在网络设备如此专用的畛域,Linux 内核也能施展巨大作用,并且对网络设备畛域带来可编程性的微小便当,极大促成了网络设备畛域的倒退,5G 网络堆栈建设在这个范式之上。随着无人驾驶和物联网等实时零碎的倒退,对提早要求越来越高。高性能计算 (HPC)、实时工作和软件定义网络等需要须要 Linux 可能执行提早敏感的工作。

为了达成这些指标,软硬件都要为高性能计算和实时性做配置。硬件须要在吞吐和提早确定性之间做衡量,包含调整处理器的频率,省电模式和系统管理中断等。

对内核配置来说,就是要在零碎中隔离出一些看家 (house keeping) CPU, 这些看家上跑的工作包含内核线程,如 RCU 回调线程,内核中一些提早工作线程,以及内核与用户态一些看管线程。一些中断也被放在看家 CPU 上。这样,在软件定义网络系统中,特定的隔离的 CPU 被用来执行非凡的网络性能虚拟化 (NFV)。

尽管有须要确定性的工作被路由到这些特定的隔离的 CPU 上,依然有一些 CPU 由调度调配用来执行通用的个别工作,这些 CPU 对延时确定性要求不高,不被隔离。为了进步这类须要提早确定的零碎的实时性,经常须要内核配置 PREEMPT_RT 以缩小唤醒提早。

这些对提早敏感的零碎评估是一件非常复杂的工作,评估这些零碎的提早变异是一件十分艰辛但重要的工作。这在高性能计算畛域被称为零碎噪声,在实时操作系统畛域,被称为实时性。无论叫做什么,这件事的实质都是一样的,一个确定的工作是怎么被零碎内各种简单的软硬件组件烦扰,进而产生非常复杂的时间延迟散布的。

怎么评估一个内核的噪声呢?大略有两种办法:设置适合的负载和基于追踪的办法。前者是基于工作的一种宏观测试方法,测试各种不同工作的工夫散布,后者是一种宏观的办法,检测同一个工作在执行时产生这种工夫的散布的本源是什么。

这两种办法察看尺度不同,各有利弊,负载的办法可能就某个特定的工作给出工夫散布特色,并且能够剖析影响这个工作的工夫特色的宏观因素。而基于追踪的宏观办法,能剖析出各个软件或者硬件过程时间延迟,然而在整个零碎中如何还原出产生这些宏观提早的起源,是很难做到的。

因而很多时候,须要联合基于负载的办法和基于追踪的办法,才有可能靠近事实真相。内核中有 osnoise 同时联合了基于负载的办法和基于追踪的办法,来评估和归因内核中的噪声。

这个工具是为高性能计算开发的,用于对隔离的 CPU 零碎中,追踪奥妙级的噪声。通过一系列对内核实时基础设施,调度,追踪子系统等的批改,sosnoise 最终在内核的 5.14 版本正式进入了 Linux 内核,在内核 5.17 中,这个性能能够在用户态通过 rtla (Real-Time Linux Analysis) 工具集应用被内核开发者和零碎管理者应用,这些人很容易通过这些工具测试它们的零碎的噪声,或者扩大这些工具的性能。

为了了解 osnoise 在做什么,咱们先来看看噪声起源。

咱们介绍下 Linux 内能够被称为工作的几种上下文。个别程序有 non-maskable interrupts (NMIs), maskable interrupts (IRQs), softirqs 和线程四种执行上下文。在 PREEMPT_RT 开启时,softirqs 线程化。咱们没必要辨别这些不同的执行流或者叫上下文,咱们能够把它们统称为工作。这几种工作在 Linux 中遵循以下规定:

  • 每个 CPU 的 NMI 抢断 IRQs,softirqs 和线程
  • 每个 CPU 的 NMI 一旦发动,就必须执行实现才让出 CPU
  • IRQs 抢断 softirqs 和线程
  • 一旦一个 IRQ 开始解决,它不会被另一个 IRQ 抢断
  • Softirqs 能够抢断线程
  • softirq 不能被另外一个软中断抢断
  • 线程不能抢断 NMI, IRQs and sofirqs

咱们接着介绍下 Linux 的调度器,Linux 有 5 个分层的调度器,调度所有的线程,不论这些线程是内核线程还是用户态线程,对调度器来说,都厚此薄彼,并没有什么不同。这 5 个调度器以一个固定的程序作用来选出下一个要运行的线程。这些调度器依照执行程序顺次是:

第一个调度器为 stop machine 调度器,它在多 CPU 零碎中用来实现负载平衡和热插拔等内核性能。

第二个调度器是 SCHED_DEADLINE,是一个基于 Earliest Deadline First 的 deadline 实时调度器。

第三个是一个 POSIX 兼容的固定优先级的实时调度器,应用这个调度器的线程能够是 SCHED_RR 或者 SCHED_FIFO 类型的线程,SCHED_RR 为工夫片轮转的线程,SCHED_FIFO 线程只有在挂起,执行完结,或者被抢占时能力才会开释 CPU 的应用。

第四个调度器是通用调度器,即 CFS 调度器,这个调度器调度的线程标记为 SCHED_OTHER。

第五个调度器为 IDLE 调度器,当后面四个调度器没有线程调度到时,就调度到 idle thread 线程。

Linux 有一套丰盛的追踪性能。能够追踪例很多内核性能函数,这些追踪性能的宽泛应用,他们并没有带来太大性能损耗,却给关怀内核运行的人提供了很好的察看内核如何运行的窗口。ftrace,ebpf 和 systemtap 都是这些追踪零碎的杰出代表。

以 HPC 程序来阐明这个问题。失常 HPC 利用是一个程序在多份数据上运行的同一段代码 (single-program multiple-data (SPMD) model), 如图所示,

下面是一个 HPC 的程序运行过程,A,B, C 运行同一段代码,它们计算实现后把数据发送给 D 进行接下来的计算。失常计算只有蓝色局部的部分计算,橙色局部的线程间同步,以及绿色的线程间通信,这是每个 CPU 上的线程理论做的工作,然而,零碎中总是存在各种因素会打断程序在 CPU 上运行。因而,在上述蓝色部分计算的两头,总是会引入红色的局部,这些用户工作的运行总是被操作系统的一些零碎工作打断,这些零碎工作可能是 NMIs, IRQs 或者 softirqs,也可能是其它用户线程或者内核线程。

这些跟程序执行无关由零碎引入的时间延迟的不确定性就是噪声,这些噪声让 A,B,C 三个雷同的程序经验的工夫也不同,对于 HPC 来说,就带来很大的提早和性能惩办,如果对于实时性很强的零碎,可能带来的不只是性能惩办,而是劫难。

从下面的探讨能够看出,不同的调度策略对部分 CPU 某个工作的执行提早影响很大,重大影响每个并行任务的响应工夫。这些被内核的系统活动引起的提早其实就是操作系统噪声。全世界的超级计算机应用 Linux 作为内核,起因之一在于 Linux 能够通过配置,把 NMIs, IRQs 或者 softirqs,内核线程等系统活动局限在多数的几个外围上,而大部分其它外围用来跑真正的计算工作,这些跑计算工作的外围通过隔离和绑核,能够免受零碎噪声和其它用户程序产生噪声的烦扰,使其延时体现出好的多的确定性。

在软件定义网络实际中,倒退出 DPDK 这种通用框架进行相似的噪声隔离工作,而 HPC 和其它实时零碎中,也有相似的框架。尽管能够对 CPU 进行隔离,并且能够把所有 IRQ, softirqs 以及内核线程都挪动到少数几个 CPU 核上,对提早特地敏感的工作进行精心配置却是一个十分有挑战的工作。因为还有很多每 CPU 的软件流动会烦扰程序运行,比方调度器用的时钟中断,虚拟内存统计,网络包的解决等。这些噪声起源能够被精心的配置去掉,比方在内核配置里使能 NOHZ_FULL 去除时钟中断的烦扰,或者批改内核的代码或者算法去除相应的噪声烦扰。

Linux 是个通用操作系统,它不是为延时敏感的利用而生的,然而 HPC, 实时操作系统这类心愿利用 Linux 实现其刻薄指标的开发者们,不可能时刻去追踪 Linux 的批改对其延时烦扰的影响。

大家习惯用一些实时或者延时敏感的 HPC 负载去度量 Linux 内核噪声,两个好用的工具就是 sysjitter 和 oslat。这些工具反复测量同一个工作的延时差别,比拟它们的延时差别是否超过某个门限值。

这些工具用一些计算工作去测量和发现噪声的存在,然而并不会寻找它们的起因。要发现这些噪声的起因,咱们须要内核的追踪零碎去察看整个内核零碎的运行。当然,追踪零碎也会引入噪声,这就须要统计去寻找噪声的根本原因以抓住主要矛盾。

硬件自身的噪声也不少见,可能是因为共享硬件资源,关上了超线程,有比操作系统执行优先级更高的上下文,比方系统管理中断,这些不是操作系统自身引入的问题,然而他们能够被追踪零碎看到。有的基于工作的测试可能看到的噪声很难被追踪零碎复现,这些是比拟头疼的问题,须要一直基于两者的数据进行长时间深入分析,以认真还原工夫到底去哪了。

总体而言,目前综合基于工作的测试和基于追踪的剖析最好的工具是 osnoise,它很好联合了两点,剖析内核时间延迟的变异。

正文完
 0