关于linux:进程线程上下文切换会用掉你多少CPU

过程是操作系统的平凡创造之一，对应用程序屏蔽了CPU调度、内存治理等硬件细节，而形象出一个过程的概念，让应用程序分心于实现本人的业务逻辑既可，而且在无限的CPU上能够“同时”进行许多个工作。然而它为用户带来不便的同时，也引入了一些额定的开销。如下图，在过程运行两头的工夫里，尽管CPU也在忙于干活，然而却没有实现任何的用户工作，这就是过程机制带来的额定开销。

在过程A切换到过程B的过程中，先保留A过程的上下文，以便于等A复原运行的时候，可能晓得A过程的下一条指令是啥。而后将要运行的B过程的上下文复原到寄存器中。这个过程被称为上下文切换。上下文切换开销在过程不多、切换不频繁的利用场景下问题不大。然而当初Linux操作系统被用到了高并发的网络程序后端服务器。在单机反对成千上万个用户申请的时候，这个开销就得拿进去说道说道了。因为用户过程在申请Redis、Mysql数据等网络IO阻塞掉的时候，或者在过程工夫片到了，都会引发上下文切换。

一个简略的过程上下文切换开销测试试验

废话不多说，咱们先用个试验测试一下，到底一次上下文切换须要多长的CPU工夫！试验办法是创立两个过程并在它们之间传送一个令牌。其中一个过程在读取令牌时就会引起阻塞。另一个过程发送令牌后期待其返回时也处于阻塞状态。如此往返传送肯定的次数，而后统计他们的均匀单次切换工夫开销。

# gcc main.c -o main# ./main./mainBefore Context Switch Time1565352257 s, 774767 usAfter Context SWitch Time1565352257 s, 842852 us

每次执行的工夫会有差别，屡次运行后均匀每次上下文切换耗时3.5us左右。当然了这个数字因机器而异，而且倡议在实机上测试。

后面咱们测试零碎调用的时候，最低值是200ns。可见，上下文切换开销要比零碎调用的开销要大。零碎调用只是在过程内将用户态切换到内核态，而后再切回来，而上下文切换可是间接从过程A切换到了过程B。显然这个上下文切换须要实现的工作量更大。

过程上下文切换开销都有哪些

那么上下文切换的时候，CPU的开销都具体有哪些呢？开销分成两种，一种是间接开销、一种是间接开销。

间接开销就是在切换时，cpu必须做的事件，包含：

1、切换页表全局目录
2、切换内核态堆栈
3、切换硬件上下文（过程复原前，必须装入寄存器的数据统称为硬件上下文）
- ip(instruction pointer)：指向以后执行指令的下一条指令
- bp(base pointer): 用于寄存执行中的函数对应的栈帧的栈底地址
- sp(stack poinger): 用于寄存执行中的函数对应的栈帧的栈顶地址
- cr3:页目录基址寄存器，保留页目录表的物理地址
- ......
4、刷新TLB
5、系统调度器的代码执行

间接开销次要指的是尽管切换到一个新过程后，因为各种缓存并不热，速度运行会慢一些。如果过程始终都在一个CPU上调度还好一些，如果跨CPU的话，之前热起来的TLB、L1、L2、L3因为运行的过程曾经变了，所以以局部性原理cache起来的代码、数据也都没有用了，导致新过程穿透到内存的IO会变多。其实咱们下面的试验并没有很好地测量到这种状况，所以理论的上下文切换开销可能比3.5us要大。

想理解更具体操作过程的同学请参考《深刻了解Linux内核》中的第三章和第九章。

一个更为业余的测试工具-lmbench

lmbench用于评估零碎综合性能的多平台开源benchmark，可能测试包含文档读写、内存操作、过程创立销毁开销、网络等性能。应用办法简略，但就是跑有点慢，感兴趣的同学能够本人试一试。
这个工具的劣势是是进行了多组试验，每组2个过程、8个、16个。每个过程应用的数据大小也在变，充沛模仿cache miss造成的影响。我用他测了一下后果如下：

-------------------------------------------------------------------------Host                 OS  2p/0K 2p/16K 2p/64K 8p/16K 8p/64K 16p/16K 16p/64K                           ctxsw  ctxsw  ctxsw ctxsw  ctxsw   ctxsw   ctxsw  --------- ------------- ------ ------ ------ ------ ------ ------- -------  bjzw_46_7 Linux 2.6.32- 2.7800 2.7800 2.7000 4.3800 4.0400 4.75000 5.48000

lmbench显示的过程上下文切换耗时从2.7us到5.48之间。

线程上下文切换耗时

后面咱们测试了过程上下文切换的开销，咱们再持续在Linux测试一下线程。看看到底比过程能不能快一些，快的话能快多少。

在Linux下其实本并没有线程，只是为了投合开发者口味，搞了个轻量级过程进去就叫做了线程。轻量级过程和过程一样，都有本人独立的task_struct过程描述符，也都有本人独立的pid。从操作系统视角看，调度上和过程没有什么区别，都是在期待队列的双向链表里抉择一个task_struct切到运行态而已。只不过轻量级过程和一般过程的区别是能够共享同一内存地址空间、代码段、全局变量、同一关上文件汇合而已。

同一过程下的线程之所有getpid()看到的pid是一样的，其实task_struct里还有一个tgid字段。对于多线程程序来说，getpid()零碎调用获取的实际上是这个tgid，因而附属同一过程的多线程看起来PID雷同。

咱们用一个试验来测试一下，其原理和过程测试差不多，创立了20个线程，在线程之间通过管道来传递信号。接到信号就唤醒，而后再传递信号给下一个线程，本人睡眠。这个试验里独自思考了给管道传递信号的额定开销，并在第一步就统计了进去。

# gcc -lpthread main.c -o main0.508250  4.363495

每次试验后果会有一些差别，下面的后果是取了屡次的后果之后而后均匀的，大概每次线程切换开销大概是3.8us左右。从上下文切换的耗时上来看，Linux线程（轻量级过程）其实和过程差异不太大。

Linux相干命令

既然咱们晓得了上下文切换比拟的耗费CPU工夫，那么咱们通过什么工具能够查看一下Linux里到底在产生多少切换呢？如果上下文切换曾经影响到了零碎整体性能，咱们有没有方法把有问题的过程揪出来，并把它优化掉呢？

# vmstat 1  procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----   r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st   2  0      0 595504   5724 190884    0    0   295   297    0    0 14  6 75  0  4   5  0      0 593016   5732 193288    0    0     0    92 19889 29104 20  6 67  0  7   3  0      0 591292   5732 195476    0    0     0     0 20151 28487 20  6 66  0  8   4  0      0 589296   5732 196800    0    0   116   384 19326 27693 20  7 67  0  7   4  0      0 586956   5740 199496    0    0   216    24 18321 24018 22  8 62  0  8

或者是

# sar -w 1  proc/s       Total number of tasks created per second.  cswch/s       Total number of context switches per second.  11:19:20 AM    proc/s   cswch/s  11:19:21 AM    110.28  23468.22  11:19:22 AM    128.85  33910.58  11:19:23 AM     47.52  40733.66  11:19:24 AM     35.85  30972.64  11:19:25 AM     47.62  24951.43  11:19:26 AM     47.52  42950.50  ......

上图的环境是一台生产环境机器，配置是8核8G的KVM虚机，环境是在nginx+fpm的，fpm数量为1000，均匀每秒解决的用户接口申请大概100左右。其中cs列示意的就是在1s内零碎产生的上下文切换次数，大概1s切换次数都达到4W次了。粗略估算一下，每核大概每秒须要切换5K次，则1s内须要花将近20ms在上下文切换上。要晓得这是虚机，自身在虚拟化上还会有一些额定开销，而且还要真正耗费CPU在用户接口逻辑解决、零碎调用内核逻辑解决、以及网络连接的解决以及软中断，所以20ms的开销实际上不低了。

那么进一步，咱们看下到底是哪些过程导致了频繁的上下文切换？

# pidstat -w 1  11:07:56 AM       PID   cswch/s nvcswch/s  Command11:07:56 AM     32316      4.00      0.00  php-fpm  11:07:56 AM     32508    160.00     34.00  php-fpm  11:07:56 AM     32726    131.00      8.00  php-fpm  ......

因为fpm是同步阻塞的模式，每当申请Redis、Memcache、Mysql的时候就会阻塞导致cswch/s被迫上下文切换，而只有工夫片到了之后才会触发nvcswch/s非被迫切换。可见fpm过程大部分的切换都是被迫的、非被迫的比拟少。

如果想查看具体某个过程的上下文切换总状况，能够在/proc接口下间接看，不过这个是总值。

grep ctxt /proc/32583/status  voluntary_ctxt_switches:        573066  nonvoluntary_ctxt_switches:     89260

本节论断

上下文切换具体做哪些事件咱们没有必要记，只须要记住一个论断既可，测得作者开发机上下文切换的开销大概是2.7-5.48us左右，你本人的机器能够用我提供的代码或工具进行一番测试。
lmbench绝对更精确一些，因为思考了切换后Cache miss导致的额定开销。

扩大：平时大家在操作系统实践学习的时候都晓得CPU工夫片的概念，工夫片到了会将过程从CPU上赶下来，换另一个过程上。但其实在咱们互联网的网络IO密集型的利用里，真正因为工夫片到了而产生的非被迫切换很少，绝大部分都是因为期待网络IO而进行的被迫切换。下面的例子你也能够看出，我的一个fpm过程被动切换有57W次，而被动切换只有不到9W次。所以，在同步阻塞的开发模式里，网络IO是导致上下文切换频繁的首恶

开发内功修炼之CPU篇专辑：

1.你认为你的多核CPU都是真核吗？多核“假象”
2.据说你只知内存，而不知缓存？CPU示意很伤心！
3.TLB缓存是个神马鬼，如何查看TLB miss？
4.过程/线程切换到底须要多少开销？
5.协程到底比线程牛在什么中央？
6.软中断会吃掉你多少CPU？
7.一次零碎调用开销到底有多大？
8.一次简略的php申请redis会有哪些开销？
9.函数调用太多了会有性能问题吗？

我的公众号是「开发内功修炼」，在这里我不是单纯介绍技术实践，也不只介绍实践经验。而是把实践与实际联合起来，用实际加深对实践的了解、用实践进步你的技术实际能力。欢送你来关注我的公众号，也请分享给你的好友~~~