关于linux:内存随机访问也比顺序慢带你深入理解内存IO过程

平时大家都晓得内存拜访很快，明天来让咱们来把刨根问底的精力施展到极致，来思考两个问题

问题1： 内存拜访延时到底是多少？你是否会进行大略的估算？
例如笔者的内存条的Speed显示是1066MHz，那是否能够推算出内存IO延时是1s/1066MHz=0.93ns?
这种算法大错特错。

问题2： 内存存在随机IO比程序IO慢的问题吗？
咱们都晓得磁盘的随机IO要比程序IO慢的多（操作系统底层还专门实现了电梯调度算法来缓解这个问题），那么内存的随机IO会比程序IO慢吗？

要想彻底弄明确以上两个问题，我想咱们得从内存IO的物理过程中来寻找答案。

先给你讲个图书管理员的故事

在开始介绍干燥的内存工作原理之前。我想先给你讲一个故事，并带你去意识一个人，图书馆的管理员。

在咱们的这个故事中，你是故事的配角。你有一所房子，房子里有一个佣人，他每天帮你解决各种各样的图书数据。然而北京房价太贵，所以你的这个房子很小，只能放的下64本书。你家的马路对面，就是北京图书馆(你家房子尽管小然而地段还不错)，你所须要的所有的图书在那里都能够找到。图书馆有个管理员，他负责帮你把你想要的书找进去。

好接下来，导演喊了action，场景开始！

场景1：

你发现你须要编号为0的书的计算结果，你的佣人穿过马路通知了图书管理员，通知他请帮我把第0-63本书取出来。图书管理员帮你在电脑前查得该书在二楼。于是他，花了点工夫坐电梯到了二楼。等到了二楼，他又花了点工夫帮你找了进去。而后你的佣人抱着64本书放到了客厅，拿起第0本书帮你解决了起来。

场景2：

你发现你须要编号为1的书的计算结果，通知你的佣人。你的佣人间接从客厅拿进去就能够解决了，这次你等的工夫最短。

场景3：

你发现须要编号为65的书，你又通知你的佣人。你的佣人穿过马路又去找了图书管理员。图书管理员还在二楼呢，据说这次须要65-127，这次他不必再花工夫找楼层了。只是花工夫找书就能够了。你的佣人把65-127的书放到了客厅（以前的0-63就都扔了），并帮你开始解决起65号书来。

场景4：

你发现你须要编号为10000的书，你通知了你的佣人。你的佣人穿过马路去图书馆，找到了管理员。这次管理员查得你须要的书是在10楼，他得花点工夫坐电梯过来。去了之后，他又得花点工夫帮你找进去。

这四个场景里，我感觉你肯定发现了不同情景下耗时的差别。

场景1和场景4破费的工夫最多。因为图书管理员须要花工夫坐电梯找楼层，须要花工夫在楼内找书。
场景3次之，因为图书管理员间接就在楼层内，只须要花工夫在楼内找书既可
场景2最快，因为只须要佣人帮你从客厅拿过去就好，连马路都不须要过。

之所以假造这么一个例子，是因为内存的工作形式和它太像了。接下来咱们进入内存的理论剖析。

内存的物理构造

在《带你了解内存对齐最底层原理！》中咱们理解了内存颗粒的物理结构以及IO过程，明天咱们再来温习一下。

内存是由chip形成。每个chip外部，是由8个bank组成的。其结构如下图：

而每一个bank是一个二维立体上的矩阵，后面文章中咱们说到过。矩阵中每一个元素中都是保留了1个字节，也就是8个bit。

每当CPU向内存申请数据的时候，内存芯片总是8个bank并行一起工作。每个bank在定位到行地址后，把对应的行copy到row buffer。再依据列地址把对应的元素中的数据取出来，8个bank把数据拼接一下，一个64位宽的数据就能够返回给CPU了。

依据下面几张图咱们能够大抵理解内存的IO过程，在这个过程中每一步操作之间都有一些提早，让咱们来持续理解这些提早。

内存IO提早

在《从DDR倒退到DDR4，内存外围频率指标其实基本上就没太大的提高。》里的结尾处，你应该记得咱们提到了内存有CL-tRCD-tRP-tRAS四个参数。咱们明天来具体了解一下这四个参数的含意：

CL(Column Address Latency）：发送一个列地址到内存与数据开始响应之间的周期数
tRCD（Row Address to Column Address Delay）：关上一行内存并拜访其中的列所需的最小时钟周期数
tRP(Row Precharge Time)：收回预充电命令与关上下一行之间所需的最小时钟周期数。
tRAS(Row Active Time)：行流动命令与收回预充电命令之间所需的最小时钟周期数。也就是对下一次预充电工夫进行限度。

要留神除了CL是固定周期数以外，其它的三个都是最小周期。另外下面的参数都是以时钟周期为单位的。因为古代的内存都是一个时钟周期高低沿别离各传输一次数据，所以用Speed/2就能够得出，例如笔者的机器的Speed是1066MHz，则时钟周期为533MHz。你本人的机器能够通过dmidecode命令查看：

# dmidecode | grep -P -A16 "Memory Device"  
Memory Device   
        ......
        Speed: 1067 MHz  
        ......

和“图书管理员”相似，内存芯片也有相似的工作场景：

场景1：

你的过程须要内存地址0x0000为的一个字节的数据，CPU这时候向内存控制器发出请求，内存控制器进行行地址的预充电，须要期待tRP个时钟周期。再收回关上一行内存的命令，又须要期待tRCD个时钟周期。接着发送列地址，再期待CL个周期。最终将0x0000-0x0007的数据全副返回给了CPU。 CPU把这些数据放入到了本人的cache里，并帮你开始对0x0000的数据进行运算。

场景2：

你的过程须要内存地址0x0003的一个字节数据，CPU发现发现它在本人的cache里存在，间接应用就好了。这个场景里其实基本就没有内存IO产生。

场景3：

你的过程须要内存地址0x0008的一个字节数据，CPU的cache并没有命中，于是向内存控制器申请。内存控制器发现行地址和上一次工作的行地址统一，这次只须要发送列地址后期待CL个周期，就能够拿到0x0008-0x0015的数据并返回给CPU了。

场景4：

你的过程须要内存地址0xf000的一个字节数据，同样CPU的cache并不命中，向内存控制器申请。内存控制器一看（心田有些许的郁闷），这次行地址又变了，得，和场景1一样。持续期待tRP+tRCD+CL个周期后，才可能取到数据并返回。

理论的计算机的内存IO过程中还须要进行逻辑地址和物理地址的转换，这里疏忽不表。

论断

其中场景1和场景4是随机IO的状况，场景2无内存IO产生，场景3是程序IO，。通过下面的过程形容咱们能够失去论断。内存也存在和磁盘一样，随机IO比程序IO要慢的问题。如果行地址同上一次拜访的不统一，则须要从新拷贝row buffer，提早周期须要tRP+tRCD+CL。而如果是程序IO的话（行地址不变），只须要CL个周期既可实现。

咱们接着估算下内存的延时,笔者的机器上的内存参数Speed为1066MHz（通过dmidecode查得），该值除以2就是时钟周期的频率=1066/2=533Mhz。其提早周期为7-7-7-24。

程序IO

这种情况下须要tRP+tRCD+CL个时钟周期，7+7+7=21个周期。然而还有个tRAS的限度，两次行地址预充电不得小于24。所以咱们得按24来计算，24*(1s/533Mhz) = 45ns

随机IO

这种情况下只须要CL个时钟周期 7\*(1s/533Mhz)=13ns

扩大：回顾CPU的Cache Line

因为对于内存来说，随机IO一次开销比程序IO高好几倍。所以操作系统在工作的时候，会尽量让内存通过程序IO的形式来进行。做法要害就是Cache Line。当CPU发现缓存不命中的时候，实际上从来不会向内存去申请1个字节，8个字节这种。而是一次性就要64字节，而后放到本人的Cache中存起来。

用下面的例子来看，

如果随机申请8字节：耗时是45ns
如果随机申请64字节：耗时是45+7\*13 = 136ns

开销也没贵多少，因为只有第一个字节是随机IO，前面的7个字节都是程序IO。数据是8倍，然而IO耗时只有3倍，而且取出来的数据前面大概率要用，所以计算机外部就这么搞了，通过这种形式帮你防止一些随机IO！

另外，内存也反对burst(突发传输)模式，在这种模式下能够只传入一次行列地址，就命令内存返回该内存结尾的间断字节数据，比方64字节。这种模式下，只有第一次的8字节须要真正的行列拜访提早，前面的7个字节能够间接按内存的数据频率给吐出来，耗时更短。

开发内功修炼之内存篇专辑：

1.带你深刻了解内存对齐最底层原理
2.内存随机也比程序拜访慢，带你深刻了解内存IO过程
3.从DDR到DDR4，内存外围频率其实基本上就没太大的提高
4.理论测试内存在程序IO和随机IO时的拜访延时差别
5.揭穿内存厂家“谎话”，实测内存带宽实在体现
6.NUMA架构下的内存拜访提早区别！
7.PHP7内存性能优化的思维精华
8.一次内存性能晋升的我的项目实际
9.挑战Redis单实例内存最大极限，“遭逢”NUMA陷阱！

我的公众号是「开发内功修炼」，在这里我不是单纯介绍技术实践，也不只介绍实践经验。而是把实践与实际联合起来，用实际加深对实践的了解、用实践进步你的技术实际能力。欢送你来关注我的公众号，也请分享给你的好友~~~

关于linux:内存随机访问也比顺序慢带你深入理解内存IO过程

先给你讲个图书管理员的故事

内存的物理构造

内存IO提早

论断

扩大：回顾CPU的Cache Line

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于linux:内存随机访问也比顺序慢带你深入理解内存IO过程

先给你讲个图书管理员的故事

内存的物理构造

内存IO提早

论断

扩大：回顾CPU的Cache Line

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复