关于后端:鹅厂后台大佬教你Go内存管理

导语 | 本文推选自腾讯云开发者社区-【技思广益 · 腾讯技术人原创集】专栏。该专栏是腾讯云开发者社区为腾讯技术人与宽泛开发者打造的分享交换窗口。栏目邀约腾讯技术人分享原创的技术积淀，与宽泛开发者互启迪共成长。本文作者是腾讯后盾开发工程师罗元国。

栈内存栈区的内存由编译器主动进行调配和开释，栈区中存储着函数的参数以及局部变量，它们会随着函数的创立而创立，函数的返回而销毁。

每个goroutine都保护着一个本人的栈区，这个栈区只能本人应用不能被其余goroutine应用。

栈区的初始大小是2KB。栈内存空间、构造和初始大小通过了几个版本的更迭：

v1.0~v1.1：最小栈内存空间为4KB。

v1.2：将最小栈内存晋升到了8KB。

v1.3: 应用间断栈替换之前版本的分段栈。

v1.4~v1.19：将最小栈内存升高到了2KB。

栈构造通过了分段栈到间断栈的倒退过程，介绍如下。

分段栈随着goroutine调用的函数层级的深刻或者局部变量须要的越来越多时，运行时会调用runtime.morestack和runtime.newstack创立一个新的栈空间，这些栈空间是不间断的，然而以后goroutine的多个栈空间会以双向链表的模式串联起来，运行时会通过指针找到间断的栈片段。如下图所示。

长处：按需为以后goroutine分配内存并且及时缩小内存的占用。

毛病：如果以后goroutine的栈简直充斥，那么任意的函数调用都会触发栈的扩容，当函数返回后又会触发栈的膨胀，如果在一个循环中调用函数，栈的调配和开释就会造成微小的额定开销，这被称为热决裂问题（Hot split）。

为了解决这个问题，Go在1.2版本的时候不得不将栈的初始化内存从4KB增大到了8KB。

间断栈间断栈能够解决分段栈中存在的两个问题，其外围原理就是每当程序的栈空间有余时，初始化一片比旧栈大两倍的新栈并将原栈中的所有值都迁徙到新的栈中，新的局部变量或者函数调用就有了短缺的内存空间。

栈空间有余导致的扩容会经验以下几个步骤：

调用runtime.newstack用在内存空间中调配更大的栈内存空间。

应用runtime.copystack将旧栈中的所有内容复制到新的栈中。

将指向旧栈对应变量的指针从新指向新栈。

调用runtime.stackfree销毁并回收旧栈的内存空间。

栈治理Span除了用作堆内存调配外，也用于栈内存调配，只是用处不同的Span对应的mSpan状态不同。用做堆内存的mSpan状态为mSpanInUse，而用做栈内存的状态为mSpanManual。

栈空间在运行时中蕴含两个重要的全局变量，别离是runtime.stackpool和runtime.stackLarge，这两个变量别离示意全局的栈缓存和大栈缓存，前者能够调配小于32KB的内存，后者用来调配大于32KB的栈空间。

为进步栈内存调配效率，调度器初始化时会初始化两个用于栈调配的全局对象：stackpool和stackLarge。

介绍如下：

（一）StackPoolstackpool面向32KB以下的栈调配，栈大小必须是2的幂，最小2KB，在Linux环境下，stackpool提供了2kB、4KB、8KB、16KB四种规格的mSpan链表。

stackpool构造定义如下

// Global pool of spans that have free stacks.
// Stacks are assigned an order according to size.
//
//  order = log_2(size/FixedStack)
//
// There is a free list for each order.
var stackpool [_NumStackOrders]struct {
  item stackpoolItem
  _    [cpu.CacheLinePadSize - unsafe.Sizeof(stackpoolItem{})%cpu.CacheLinePadSize]byte
}

//go:notinheap
type stackpoolItem struct {
  mu   mutex
  span mSpanList
}

// mSpanList heads a linked list of spans.
//
//go:notinheap
type mSpanList struct {
  first *mspan // first span in list, or nil if none
  last  *mspan // last span in list, or nil if none
}

（二）StackLarge大于等于32KB的栈，由stackLarge来调配，这也是个mSpan链表的数组，长度为25。mSpan规格从8KB开始，之后每个链表的mSpan规格都是前一个的两倍。

8KB和16KB这两个链表，实际上会始终是空的，留着它们是为了方便使用mSpan蕴含页面数的（以2为底）对数作为数组下标。stackLarge构造定义如下：


// Global pool of large stack spans.
var stackLarge struct {
  lock mutex
  free [heapAddrBits - pageShift]mSpanList // free lists by log_2(s.npages)
}

// mSpanList heads a linked list of spans.
//
//go:notinheap
type mSpanList struct {
  first *mspan // first span in list, or nil if none
  last  *mspan // last span in list, or nil if none
}

（三）内存调配如果运行时只应用全局变量来分配内存的话，势必会造成线程之间的锁竞争进而影响程序的执行效率，栈内存因为与线程关系比拟亲密，所以在每一个线程缓存runtime.mcache中都退出了栈缓存缩小锁竞争影响。

同堆内存调配一样，每个P也有用于栈调配的本地缓存(mcache.stackcache)，这相当于是stackpool的本地缓存，在mcache中的定义如下：

//go:notinheap
type mcache struct {
  // The following members are accessed on every malloc,
  // so they are grouped here for better caching.
  nextSample uintptr // trigger heap sample after allocating this many bytes
  scanAlloc  uintptr // bytes of scannable heap allocated

  // Allocator cache for tiny objects w/o pointers.
  // See "Tiny allocator" comment in malloc.go.

  // tiny points to the beginning of the current tiny block, or
  // nil if there is no current tiny block.
  //
  // tiny is a heap pointer. Since mcache is in non-GC'd memory,
  // we handle it by clearing it in releaseAll during mark
  // termination.
  //
  // tinyAllocs is the number of tiny allocations performed
  // by the P that owns this mcache.
  tiny       uintptr
  tinyoffset uintptr
  tinyAllocs uintptr

  // The rest is not accessed on every malloc.

  alloc [numSpanClasses]*mspan // spans to allocate from, indexed by spanClass

  stackcache [_NumStackOrders]stackfreelist

  // flushGen indicates the sweepgen during which this mcache
  // was last flushed. If flushGen != mheap_.sweepgen, the spans
  // in this mcache are stale and need to the flushed so they
  // can be swept. This is done in acquirep.
  flushGen uint32
}

stackcache [_NumStackOrders]stackfreelist即为栈的本地缓存，在Linux环境下，每个P本地缓存有4（_NumStackOrders）种规格的闲暇内存块链表：2KB，4KB，8KB，16KB，定义如下所示：


// Number of orders that get caching. Order 0 is FixedStack
// and each successive order is twice as large.
// We want to cache 2KB, 4KB, 8KB, and 16KB stacks. Larger stacks
// will be allocated directly.
// Since FixedStack is different on different systems, we
// must vary NumStackOrders to keep the same maximum cached size.
//   OS               | FixedStack | NumStackOrders
//   -----------------+------------+---------------
//   linux/darwin/bsd | 2KB        | 4
//   windows/32       | 4KB        | 3
//   windows/64       | 8KB        | 2
//   plan9            | 4KB        | 3
_NumStackOrders = 4 - goarch.PtrSize/4*goos.IsWindows - 1*goos.IsPlan9

小于32KB的栈调配：

对于小于32KB的栈空间，会优先应用以后P的本地缓存。

如果本地缓存中，对应规格的内存块链表为空，就从stackpool这里调配16KB的内存放到本地缓存（stackcache）中，而后持续从本地缓存调配。

若是stackpool中对应链表也为空，就从堆内存间接调配一个32KB的span划分成对应的内存块大小放到stackpool中。

不过有些状况下，是无奈应用本地缓存的，在不能应用本地缓存的状况下，就间接从stackpool调配。

大于等于32KB的栈调配：

计算须要的page数目，并以2为底求对数（log2page），将失去的后果作为stackLarge数组的下标，找到对应的闲暇mSpan链表。

若链表不为空，就拿一个过去用。如果链表为空，就间接从堆内存调配一个领有这么多个页面的span，并把它整个用于调配栈内存。

例如想要调配64KB的栈，68/8是8个page，log2page=log2(8)=3。

（四）内存开释什么时候开释栈？
如果协程栈没有增长过（还是2KB），就把这个协程放到有栈的闲暇G队列中。

如果协程栈增长过，就把协程栈开释掉，再把协程放入到没有栈的闲暇G队列中。

而这些闲暇协程的栈，也会在GC执行markroot时被开释掉，到时候这些协程也会退出到没有栈的闲暇协程队列中。

所以，惯例goroutine栈的开释，

一是产生在协程运行完结时，gfput会把增长过的栈开释掉，栈没有增长过的g会被放入sched.gFree.stack中；

二是GC会解决sched.gFree.stack链表，把这外面所有g的栈都开释掉，而后把它们放入sched.gFree.noStack链表中。

协程栈开释时是放回以后P的本地缓存？还是放回全局栈缓存？还是间接还给堆内存？其实都有可能，要视状况而定，同栈调配时一样，小于32KB和大于等于32KB的栈，在开释的时候也会区别对待。

小于32KB的栈，开释时会先放回到本地缓存中。如果本地缓存对应链表中栈空间总和大于32KB了，就把一部分放回stackpool中，本地这个链表只保留16KB。

如果本地缓存不可用，也会间接放回stackpool中。而且，如果发现这个mSpan中所有内存块都被开释了，就会把它归还给堆内存。

对于大于等于32KB的栈开释，如果以后处在GC清理阶段（gcphase==_GCoff），就间接开释到堆内存，否则就先把它放回StackLarge这里。

（五）栈扩容在goroutine运行的时候栈区会依照须要增长和膨胀，占用的内存最大限度的默认值在64位零碎上是1GB。栈大小的初始值和下限这部分的设置都能够在Go的源码runtime/stack.go查看。

扩容流程编译器会为函数调用插入运行时查看runtime.morestack，它会在简直所有的函数调用之前查看以后goroutine的栈内存是否短缺，如果以后栈须要扩容，会调用runtime.newstack创立新的栈。

旧栈的大小是通过咱们下面说的保留在goroutine中的stack信息里记录的栈区内存边界计算出来的，而后用旧栈两倍的大小创立新栈，创立前会查看是新栈的大小是否超过了单个栈的内存下限。

整个过程中最简单的中央是将指向源栈中内存的指针调整为指向新的栈，这一步实现后就会开释掉旧栈的内存空间了

（六）栈缩容在goroutine运行的过程中，如果栈区的空间使用率不超过1/4，那么在垃圾回收的时候应用runtime.shrinkstack进行栈缩容，当然进行缩容前会执行一堆前置查看，都通过了才会进行缩容。

缩容流程：

如果要触发栈的缩容，新栈的大小会是原始栈的一半，如果新栈的大小低于程序的最低限度2KB，那么缩容的过程就会进行。

缩容也会调用扩容时应用的runtime.copystack函数开拓新的栈空间，将旧栈的数据拷贝到新栈以及调整原来指针的指向。

惟一发动栈膨胀的中央就是GC。GC通过scanstack函数寻找标记root节点时，如果发现能够平安的膨胀栈，就会执行栈膨胀，不能马上执行时，就设置栈膨胀标识（g.preemptShrink=true），等到协程检测到抢占标识（stackPreempt）。

在让出CPU之前会查看这个栈膨胀标识，为true的话就会先进行栈膨胀，再让出CPU。

参考资料：

1.GoLang之栈内存治理

2.文言Go语言内存治理三部曲（二）解密栈内存治理

如果你是腾讯技术内容创作者，腾讯云开发者社区诚邀您退出【腾讯云原创分享打算】，支付礼品，助力职级降职。

关于后端:鹅厂后台大佬教你Go内存管理

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于后端:鹅厂后台大佬教你Go内存管理

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复