1、概述

嗨喽，大家好呀！我是简凡，一位游走于各互联网大厂间的新时代农民工。对于C端在线业务，服务的稳定性和吞吐量经常是评估一个零碎的重要指标，所以本文将从以下4点进行开展，逐渐解说golang中如何进行性能优化。

为什么要做性能优化
性能优化根底
优化思路
常见的优化场景

2、性能优化的目标（Why?）

咱们经常在以下时候思考到性能优化：

日常优化零碎：
1. 接口相应工夫优化，以满足对上游的SLA
2. CPU优化，保障在线业务cpu idl处于一个较高水平，升高业务量突增对系统稳定性带来的冲击
3. 内存优化，缩小内存占用，开释多余的服务器资源
解决线上业务问题：
1. 接口相应超时
2. CPU利用率飙升

3、性能优化根底（What?）

3.1 性能优化指标

在Golang服务中，咱们经常从以下4点触发去做服务的优化：

CPU profile：报告程序的 CPU 应用状况，依照肯定频率去采集应用程序在 CPU 和寄存器下面的数据
Memory Profile（Heap Profile）：报告程序的内存应用状况
Block Profiling：报告 goroutines 不在运行状态的状况，能够用来剖析和查找死锁等性能瓶颈
Goroutine Profiling：报告 goroutines 的应用状况，有哪些 goroutine，它们的调用关系是怎么的

4. 性能剖析过程（How?）

4.1 如何获取性能快照

golang中有两种类型的利用，工具性利用和服务型利用，工具性型利用的main函数仅一段时间，咱们本地跑单元测试的性能测试其实原理就是利用的这种。服务型利用为长期存活的后端利用，例如RPC服务，HTTP服务，咱们后端系统通常都是服务型利用。

4.1.1 工具型利用获取CPU快照

测试Demo如下，这里用了一个快排的例子，利用执行完结后，就会生成一个文件，保留了咱们的 CPU profiling 数据。失去采样数据之后，应用go tool pprof工具进行 CPU 性能剖析。

package main import (    "math/rand"    "os"    "runtime/pprof"    "time") func generate(n int) []int {    rand.Seed(time.Now().UnixNano())    nums := make([]int, 0)    for i := 0; i < n; i++ {        nums = append(nums, rand.Int())    }    return nums}func bubbleSort(nums []int) {    for i := 0; i < len(nums); i++ {        for j := 1; j < len(nums)-i; j++ {            if nums[j] < nums[j-1] {                nums[j], nums[j-1] = nums[j-1], nums[j]            }        }    }} func main() {    pprof.StartCPUProfile(os.Stdout)    defer pprof.StopCPUProfile()    n := 10    for i := 0; i < 5; i++ {        nums := generate(n)        bubbleSort(nums)        n *= 10    }}

这里应用的runtime/pprof这个剖析工具，须要指定快照打印的地位，这里打印到规范输入了。能够会与程序中的打印抵触。咱们能够本人实现写到文件中，这里能够用另一个开源工具代替github.com/pkg/profile，它会生成一个日志快照文件到长期目录。

package main import (    "math/rand"    "github.com/pkg/profile"    "time") func generate(n int) []int {    rand.Seed(time.Now().UnixNano())    nums := make([]int, 0)    for i := 0; i < n; i++ {        nums = append(nums, rand.Int())    }    return nums}func bubbleSort(nums []int) {    for i := 0; i < len(nums); i++ {        for j := 1; j < len(nums)-i; j++ {            if nums[j] < nums[j-1] {                nums[j], nums[j-1] = nums[j-1], nums[j]            }        }    }} func main() {    defer profile.Start(profile.MemProfile, profile.MemProfileRate(1)).Stop()    n := 10    for i := 0; i < 5; i++ {        nums := generate(n)        bubbleSort(nums)        n *= 10    }}

4.1.1 服务型利用CPU剖析

如果你的应用程序是始终运行的，比方 web 利用，那么能够应用net/http/pprof库，它可能在提供 HTTP 服务进行剖析。这样你的 HTTP 服务都会多出/debug/pprof endpoint，拜访它会失去相似上面的内容：

package main import (    "net/http"    _ "net/http/pprof") func main() {    http.ListenAndServe("0.0.0.0:8000", nil)}

当初数据曾经能够采集了，那如何获取快照呢？咱们上一步的操作，在后盾起了一个http server服务，咱们间接点击ui中的链接就能够拿到内存快照了,例如点击profile，咱们就能够拿到一个30s的CPU快照，是一个*.pb.gz类型的二进制文件，可用于咱们前面的剖析。

/debug/pprof/profile：拜访这个链接会主动进行 CPU profiling，继续 30s，并生成一个文件供下载
/debug/pprof/heap： Memory Profiling 的门路，拜访这个链接会失去一个内存 Profiling 后果的文件
/debug/pprof/block：block Profiling 的门路
/debug/pprof/goroutines：运行的 goroutines 列表，以及调用关系

4.2 go tool剖析性能快照

不论是工具型利用还是服务型利用，咱们应用相应的 pprof 库获取数据之后，下一步的都要对这些数据进行剖析，咱们能够应用go tool pprof命令行工具。
go tool pprof最简略的应用形式为:

go tool pprof [binary] [source]

其中：

binary 是利用的二进制文件，用来解析各种符号；例如：go tool pprof -http=:9999 /Users/xxxx/pprof/pprof.samples.cpu.001.pb.gz
source 示意 profile 数据的起源，能够是本地的文件，也能够是 http 地址。此形式会在命令窗口中依照交互模式例如：go tool pprof http://127.0.0.1:8000/debug/pprof/profile

注意事项： 获取的 Profiling 数据是动静的，要想取得无效的数据，请保障利用处于较大的负载（比方正在生成中运行的服务，或者通过其余压测工具模仿拜访压力）。否则如果利用处于闲暇状态，失去的后果可能没有任何意义。

能够减少些参数来获取更多信息，例如：

# 咱们想获取70s的内存快照，能够减少-seconds参数：gotool pprof  -seconds 70 http://127.0.0.1:8912/debug/pprof/profile# 指定http接口，能够在ui上看到内存快照，参见本文4.2.2gotool pprof  -http=0.0.0.0:8234 http://127.0.0.1:8912/debug/pprof/profile

4.2.1 直连服务剖析

go tool + 线上服务http接口地址的形式：

go tool pprof http://127.0.0.1:8000/debug/pprof/profile

执行下面的代码会进入交互界面如下：

runtime_pprof $ go tool pprof cpu.pprofType: cpuTime: Jun 28, 2019 at 11:28am (CST)Duration: 20.13s, Total samples = 1.91mins (568.60%)Entering interactive mode (type "help" for commands, "o" for options)(pprof)

咱们能够在交互界面输出top3来查看程序中占用 CPU 前 3 位的函数：

(pprof) top3Showing nodes accounting for 100.37s, 87.68% of 114.47s totalDropped 17 nodes (cum <= 0.57s)Showing top 3 nodes out of 4      flat  flat%   sum%        cum   cum%    42.52s 37.15% 37.15%     91.73s 80.13%  runtime.selectnbrecv    35.21s 30.76% 67.90%     39.49s 34.50%  runtime.chanrecv    22.64s 19.78% 87.68%    114.37s 99.91%  main.logicCode

其中：

flat：以后函数占用 CPU 的耗时
flat：: 以后函数占用 CPU 的耗时百分比
sun%：函数占用 CPU 的耗时累计百分比
cum：以后函数加上调用以后函数的函数占用 CPU 的总耗时
cum%：以后函数加上调用以后函数的函数占用 CPU 的总耗时百分比
最初一列：函数名称

在大多数的状况下，咱们能够通过剖析这五列得出一个应用程序的运行状况，并对程序进行优化。
咱们还能够应用list 函数名命令查看具体的函数剖析，例如执行list logicCode查看咱们编写的函数的详细分析。

(pprof) list logicCodeTotal: 1.91minsROUTINE ================ main.logicCode in .../runtime_pprof/main.go    22.64s   1.91mins (flat, cum) 99.91% of Total         .          .     12:func logicCode() {         .          .     13:   var c chan int         .          .     14:   for {         .          .     15:           select {         .          .     16:           case v := <-c:    22.64s   1.91mins     17:                   fmt.Printf("recv from chan, value:%v\n", v)         .          .     18:           default:         .          .     19:         .          .     20:           }         .          .     21:   }         .          .     22:}

通过剖析发现大部分 CPU 资源被 17 行占用，咱们剖析出 select 语句中的 default 没有内容会导致下面的case v:=<-c:始终执行。咱们在 default 分支增加一行time.Sleep(time.Second)即可。

4.2.2 快照文件+图形化工具

这种快照文件的形式益处是更加直观，能够通过图形化界面来剖析：
想要查看图形化的界面首先须要装置 graphviz 图形化工具。Mac：brew install graphviz
接下来，能够用 go tool pprof 剖析这份数据

go tool pprof -http=:9999 cpu.pprof

拜访 localhost:9999，能够看到这样的页面：

当然咱们还能够抉择VIEW，而后看火焰图：

至此，咱们就胜利的获取了每个函数占用的CPU工夫了，上面就能够对占用较长的函数（平顶山局部)进行优化了。

5、常见性能优化伎俩

5.1 应用高效的性能包

5.1.1 Json解析

咱们将Json数据寄存到Redis时，取出时须要将其解析为Struct，但go官网自带的库性能较差，所以经常呈现瓶颈，可抉择github.com/json-iterator 替换规范库的 encoding/json（该库次要的优化伎俩详见：http://jsoniter.com/benchmark...）。 json-iterator 宣传的性能如下图：

5.1.2 深拷贝

还有时咱们须要在我的项目中应用到深拷贝的场景，能够参考这篇文章，深拷贝性能比照：https://www.yuque.com/jinsesihuanian/gpwou5/xg20gn。

5.2 空间换工夫

对于常见的Json解析问题，Redis大key问题，咱们能够进行多级缓存，将Redis中的大key数据缓存到内存中，这里别忘了思考带来的缓存一致性问题。
对于一些map，slice，尽量在初始化时指定大小，缩小内存的重新分配

5.3 字符串拼接

字符串的拼接优先思考bytes.Buffer。因为string类型是一个不可变类型，但拼接会创立新的string。GO中字符串拼接常见有如下几种形式，对性能要求很高的服务尽量应用bytes.Buffer进行字符串拼接

string + 操作：导致屡次对象的调配与值拷贝
fmt.Sprintf ：会动静解析参数，效率好不哪去
strings.Join ：外部是[]byte的append
bytes.Buffer ：能够事后调配大小，缩小对象调配与拷贝

应用strconv包代替fmt.Sprintf的格式化形式，性能比对见：https://www.cnblogs.com/yumuxu/p/4077234.html

5.4 异步解决

既然选用了Golang，天然要用到它简略易用的并发机制啦，咱们能够把一些不影响主流程的操作齐全能够异步化，例如发送邮件、写日志等。能够把一些业务场景并行处理，例如你要一次性读取多个文件。

6、总结

代码层面的优化，是 us 级别的，而针对业务对存储进行优化，能够做到 ms 级别的，所以优化越凑近应用层成果越好。对于代码层面，优化的步骤是：

利用压测工具模仿场景所需的实在流量。压测工具举荐应用 https://github.com/wg/wrk 或 https://github.com/adjust/go-wrk
pprof 等工具查看服务的 CPU、MEM 耗时
锁定平顶山逻辑，看优化可能性：异步解决，空间换工夫，应用高性能包等
局部优化完写 benchmark 工具查看优化成果
整体优化完回到步骤一，从新进行压测+pprof 看成果，看耗时是否满足要求，如果无奈满足需要，那就换存储吧~

后续我会给大家出一篇对于Golang服务的代码开发倡议，咱们下期见，Peace

我是简凡，一个励志用最简略的语言，形容最简单问题的新时代农民工。求点赞，求关注，如果你对此篇文章有什么纳闷，欢送在我的微信公众号中留言，我还能够为你提供以下帮忙：
帮忙建设本人的常识体系
互联网实在高并发场景实战解说
不定期分享Golang、Java相干业内的经典场景实际
我的博客：https://besthpt.github.io/
微信公众号：