Go 性能调优工具pprof

介绍

问：如何对golang程序进行性能调优？

当然是使用golang中集成的大杀器pprof，来帮助我们从cpu, heap, block等维度来分析程序，还可以生成调用链、火焰图，直观又好用呀

原理

golang tool中的pprof是基于 https://github.com/google/pprof/ 实现的
pprof性能分析分为两步：数据采样，统计分析

数据采样
runtime/pprof包中提供了获取各种类型的采样数据的方法。
net/http/pprof包中提供了http接口调用runtime/pprof包的采样方法；go test命令也有参数可调用采样方法生成采样数据
统计分析
go tool pprof xxx， xxx可以是profile文件，也可以是http采样接口

go runtime包中提供了收集性能分析数据的方法，该方法生成的性能分析数据，能供 pprof 工具使用。性能分析数据可通过go test命令生成；也可通过引入net/http/pprof来提供获取性能分析数据的http接口。用户需要先收集性能分析数据，然后通过pprof工具进行分析

runtime/pprof 包提供收集以下几种性能分析数据：
cpu: 程序的cpu耗时数据（去除sleeping和I/O等待时间）
heap: 堆内存分配数据，可用于检查内存泄漏
threadcreate: 程序创建thread信息
goroutine:当前所有协程的堆栈跟踪
block: 堵塞的协程信息，默认关闭，要通过runtime.SetBlockProfileRate打开
mutex: 锁争用信息，默认关闭，要通过`runtime. SetMutexProfileFraction 打开

实践

golang程序要使用pprof很简单，两步解决：

引入包import _ "net/http/pprof", 里面提供了如下接口

func init() {
    http.HandleFunc("/debug/pprof/", Index)  //首页，子路径还包含了/debug,/pprof,/heap
    http.HandleFunc("/debug/pprof/cmdline", Cmdline) 
    http.HandleFunc("/debug/pprof/profile", Profile)
    http.HandleFunc("/debug/pprof/symbol", Symbol)
    http.HandleFunc("/debug/pprof/trace", Trace)
}

如果程序没有提供http服务，开启一个http服务

go func() {
    log.Println(http.ListenAndServe("localhost:6060", nil))
 }()

完整的示例代码，借鉴自golang pprof 实战：

import (
    "log"
    "net/http"
    //引入 提供采集数据http接口的包
    _ "net/http/pprof"
    "os"
    "runtime"
    "time"
)

const (
    Ki = 1024
    Mi = Ki * Ki
    Gi = Ki * Mi
)

func main() {
    runtime.GOMAXPROCS(1)              // 限制 CPU 使用数，避免过载
    runtime.SetMutexProfileFraction(1) // 开启对锁调用的跟踪
    runtime.SetBlockProfileRate(1)     // 开启对阻塞操作的跟踪

    go func() {
        // 开启http服务
        if err := http.ListenAndServe(":6060", nil); err != nil {
            log.Fatal(err)
        }
        os.Exit(0)
    }()

    for {
        eatCpu()
        stealMemory()
        time.Sleep(time.Second)
    }
}

func eatCpu() {
    loop := 10000000000
    for i := 0; i < loop; i++ {
        // do nothing
    }
}

func stealMemory() {
    max := Gi
    var buffer [][Mi]byte
    // 每次向buffer中 追加 1MB，直到1GB为止
    for len(buffer)*Mi < max {
        buffer = append(buffer, [Mi]byte{})
    }
}

开启http服务后，我们主要有三种方式来分析程序

1. index页查看原始采集数据分析

运行程序，打开pprof index页：http://localhost:6060/debug/pprof/

可在页面直接打开allocs，profile，heap等这些子目录，不过都是些原始采集数据，可读性不高。

类型	描述
allocs	内存分配情况的采样信息
blocks	阻塞操作情况的采样信息
cmdline	显示程序启动命令及参数
goroutine	当前所有协程的堆栈信息
heap	存活对象内存使用情况的采样信息
mutex	锁争用情况的采样信息
profile	CPU 占用情况的采样信息
threadcreate	系统线程创建情况的采样信息
trace	程序运行跟踪信息

2. 命令交互分析

下面我们以cpu维度，使用go tool pprof来分析下程序的问题
注意在mac系统下进行cpu分析，可能会出现profile文件为空的情况。建议在linux系统执行

1. 获取采样数据

➜  ~ go tool pprof http://localhost:6060/debug/pprof/profile?second=10
Fetching profile over HTTP from http://192.168.33.111:6060/debug/pprof/profile
Saved profile in /xxxx/pprof/pprof.pprof.samples.cpu.001.pb.gz
File: pprof
Type: cpu
Time: Mar 4, 2020 at 8:49am (CST)
Duration: 30s, Total samples = 21.73s (72.43%)
Entering interactive mode (type "help" for commands, "o" for options)
(pprof)

运行上述命令后，会自动请求http://localhost:6060/debug/pprof/profile?second=10接口获取profile数据。然后保存在本地/xxxx/pprof/pprof.pprof.samples.cpu.001.pb.gz，接着自动进入pprof交互界面。
second=10是指定采集时间，如果不填默认为30s

也可点击index页profile，手动下载数据，然后go tool pprof 文件路径进入pprof交互页面

2. 分析

命令行分析主要就是三步大法：top, list, web

top
列出函数的cpu耗时排序，从下图我们可以看出主要是main.eatCpu这个函数占用了cpu时间片
。也可用命令指定前十条top10

(pprof) top
Showing nodes accounting for 21.73s, 100% of 21.73s total
      flat  flat%   sum%        cum   cum%
    21.73s   100%   100%     21.73s   100%  main.eatCpu
         0     0%   100%     21.73s   100%  main.main
         0     0%   100%     21.73s   100%  runtime.main

flat：给定函数上运行耗时
flat%：给定函数的CPU 运行耗时比例
sum%：当前行以及上面行flat%加起来的总耗时比例
cum：当前函数加上它之上的调用运行耗时
cum%：当前函数加上它之上的调用的 CPU 运行耗时比例

注意， flat, sum, cum在分析不同维度数据时，根据指定指标，代表含义不同。例如现在分析cpu，则默认flat代表cpu耗时，如果分析heap，则默认flat代表消耗内存，指标可用sample_index命令修改

还不清楚的同学可以看： pprof and golang - how to interpret a results?

list
搜索查看函数细节，模糊匹配；可定位到是eatCpu函数44行代码的for循环有问题。

(pprof) list main.eatCpu
Total: 21.73s
ROUTINE ======================== main.eatCpu in /Users/shuzhengwang/go/src/github.com/Mrdshu/codeDemo/goDemo/pprof/main.go
    21.73s     21.73s (flat, cum)   100% of Total
         .          .     39:   }
         .          .     40:}
         .          .     41:
         .          .     42:func eatCpu() {
         .          .     43:   loop := 10000000000
    21.73s     21.73s     44:   for i := 0; i < loop; i++ {
         .          .     45:       // do nothing
         .          .     46:   }
         .          .     47:}
         .          .     48:
         .          .     49:func stealMemory() {
(pprof)

web
查看调用链
如果觉得上面的命令还不够直观，可以直接在pprof交互界面输入web，查看调用链图像，越大的框耗时越长
sample index
除了上述三个命令外，还有一个重要的命令我们可以用来修改指标
例如在内存分析中，我们查看有四种指标，默认指标是：分配空间大小alloc_space

(pprof) help sample_index
Sample value to report (0-based index or name)
Profiles contain multiple values per sample.
Use sample_index=i to select the ith value (starting at 0).
Or use sample_index=name, with name in [alloc_objects alloc_space inuse_objects inuse_space].

我们修改指标为：分配对象数目alloc_objects，再用top查看，会发现flat现在展示成了数目而不是内存

(pprof) top
Showing nodes accounting for 1GB, 100% of 1GB total
      flat  flat%   sum%        cum   cum%
       1GB   100%   100%        1GB   100%  github.com/wolfogre/go-pprof-practice/animal/muridae/mouse.(*Mouse).Steal
         0     0%   100%        1GB   100%  github.com/wolfogre/go-pprof-practice/animal/muridae/mouse.(*Mouse).Live
         0     0%   100%        1GB   100%  main.main
         0     0%   100%        1GB   100%  runtime.main
(pprof)
(pprof) sample_index=alloc_objects
(pprof) top
Showing nodes accounting for 14951, 99.87% of 14970 total
Dropped 14 nodes (cum <= 74)
Showing top 10 nodes out of 18
      flat  flat%   sum%        cum   cum%
      8192 54.72% 54.72%       8192 54.72%  syscall.(*RawSockaddrAny).Sockaddr
      6554 43.78% 98.50%       6554 43.78%  time.NewTimer
       205  1.37% 99.87%        205  1.37%  github.com/wolfogre/go-pprof-practice/animal/canidae/dog.(*Dog).Run
         0     0% 99.87%        205  1.37%  github.com/wolfogre/go-pprof-practice/animal/canidae/dog.(*Dog).Live
         0     0% 99.87%       6554 43.78%  github.com/wolfogre/go-pprof-practice/animal/felidae/cat.(*Cat).Live
         0     0% 99.87%       6554 43.78%  github.com/wolfogre/go-pprof-practice/animal/felidae/cat.(*Cat).Pee
         0     0% 99.87%       6770 45.22%  main.main
         0     0% 99.87%       8192 54.72%  main.main.func1
         0     0% 99.87%       8192 54.72%  net.(*TCPListener).AcceptTCP
         0     0% 99.87%       8192 54.72%  net.(*TCPListener).accept

3.网页图形化交互

除了命令行交互外，pprof还提供了更直观的网页交互

➜  ~ go tool pprof -http=:8081 http://localhost:6060/debug/pprof/heap
Fetching profile over HTTP from http://localhost:6060/debug/pprof/heap
Saved profile in /Users/shuzhengwang/pprof/pprof.alloc_objects.alloc_space.inuse_objects.inuse_space.008.pb.gz
Serving web UI on http://localhost:8081

使用go tool pprof -http=:8081 xxx命令在8081端口开启网页交互

可以直接在网页上查看函数耗时排序, 查询函数细节，查看调用链，甚至火焰图：

除了cpu耗时分析外，还有其他的分析有兴趣朋友也可以自己试试，和上面一样的流程：
go tool pprof http://localhost:6060/debug/pprof/profile 排查CPU占用问题
go tool pprof http://localhost:6060/debug/pprof/heap 排查内存占用问题
go tool pprof http://localhost:6060/debug/pprof/allocs 排查频繁内存回收
go tool pprof http://localhost:6060/debug/pprof/goroutine 排查协程泄漏
go tool pprof http://localhost:6060/debug/pprof/mutex 排查不合理的锁争用
go tool pprof http://localhost:6060/debug/pprof/block 排查阻塞操作
curl http://localhost:6060/debug/pprof/trace?seconds=60 > trace.out 查看trace信息

生产环境的使用

pprof这么好用，能够在生产上开启吗，采集数据时会对live机器性能有影响不？

官方的说法是，在生产开启是安全的，但部分profile分析（cpu）会稍微增加系统性能的压力，建议在上生产前，先测试下开启pprof的性能耗损。

cpu profile会增加性能压力的原因在于，其余维度的数据采集速度很快，直接采集当前的堆栈上的信息就可以了。而cpu profile为了分析出函数的cpu占用耗时，默认采集30s（可改），采集频率硬编码为100hz(即1s采集100次)

我自己测试了一下在cpu 接近99%满负载的情况下，进行60s的cpu profile：

基本看不出什么波动……而根据网上查的资料Continuous Profiling of Go programs，在进行cpu profile时，最多增加5%的额外负载。采集完了就又恢复，所以一般是没啥子问题的啦

扩展——StackImpact

我们利用pprof的采集功能，定时采集，就可以动态的显示出系统的性能图了

StackImpact是一个开源的性能分析器，支持多种语言，我们可以利用它来定时的抓取pprof数据，然后分析系统瓶颈

特性

用于CPU使用，内存分配，阻塞呼叫的连续热点分析。
持续延迟瓶颈跟踪。
错误和紧急监视。
健康监测包括 CPU。内存。垃圾收集和其他运行时指标。
关于配置文件异常的警报。

StackImpact的使用很简单，这里不展开，有兴趣的朋友可以去看看：stackimpact-go

参考文章：
Diagnostics
golang pprof 实战
 Go 大杀器之性能剖析 PProf

最后编辑于：2021.06.23 17:26:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,287评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,346评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,277评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,132评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,147评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,106评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,019评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,862评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,301评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,521评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,682评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,405评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,996评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,651评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,803评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,674评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,563评论 2赞 352