filtbeat Pod OOM

背景:
容器化之前已经有一套es+flume+kibana日志收集系统,由于flume agent采集日志时候消耗的资源过大,容器平台采用更为轻量的filebeat来作为日志采集的客户端。为了兼容原有的efk,在filebeat的基础上开发了自定义output,用于把日志发至flume。
上线一段时间后,发现filebeat pod 疯狂吃内存,然后给pod配上的资源限制,发现有一台宿主机上的pod一直OOM。
filebeat工作流程


未命名文件.png

分成两个部分来说明filebeat的工作流程,采集、发送。
采集部分:
1、registrar.Run()协程负责更新记录日志的采集状态,
2、Crawler负责管理Input,根据配置文件创建Input
3、Input负责管理Harvester,定时扫描配置的paths路径,发现需要采集的日志文件,为每个日志文件都创建一个Harvester
4、Harvester 用来采集具体的日志文件,将日志发送到channel,所有Harvester的channel的日志都会被其所属Input读取,然后发送,同时日志采集信息也会同步到Registrar中。
发送部分:
1、所有output通过init把自己的构造函数注册到output reg中
2、createBeater时,会根据配置文件加载具体的output类型,并且把output注册到pipeline的consumer中,consumers的loop协程会循环读取采集到的日志文件,并通过output Publish方法发送。

排查问题:
1、dlv工具断点调试,除了帮我更了解代码运行流程之外,对问题排查并没有什么实际作用。
2、pprof+go-torch。之前用火焰图在分析cpu的时候感觉挺有用,所以这次用pprof时直接连同火焰图一起使用了。go tool pprof 对heap信息的采集跟profile不太一样,只有一次就直接生成了svg文件。这个图是把具体output发送的步骤的逻辑注释后生成的,因此看起来Harvester.Run()占的相对比较多,注释前更为平均,根本看不出来什么瓶颈。

WX20190301-002446@2x.png

3、pprof。由于问题很明显是内存泄漏,所以比较怀疑可能是协程泄漏,其中最有可能的就是Harvester.Run()协程泄漏。查看/debug/pprof/goroutine,发现goroutine700多个。有一定的数量,但是没有到泄漏到地步。在其他配置不变的情况下,把harvester_limits 设置成2,重新运行后Harvester协程数量大致等于input的两倍,总的协程数也降下来了。内存泄漏的问题还是存在。基本否定了是协程泄漏导致的内存泄漏。
4、还是pprof,直接go tool pprof http://host:port/debug/pprof/heap,top查看内存占用情况。发现占用几乎全是doAppend(),而且查看了doAppend()的逻辑后,也没发现什么问题。问题已经基本明确了,就是Harvester.Run()->Harventer.Reader.Next()->doAppend()引起的。由于自定义的output的Publish跟具体的发送数据之间是有缓冲的异步操作,怀疑可能是缓冲太长,导致Harvester.Next()瞬时调用过多或者发送太慢,缓冲满了后Harvester.Next()却没有被堵塞。查看代码调用逻辑,最终确定是由于Harventer采集日志时,必须要碰到"\n"才会把buffer里的内容返回,有些不符合规范的日志,一行大小就有10G。

2647.67MB 99.55% 99.55% 2647.67MB 99.55% [github.com/elastic/beats/libbeat/common/streambuf.(*Buffer).doAppend](http://github.com/elastic/beats/libbeat/common/streambuf.(*Buffer).doAppend)

 4.06MB 0.15% 99.71% 2651.73MB 99.71% [github.com/elastic/beats/filebeat/reader/line.(*Reader).advance](http://github.com/elastic/beats/filebeat/reader/line.(*Reader).advance)

 1.50MB 0.056% 99.76% 2653.74MB 99.78% [github.com/elastic/beats/filebeat/input/log.(*Harvester).Run](http://github.com/elastic/beats/filebeat/input/log.(*Harvester).Run)

 0  0% 99.76% 2653.74MB 99.78% [github.com/elastic/beats/filebeat/harvester.(*Registry).Start.func1](http://github.com/elastic/beats/filebeat/harvester.(*Registry).Start.func1)
 0  0% 99.76% 2651.73MB 99.71% [github.com/elastic/beats/filebeat/reader/encode.Reader.Next](http://github.com/elastic/beats/filebeat/reader/encode.Reader.Next)
 0  0% 99.76% 2651.73MB 99.71% [github.com/elastic/beats/filebeat/reader/limit.(*Reader).Next](http://github.com/elastic/beats/filebeat/reader/limit.(*Reader).Next)
 0  0% 99.76% 2651.73MB 99.71% [github.com/elastic/beats/filebeat/reader/line.(*Reader).Next](http://github.com/elastic/beats/filebeat/reader/line.(*Reader).Next)

 0  0% 99.76% 2651.73MB 99.71% [github.com/elastic/beats/filebeat/reader/strip_newline.(*StripNewline).Next](http://github.com/elastic/beats/filebeat/reader/strip_newline.(*StripNewline).Next)

 0  0% 99.76% 2647.67MB 99.55% [github.com/elastic/beats/libbeat/common/streambuf.(*Buffer).Append](http://github.com/elastic/beats/libbeat/common/streambuf.(*Buffer).Append)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容

  • Filebeat是本地文件的日志数据采集器,可监控日志目录或特定日志文件(tail file),并将它们转发给El...
    康小为6840阅读 63,001评论 2 39
  • 搜索引擎介绍Elasticsearch的使用Logstash的使用Filebeat的使用Kibana的使用Elas...
    哈喽别样阅读 926评论 1 4
  • 博客原文 翻译作品,水平有限,如有错误,烦请留言指正。原文请见 官网英文文档 引言 概述 Apache Flume...
    rabbitGYK阅读 11,469评论 13 34
  • 简介 ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件,但并非全部。后文...
    mysia阅读 3,616评论 1 14
  • 最幸福的就是我啦,昨晚睡觉前坚持敷了面膜,早晨起来皮肤滑滑的,嫩嫩的,感赏我的皮肤越来越好了!越来喜欢自己了,谢谢...
    小样乳酸军阅读 143评论 0 1