数据库‖超万亿规模的Hadoop NameNode性能故障排查过程分享

作者介绍

母延年,大数据领域数据分析处理专家,原腾讯和阿里巴巴大数据领域专家级工程师。曾在阿里开源项目Mdrill及腾讯Hermes项目担任核心开发人员。

随着国内互联网行业的发展,万亿规模的超大集群虽然已不像几年前那么凤毛麟角,但是也并不多见,尤其是涉及超万亿规模的超大集群性能故障排查的机会就更加稀少。

而这次我所进行的超万亿规模的Hadoop NameNode性能故障排查也是在我创业几年以来所遇到的集群规模最大,耗时最长,排查工作量最大,头发掉的最多,最终都不得不求助于大牛的一次经历。

因此在问题解决之后,我也第一时间将这次的整个排查过程记录下来进行总结,希望能给看到的各位同学有所帮助。下面,enjoy:

一、起 因

那是一个深夜,随着手机屏幕的熄灭,这本应该是一个温暖而甜美的睡梦的开始,突然一声“叮咚”的提示音划破了这静谧,随之而来的是“叮咚、叮咚、叮叮叮叮咚....”借着手机屏幕的亮光,我模糊的看见了那仿佛怪笑着的绿色人头标识上的字“你收到了20条微信消息”......

言归正传。事情的起因是由于近日客户反馈录信数据库LSQL突然性能变差,之前秒级响应的数据查询与检索,现在却总是在“转圈”,卡住不动了。因为是突然发生的现象,已经在现场的同事先排除了业务变动,但是并未发现问题。作为自己创立公司后第一个接到的万亿数据体量的大项目,我自身也非常重视,马上第一时间奔赴现场。

这里先容介绍一下该平台架构,底层采用hadoop进行分布式存储,中间数据库采用的录信LSQL,数据实时导入采用kafka进行。每天的数据规模是500亿,数据存储周期为90天,一共有4000多张数据表,其中最大的单表数据规模近2万亿条记录,总数据规模将近5万亿,存储空间占8PB。

数据平台支撑的基本使用主要包括数据的全文检索、多维查询,以及地理位置检索、数据碰撞等操作。也会有部分业务涉及数据的统计和分析,会有极少量的数据导出与多表关联操作。


二、经过

1.Before the day :初步定位问题

出发的前一天,晴空万里,万里无云,一如我的心情。

话说我在创业之前在腾讯做Hermes系统,每日接入的实时数据量就已经达到了3600亿/天,之后更是达到了每日近万亿条数据的实时导入。为了不显得那么凡尔赛,我只想说,我和梁启超在北大演讲时的心情一样:我对超大集群没什么了解,但是还是有那么一点喽!面对当前每日500-1000亿规模的系统,我在考虑是不是买票的时候把当天的回程票也买了......

为了快速定位问题,还没出发之前我就跟现场要了一些日志和jstack,初步定位是hadoop NameNode的瓶颈,而NN的优化我们此前也做了很多次,别无其他,唯手熟尔。

下图为当时堆栈的分析情况,估计在座诸位看了都会信心满满,这很明显就是hadoop卡顿。

2.First Day:尝试调整log4j

到现场的第一天,依然是风和日丽,心情继续保持美丽。

我到现场后第一件事情就是不断的抓hadoop Namenode的堆栈Jstack。从中得到的结论是问题确实是卡顿在NN上。此处NN是一个全局锁,所有的读写操作都在排序等待,详情如下图所示:

(1)卡在哪里

这个锁的等待个数竟然长达1000多个,不卡才怪呢,我们再细看一下,当前拥有这个锁的线程在做什么?

(2) 问题分析

很明显,在记录log上存在瓶颈,阻塞的时间太久。

1) 记录的log4j不应该加【%L】,它会创建Throwable对象,而这个在java里是一个重对象。

2) 日志记录太频繁,刷盘刷不动。

3) log4j有全局锁,会影响吞吐量。

(3)调整方案

1) 客户的hadoop版本采用的是2.6.0版本,该版本的hadoop,在日志处理上存在诸多问题,故我们将官方明确表示存在问题的patch打了进来

HDFS-8245  因日志原因导致nn慢

HDFS-7503  将日志记录到锁外,避免卡锁

HDFS-7213  processIncrementalBlockReport 导致的记录日志问题,严重影响NN性能

2) 禁用namenode所有info级别的日志

观察发现当有大量日志输出的时候,全局锁会阻塞NN。

目前修改方式是屏蔽到log4j的日志输出,禁用namenode所有info级别的日志。

3) log4j 的日志输出去掉【%L】参数

这个参数会为了得到行号而创建new Throwable对象,这个对象对性能影响很大,大量创建会影响吞吐量。

4) 启用异步审计日志

dfs.namenode.audit.log.async 设置为true,将审计日志改为异步。

(4)优化效果

优化之后,确实因log4j导致的卡顿问题不存在了,但hadoop的吞吐量依然卡,仍旧卡在lock上。

3.Second Day:优化du,排查解决所有卡顿

在现场的第二天,晴空依然万里,心情不算美丽。

接着昨天的工作:

(1)在解决了log4j的问题后,继续抓jstack发现了如下位置:

(2)通过代码进行分析,发现确实此处有锁,证实此处会引起所有访问阻塞:

(3)继续深入研读代码,发现受如下参数控制:

(2.6.5版本这个默认值是5000,已经不存在这个问题了)

这个参数的核心逻辑是,如果配置上大于零的值,它会间隔一定文件数量,释放锁,让别的程序得以继续执行,该问题只会在hadoop2.6.0的版本里存在,之后的版本里已经对此做了修复。

(4)解决办法

1) 打上官方patch:

HDFS-8046

2) lsql内部移除所有关于hadoop du的使用

(5)为什么要打patch

2.6.5版本中,可以自己定义休眠时间,默认休眠时间为500ms,而2.6.0休眠时间为1ms,我担心太短,会出现问题。

继续按照原先思路,排查所有的jstack 。将所有涉及卡顿的地方都一一解决掉,至此hadoop通过jstack已经抓不到任何的活动线程,但是依然卡顿在读写锁的切换上,这说明:

(1)namenode内部的每个函数已经最优,jstack基本抓不到了;

(2)堆栈调用只能看到近1000个读写锁在不断切换,说明nn的请求并发非常高,多线程之间锁的上下文切换已经成为了主要瓶颈。

所以当下主要思路应该落在如何减少NN的调用频率上面。

4.Third Day:尽可能减少NN请求频率

在现场的第三天,突然下起了暴雨,“爱就像蓝天白云,晴空万里,突然暴风雨”......一如我的心情。

为了减少NN的请求频率,尝试了多个方法: 

(1)启用录信数据库lsql的不同表不同分片功能

考虑到现场有4000多张表,每张表有1000多个并发写入分片,有可能是同时写入的文件数太多,导致的nn请求频率太高,故考虑将那些小表,进行分片合并,写入的文件数量少了,请求频率自然而然就降低了。

(2)与现场人员配合,清理不必要的数据,减少hadoop集群的压力。清理后hadoop集群的文件块数由将近2亿,降低到1.3亿,清理力度足够大。

(3)调整一系列与NN有关交互的心跳的频率:如blockmanager等相关参数。

(4)调整NN内部锁的类型:由公平锁调整为非公平锁。

本次调整涉及的参数有:

dfs.blockreport.intervalMsec 由21600000L调整为259200000L (3天),全量心跳

dfs.blockreport.incremental.intervalMsec 增量数据心跳由0改为300,尽量批量一次上报 (老版本无该参数)

dfs.namenode.replication.interval 由3秒调整为60秒,减少心跳频率

dfs.heartbeat.interval 心跳时间由默认3秒调整为60秒,减少心跳频率

dfs.namenode.invalidate.work.pct.per.iteration 由0.32调整为0.15 (15%个节点),减少扫描节点数量


本次调整涉及的堆栈:

最终结果卡顿问题依然存在。本人已经黔驴技穷,人已经懵了,不知道该如何处理。

5.Fourth Day:无计可施,考虑建立分流机制

在现场的第四天,黑云压城,暴雨临门,当然这是当时的心里环境,实话实说当天天气还是不错滴。

拖着已经连续熬了三个晚上的疲惫身躯,第四天一早就跟公司和客户汇报排查具体情况,也直接说了已经没有任何的思路。希望能启用B方案:

(1)启用hadoop联邦方案,靠多个namenode解决当下问题;

(2)立即修改录信lsql数据库,在一个lsql数据库内适配hadoop多集群方案,也就是搭建两个完全一样的集群,录信数据库启动600个进程,300个进程请求旧集群,300个进程分流到新集群,以达到减轻压力的目的。

家里(公司)的意见是先回去睡觉,头脑清醒时再做决定。

客户这边建议继续排查,因为系统已经稳定运行一年多了,没道理突然就不行了,还是希望深入研究一下。

就像是系统故障大部分一次重启就能解决,我决定先睡会,期待醒了之后问题能够迎刃而解。在我睡着的半梦半醒之中,我仿佛看见阿拉斯加的鳕鱼正跃出水面,梅里雪山的金丝猴刚好爬上树尖......还有那个站在hadoop之巅的男人——高高!

随着高高出现在我的梦里(实际上并没有...),我一个机灵赶紧起身,立马给高高打了个电话,高高是我以前在腾讯时专门负责HDFS的大牛,他对hadoop的精通程度堪比我熟知各类防脱发窍门,而且上万台大集群的优化经验,可遇而不可求,我想如果他也不能点播一二,恐怕就没人搞得定了,我也不必白费力气。

高高首先询问了集群的基本情况,并给我多项有效建议。最让我振奋的是根据高高的分析,我们的集群绝对没有达到性能的上限。


6.The last day:对调用NN的锁的每个函数进行分析

在现场的最后一天,白光万道,红霞满天,终于有了解决方案的我心里暗爽。

这次没有直接看jmx信息,担心结果不准确。采用的是btrace这个工具,排查具体是哪个线程频繁给NN加锁,导致NN负载如此之高。

花费了3个小时分析,最终令人惊喜的是发现processIncrementalBlockReport这个线程请求频率非常高,远远高于其他线程。而这个线程不是datanode (dn)节点增量心跳的逻辑吗?为什么频率如此之高?心跳频率我不是都改掉了吗?难道都没生效么?

仔细查看hadoop代码,发现这个逻辑确实有问题,每次写数据和删数据都会立即调用,而我设置的那些心跳参数在客户的这个版本的hadoop集群里并没有这方面优化,设置了也没用,于是紧急在网上寻找patch的方法,最终找到了这个,它不仅仅解决了心跳频率的问题,还解决了加锁频率问题,通过减少锁的使用次数,从而减少上下文切换的次数,进而提升nn的吞吐量。

迅速打上此patch,  明显发现NN吞吐量上来了,而且不仅仅是访问NN不卡了,实时kafka的消费速度也一下子由原先的每小时处理40亿,上升至每小时处理100亿,入库性能也跟着翻倍。打上patch后,此问题得到了根本的解决。

究其根本原因在于HDFS NameNode内部的单一锁设计,使得这个锁显得极为的“重”。持有这个锁需要付出的代价很高。每个请求需要拿到这个锁,然后让NN 去处理这个请求,这里面就包含了很激烈的锁竞争。因此一旦NN的这个锁被一些大规模的导入/删除操作,容易使NameNode一下子处理大量请求,其它用户的任务会马上受到影响。这次patch的主要作用就是增量汇报的锁修改为异步的锁——让删除、上报等操作不影响查询。


三、总 结:

最后,针对于这次性能故障的排查,我从问题成因和解决建议两个方面总结一下:

1.问题成因

系统之前一直运行平稳,突然出现的问题的原因主要是因为以下几个:

(1)用户删除了大量文件,造成hadoop压力增大

近期硬盘快要满了,集中清理了一批数据

最近hadoop不稳定,集中释放了一大批文件

(2)近期明显的日常数据量暴增对hadoop调优后,重入数据,按日志进行数据条数统计,最近的数据规模增加很多

(3)消费数据积压

本次调优过程中,由于数据积压了很多天,导致kafka一直在满速消费数据。而在满速消费的情况下,会对nn造成较大的冲击。

(4)快照和mover对hadoop造成的冲击

清理快照的时候,释放了大量的数据块,造成数据的删除

mover新增了大量的数据块,致使系统删除了大量的ssd上的文件块。且因节点数增多,心跳频繁,瞬时都进行processIncrementalBlockReport对nn造成较大的压力

2.我的几点建议

(1)Never give up easily!

在排查的第四天,在尝试过多种解决方案之后,我也想过要放弃,并且认为这次的性能故障是无解的。在这种时候我们不妨多与同事,哪怕是以前的同事领导讨论讨论,也许会带来不一样的思路和启发,要相信群体的智慧!

(2)一定要了解的hadoop原理,这也是本次hadoop调优的关键点

   1) 当我们在HDFS中删除文件时:namenode只是把目录入口删掉,然后把需要删除的数据块记录到pending deletion blocks列表。当下一次datanode向namenode发送心跳时,namenode再把删除命令和这个列表发送到datanode端,所以这个pending deletion blocks列表很长很长,导致了timeout。

   2)当我们导入数据时:客户端会将数据写入到datanode里,而datanode在接到数据块后,会立即调processIncrementalBlockReport给NN汇报,写入数据量越多,越频繁,机器数量越多,进程越多,调用NN就会越频繁。所以本次的异步锁patch,在这里才会有效果。

(3)最关键的一点:千万不要使用hadoop2.6.0这个版本!!!

用hadoop官方的话来讲,别的版本都是存在a few of bug,而这个版本存在a lot of bug,所以回去后第一件事要督促客户尽快升级换版本。


更多干货内容请关注微信公众号“录信数软”~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容