聊天服务器故障处理记录

2019-05-24聊天服务器故障处理记录



1、故障可能原因分析

在没有更新前后端代码逻辑的情况下,服务器突然登不上,最有可能的原因是mongodb连接断开,或者mongodb死锁了。

前几次服务器故障也是mongodb的问题,因此首先需要确认是不是mongodb出问题了。


2、初步确认故障原因

确认是不是mongodb挂了,或者mongodb存在死锁或慢查询

1)ssh登录服务器:

2)分析服务器性能: 

输入命令ps aux --sort -rss ,看cup是否被撑爆

输入mongo进入mongo shell ,

输入db.currentOp() 查看当前mongo进程,看能不能找到与huarenchat数据库相关的记录。


db.currentOp()多输入几次,如果存在huarenchat,可以确定是mongo数据库死锁了。


复制下面命令,杀进程所有当前的mongo进程:

var ops = db.currentOp().inprog; for(i = 0; i < ops.length; i++){ var opid = ops[i].opid; db.killOp(opid); print("Stopping op #"+opid)

}

注意:进程可能杀不完,杀了又有,或者在某一刻没有,但不表示杀干净。

通过这一步,可以初步故障由mongod数据库引起




3、查看服务器日志,确认故障

输入pm2 log 可以查看服务器正在生成的日志


response time可能高达20几秒,这一步可以确认故障是由mongodb查询慢导致



4、找到慢查询的原因,通过开启mongodb性能分析工具

1)输入mongo进入shell (有可能mongo断开了连接,进入不了,需重新启动mongodb服务,启动mongo服务命令:输入 service mongod start)

2)输入show dbs,再输入 use huarenchat 切换到huanrenchat数据库,

3)查看该数据库下性能分析记录是否开启

输入 db.getProfilingLevel(),返回值可能为0,1,2

为0表示未开启,1表示记录大于100ms的查询,2表示记录所有查询。

输入db.setProfilingLevel( 1 )开启


稍等十几秒,输入show profile ,可以看到最近的数据库请求记录

可以看到在huarenjie.msgs表中查询一条消息,docsExamined表示检索了181631条数据,nreturned:1 表示返回一条, keysExamined表示索引查询的次数,等于0表示没有用到索引。

因此,故障原因就是在msgs表18万条数据中,查询某一条数据,却没有用到索引,进行了一次非常耗时的全表查询;


通过db.system.profile.find( { millis : { $gt : 5000 } } ) 可以查询大于5秒的查询,通过此命令可以一条条找到具体的慢查询,分别予以解决



5、解决,添加索引

查看之前huarenchat表已添加的索引,记录如下:

db.users.createIndex({uid:1},{background:1})

db.unreadmsgs.createIndex({to_uid:1},{background:1})

db.socketobjs.createIndex({uid:1},{background:1})


db.msgs.createIndex({to_uid:1},{background:1})

db.msgs.createIndex({gid:-1},{background:1})

db.msgs.createIndex({client_time:-1},{background:1})


db.jpushs.createIndex({uid:1},{background:1})

db.groups.createIndex({gid:-1},{background:1})

db.counts.createIndex({date:-1},{background:1})

db.blacklists.createIndex({myuid:1},{background:1})


发现msgs表,没有设置mid的索引

删除索引命令db.msgs.dropIndexes()

查看索引命令db.msgs.getIndexSpecs()

添加索引命令db.msgs.createIndex({mid:-1},{background:1})


一行命令解决问题:

db.msgs.createIndex({mid:-1},{background:1})


解决问题后,记得关闭性能分析工具:huarenchat数据库下,输入db.setProfilingLevel(0 ),若长期开启,会影响数据库性能。



6、重启应用,查询性能

1)测试聊天功能是否正常,若正常,则不需要重启;

2)若需要重启:进入项目根目录:输入npm run re_prd ,根目录如下

3)查看性能是否恢复正常

输入命令ps aux --sort -rss ,查看cup

输入pm2 log 查看请求时间



7、重启服务器

一般来说不需要重启服务器,假如重启了服务器,一定要清调防火墙设置

shutdown -r now 重启服务器

等1分钟,重新登录服务器,清掉防火墙:iptables -F




8、参考资料

https://blog.csdn.net/huyangg/article/details/78918179

https://blog.51cto.com/chenql/2071267

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容