python编程遇到的几个坑

这一周处理了几个之前一直出现一直没有正视的坑,总结一下。

sqlalchemy连接池

我写了一个简单的内网dns管理系统,用到flasksqlalchemy。主要就是通过web页面和api对dns记录进行增删改查,所有这些操作都写入数据库,每次更改后产生一个celery任务来异步的重新生成dns的配置文件。

看起来一个简单的问题,但是在celery中读取数据库的时候出现了问题,每天早上都会报错Mysql has gone away,我重启服务恢复正常,第二天早上又会出现同样的问题,但是在flask的路由下调用的所有数据库操作从未出现任何问题。咨询DBA,DBA说数据库是正常的,所以一定是我的程序处理有问题了。我在网上各种资料查询,最后找到结果。

flask_sqlalchemy默认使用数据库连接池来对理数据库连接进行复用以减少建立连接的开销,他默认会对连接池中的每个连接隔2小时检查一次是否可用,如果不可用就销毁掉,创建新的连接放到连接池中,我们使用db.session的时候就需要从连接池中拿到一个连接,使用完后调用db.session.close来将连接放回到连接池(close并不是关闭连接,关闭连接的操作由连接池来管理)。但是我在路由函数中从来没有使用过db.session.close,也从来没有出现过问题,是因为flask_sqlachemy会自动在请求上下文结束时自动将连接放回连接池,这样放回连接池的连接就会每隔两小时接受一次检查。但是在celery中查询的时候问题就会出现,celery中并没有请求上下文,所有查询完以后并不会将连接放回连接池,也就是说celery中一直使用同一个连接,从来没有放回过连接池,也就从来不会被检查连接的有效性,所以连接断开的时候进行查询,导致报错。

连接为什么会断开呢?原来mysql会把闲置不用超过8小时的连接主动关掉,而dns变更大多是白天上班的时候变更,晚上基本不会变更,这样超过8小时以后mysql的连接已经被断开了,而celery中使用的连接还是前一天早上重启拿到的连接,肯定失效了,拿去查询数据失败,抛出异常。

所以我后来在celery中每次查询结束后都会调用db.session.close,这样会将连接放回连接池,下次查询会重新从连接池中获取新的连接,这个连接每个两个小时会被检查,因此再也没有出现过这个问题。

supervisord 与 celery

这个问题出现在发布系统中,也是让我头疼了好久的一个问题,这一周终于得到解决。我们的发布系统采用celery异步的执行ansible脚本来进行发布的,每次发布大约需要1.5到5分钟不等的时间。我们使用supervisord来管理web端和celery端的启动,每次修改完代码之后上线重启发布系统之后就会出现很多发布任务卡死不再继续执行,每次都需要手动把卡死的发布任务kill掉,然后重发,这周终于找到问题根源了。

众所周知celery有一个warm shutdown的机制,就是给celery master发送一个 SIG_TERM信号,celery master就会通知其管理的workers停止接受新的任务,然后等待手头的任务结束,等到所有workers均完成任务后,master会kill掉所有workers,然后结束运行。我们的发布系统需要的就是这个功能,但是我一直感觉supervisord停止celery的时候并没有采取warm shutdown的方式,因为每次都会又一些celery worker进程未被停止,而且永远不会结束运行,这些celery worker中执行的发布任务就会卡死不动,这个现象叫我百思不得其解。

于是我去查supervisord的文档,发现他停止进程的时候确实默认就发送SIG_TERM信号,而且我也没有这方面的配置,说明应该是使用了warm shutdown的,看celery worker打印出来的日志也确实是有warm shutdown,但是为什么会出现这么诡异的事情呢?我再看supervisord的文档,发现每个由superivsord托管的程序都有一个配置项stopwaitsecs,表示supervisord对这个程序发出SIG_TERM信号(用来杀死该程序)到他收到SIG_CHLD信号(标志着这个程序确实被杀死)之间他愿意等待的时间,如果超过这个时间,supervisord会再次向该程序发出SIG_KILL信号,这个信号是一定会杀死其管理的程序的。也就是说,supervisord会先对celery的master进行warm shutdown的操作,完了之后等待stopwaitsecs秒之后会大开杀戒,直接干掉celery master。而这个stopwaitsecs默认为10s,对于我们一个平均发布时间为3分钟左右的发布任务来说显然等不到warm shutdown真正完成,supervisord就会粗暴的干掉celery master。而这样粗暴的干掉celery master之后,celery worker貌似也出现了异常,再不干活了,因为他是非常依赖master的,而且他干完活之后还需要想master发送ack确认信息的,故此导致这些workers中的发布任务卡死。

当我把stopwaitsecs调整至10分钟之后,再没有出现过类似问题, 因为这个时候,supervisord对celery master进行warm shutdown 操作之后会等待最多10分钟才会粗暴的干掉celery master,而我们的发布任务最长不会超过7分钟,因此10分钟以内warm shutdown一定会成功,supervisord一定会受到SIG_CHILD信号。


总之,以后还是要仔细看文档啊。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容