敬畏线上

“敬畏线上”这是一个阿里老兵告诉我的,当时我还年轻不以为然,渐渐地学的多了,用的多了才发现敬畏线上真的很重要。

前天,一个组内的哥们不小心造成了一个很大的问题,并且很严重。昨天我和组内另一个战战兢兢的上了线,我内心也有些不安,因为好多是配置测试也覆盖不到,还是硬着头皮上了。虽然,一直很讨厌cat频繁的报警一般我都把它关了,昨晚顺手就把它打开了。

今天,凌晨五点我发现手机一直报警,就起来看了一下,果然和昨晚上线的东西有关,又打开APP一看果然出了问题,我本能的怀疑我的配置有问题,立马回滚了我的配置,50多台机器发了好久,发现结果还是不行。我开始看报错发现是“java.lang.NoSuchMethodError:”应该是pom依赖的问题,我开始询问相关同事确定改了pom,我和他商量之后决定先回滚到之前的版本,我发现回滚也失败,发布项已经被做了强制升级。这个时候我看已经六点半了,如果再拖下去到了高峰数据库肯定被压垮。赶紧拉上leader和相关同事确认了昨天修改的内容,发现是有同事写死了pom里面版本的配置,并且他写的那个版本太低了,商量之后先把版本去掉,重新发了一版,线上逐渐恢复。

虽然不是一个很大的问题,但是如果这个问题我早上选择性的忽略掉它那就麻烦了,高峰起来一万多的qps数据库肯定扛不住了,但是如果我昨晚没有开报警怎么办?那还不是要悲剧,昨晚开报警只是我碰巧而已,另外,我还记得当时同时还给我提了pr我也就大概看看没有放在心上,如果我仔细看了也许就发现这个问题了。

总结起来,第一:报警不能关它是最后一道生命线,还能让你及时发现问题,尽早处理问题,降低损失。第二:同事之间相互pr一定要抱着认真负责的态度,认真看你就可能消灭一个bug。第三:线上需要敬畏,一定要好好测试,好好测试,很多时候都是自我感觉良好导致的问题。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,886评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,132评论 25 708
  • 朦胧的月光撒在情人的脸上,落日的余晖铺满深情的目光。初识的恋人如一本你刚得到的书,你以为只有封面下的几栏目录和大纲...
    手落丹青书阅读 419评论 0 2
  • 罗辑 为什么和叶文洁出现在杨冬之墓?罗辑被三体世界通缉,发生在他和叶文洁交流之前还是之后?如果是之后,说明三体通缉...
    神农架村姑阅读 749评论 0 0