如何看待一起故障

记得一个月前的普通的中午,我正在享受午餐的时候,一个电话打来,说xx系统和集团公司断连了,我内心纠结了一下,扔下手中的刀叉,赶到了qjl四楼。

我到的时候,yj已经在现场了,还有一个工程师,大伙都在紧锣密鼓的抢修故障。

这个时候,我脑子里蹦出一个思路:

1、硬件小组在哪里?it人员在哪里?还得派it人员到机房现场看下有无硬件损坏,比如硬盘,电源,风扇等。

2、ip小组在哪里?得有人看下网络路由通不通,哪一个地方通道不通?

3、bell厂家在哪里?在现场了,有没有联系远程的后台backup,本地能否启下process或者初步分析下原因。

想到这,我逐一拨通了it,ip人员电话,大家响应很及时,一个往机房赶去,一个来我这里。

时间一分一秒的过去,故障有时处理好,过一会又说还不行,真让人着急。15分钟就这么过去了,时间仿佛静止了一般。

这时候,ip天才sq出现了,他风急火燎得打开电脑,娴熟的用crt连接上设备,ping发现xx路段不通,立刻告知我们,我们纳闷,这是什么情况,不是说yy的吗?

同时,it男也赶到了机房,他迅速检查了现场硬件,并没有发现任何问题,一切正常。

怎么办?我们请示领导,能否切换到备用平面,领导同意,ip天才立马启动了备用平面切换,业务恢复了!

有惊无险,故障在一个小时内解决了,如果超出两个小时,后果不堪设想。那么,到底是什么原因导致本次故障的呢?

过了一天,大伙就埋头分析原因,撰写报告了,整个报告的编写花费了五天时间,可是我们天才的同事们怎么想,怎么说,都无法解释当时出现的现象,报告写到一半就戛然而止,我们也只能给上级领导提交阶段性总结报告。

可是我们不甘心,我们一定要查的水落石出,昨天晚上,我们的天才们在深夜再一次模拟了当天的故障情况,在检查路由的时候,终于发现防火墙在NAT转换的时候,出现了不该有的错误,经过现场数据修改,路由通了,故障原因也终于查明,好样的。

从这起故障中,我看到了大伙不屈不挠的精神,打破砂锅问到底的韧性,正因为有了他们的天赋和勤奋,yd的网络才能继续提升,为客户提供更加优质的服务,谢谢你们!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 五、因特网的路由选择协议 1.有关路由选择协议的几个基本概念 Ⅰ、理想的路由算法 路由表中的路由是怎样得出的呢?核...
    dmmy大印阅读 2,058评论 0 4
  • 第二章 物理层 频分复用:频分复用的用户在同样的时间占用不同的带宽资源(频率带宽) 时分复用:时分复用的用户在不同...
    PramaWells阅读 3,847评论 1 3
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,941评论 18 139
  • 钱,是这个社会必不可少的东西。 因为钱,我们也能认清身边的人, 借钱时见人心,还钱时见人品。 人的一生, 总有着急...
    13443e0d32c2阅读 179评论 0 0
  • 01 上小学时,有一个好朋友叫澜。 小时候,我十分羡慕她,因为她能自己做决...
    成溪子阅读 858评论 7 13