系统故障也分正经的和不正经的?难道系统要故障还跟你商量?当然,对那种故障的很有条理的,一路查下去可以查出故障原因,且在没查出原因之前可快速恢复运行的系统故障就是正经的故障。那种反常理的,莫名其妙的,让人摸不着头脑的,且尝试各种方式都无法恢复的系统故障就是不正经的,是耍流氓的。
某日,某app故障了,电信和联通的手机可正常打开app,唯独移动手机打不开,但是若手机连接移动的wifi,又可以正常打开,就是移动4G信号打不开app。
那好吧,既然移动4G用不了这个app,那么我在链路负载上把移动关掉,让移动4G用户通过电信或联通网间互联进来总可以吧,结果发现还是不行。于是开始怀疑移动线路有问题,这啥玩意?
移动的技术人员排查后发现运营商线路正常,没啥问题。然后就通过抓包方式,在入口抗DDOS安全设备和链路负载抓包,对比数据包发现链路负载比入口抗DDOS安全设备报文少了,于是怀疑是抗DDOS拦截了正常流量。但是查看抗DDOS,又没发现异常阻断日志,也没有攻击,没办法认定抗DDOS存在问题。
后来怀疑运行的链路负载有问题,就想做个主备切换,后来经技术论证,认为若链路负载有问题,不会针对某个运营商用户。最后决定把抗DDOS设备绕过,奇怪的是,绕过抗DDOS后app恢复正常。
经排查,该抗DDOS设备服役时间较长,存在较多不稳定因素。虽然绕过抗DDOS后app正常运行了,但是这样裸跑也不行啊,为了保障系统安全,从库房调用一台新的抗DDOS设备用于DDOS清洗,替换撤下来的故障抗DDOS设备。所以,超期服役的设备该换还是得换啊,要不然哪天出个莫名奇妙的问题,要把自己玩死啊。