1、前期准备
关于机房标准化改造工作中一项重要的工作(更换机房UPS电源),我们部门按照路局的要求,在自己多方联系,不止三次改动施工方案后,得到了上级部门的认可,并专门召开了多个部门参加的施工协调会议,最终定在2016年的9月10日,19:00至23:00,完成机房更换UPS设备的施工工作。
2、开始施工遗留问题
我们和厂家技术人员提前做好了各项准备工作,于19:00正式开始施工,通知上级部门开始施工,依次关闭机房所有机柜设备、配电柜双路电源断电、拆除旧的UPS设备、重新给新设备布线、安装新UPS设备、恢复机房所有电源,一切按照计划进行,虽然我们在应急灯的照明下光线不是特别充足,但进展非常顺利。然而等到恢复供电后,发现机房内第二个机柜没有供电,机柜内设备都没有启动。我们开始寻找原因,在配电柜处检查开关的闭合状态,检查空开的接触点是否虚接、掀开地板查看电线布线的径路、检查机柜PDU的连接,最终判断为PDU损坏,只好使用临时电源先恢复机柜设备供电,确保设备正常运行,然后施工结束销点。
3、查找原因
第二天,我仔细回忆了晚上的施工工作,整个过程并没有涉及PDU的工作,PDU不可能坏呀,但事实就是PDU没有电,导致机柜设备不能加电运行,而且PDU的电源指示灯是不亮的,而配电柜的空开我们也检查过了,处于闭合的状态。实在没有办法,最终还是联系了当时机房改造的公司派来了技术人员,来到我们机房进行排查故障。最终发现原因是配电柜的空开上面的一个通体导轨的铜片与空开连接不实,出现了缝隙,应该是昨晚再改造UPS电源时不小心给碰到的,所以导致了第二个机柜的PDU没电了,实际上PDU根本没有损坏。
4、解决问题
在技术人员的帮助下,重新将通体导轨的铜片与空开压实,恢复第二个机柜PDU供电,解决问题。
5、事后的思考
这件工作中断电的烦恼,曾困惑了我很久,直到第二天仍然在查找原因,不过还好最终找到了原因,只不过导致这个故障的原因十分的细小,这让我体会到了细节决定成败,如果细小的事情没有处理好,往往就会导致很大的影响!其实回想这多年来的工作中,不乏这样的小事情,调度中心多次跳闸的原因就是空开虚接了;交换机的端口网线标识没有贴好,故障时就只能逐个排查;常用系统的一些密码没有管理好,最后只能无法登陆到相应的系统,诸如此类的事情很多!所以说让我们关心一些细节小事吧,因为它发挥着重要的作用,它会给你很大的帮助,扫除你工作中的诸多障碍!