对于7×24小时运营的IDC,网络层面的监控需求如下:
1,每个交换机的每个端口流量变化过程都需要有记录可查(其提供的数据有故障排查、为网络规划提供数据基础的作用)
2,设备级、端口级故障(UP/DOWN状态的变化)记录可查,并且能够通过邮件、短信、呼叫等形式为管理员提供告警
为了达到以上的要求,现有的解决方案软件有如下:
监控的部署图如下:
说明:
每个机房都部署一套PRTG和solarwinds。各自互相监控。理由如下:
1,高度冗余(不是最重要的理由)
2,一旦发生莫名其妙的疑难故障时,你会发现你恨不得在每个机柜都装有网管系统。因为当发生较难排查的故障时,这些分布在不同地方的网管系统会提供充分的日志数据(日志分析是排查故障的极其重要的一个手段)。
3。网络管理员的邮箱客户端需要做好告警邮件的分类工作。例如IDC1的告警归类为一个文件夹,邮箱客户端接收到由该IDC发送来的告警自动移动到该IDC1文件夹。以免在分析日志的时候被噪声淹没。
4,网络故障短信告警的实现方案有:
1)网管系统接短信猫(较昂贵、麻烦)
2)短信平台
3)云计算厂商邮件触发短信告警服务