公司妹子:桌神,公司网络好慢哦,给我加点带宽呗?
研发大佬:网管!业务系统访问又卡了,快查查网络哪里有问题!
财务经理:我们这100M带宽用了多少,你评估是否可以降下呢,预算要合理使用嘛。
老板说:设备都宕机一周都没发现,什么情况?年会喝的酒还没醒蛮?
......
你碰上这样的情况么?带宽使用率如何?峰值在几点钟?出现故障能否在第一时间感知?
这些问题只有通过网络监控来解决了。一般大规模的公司会建立监控体系,对网络、系统、业务使用情况进行统一监控,甚至会投入研发力量自研一套监控系统。然而你的老板可能并没投入计划,那什么是网络监控?工具如何选择?怎么开始第一步?想办法薅一套。(大佬拍砖别打脸啊)
网络监控是什么?
网络监控就是对网络进行监视和控制,在出现故障后能及时发现、处理和恢复,整个流程可分为基础监控、监控告警、故障处理三个层面。
基础监控包括:设备状态、网络流量成分;设备状态对应到监控指标是CPU、内存、运行时间、接口状态、Session数、线路流量、HA状态等等。网络流量成分是指对网络中传输流量的源IP、目标IP、协议的识别,网络中传输有安全隐患的程序、文件识别。
监控告警包括:可用性监控、分级预警;可用性监控的指标是接口、线路、IPSEC VPN、HA等等出现不可用时产生日志及告警通知;分级预警则是设置阶梯阈值,在故障前产生预警,通常指标是CPU使用率、内存使用率、Session使用率、线路使用率等等;
故障处理则是根据告警内容人工处理或者触发脚本进行故障修复。
如何选择监控工具?
工欲善其事必先利其器,要做好监控需要选择一个趁手的工具。Gartner给网络性能监控和诊断(NPMD)下的定义是:结合使用数据包数据、流量数据和基础设施度量指标,提供历史、实时和预测性的视图,以便深入了解网络及在网络上运行的应用程序的可用性和性能。
以上这些产品老板都不愿买,只能找免费的、试用的、破解的。根据监控的处理流程,在选择工具时需要具备以下特点:
支持分布式部署,内置Ping、Trace、TCP或者UDP协议的检测;
支持SNMP,最好内置主流厂商SNMP的模板;
支持设备厂商的各类Flow或者支持流量镜像和分析;
支持日志的存储与检索;
支持通过邮件、微信等主流通信工具的触发告警,支持输出或者运行脚本;
对常用监控工具进行了调研后,发现想法很丰满、现实很骨感,一套监控工具无法完全覆盖,需要多套工具相互补充。以下记录了学习和测试过程,先从PRTG开始吧。