ACI交换机N9K-C93108TC-FX-B 因默认netflow进程耗尽内存导致设备重启bug发现及处置

    最近发现生产网环境中的某台N9K-C93108TC-FX-B交换机自动重启了,并影响了部分相关单上联的业务。发现过程就不再描述了,基本上就是发现告警,查接口、查设备发现是设备重启了。

    在设备上查看设备重启原因:

    直接给思科开case,同时自己‘百度’了下原因,两方面都指向了思科的bug,原文描述:

    ‘This issue occurs with a switch running a version that supports netflow. The netflow process is always running even if there is no active configuration to send netflow to a specific destination.’

    思科给的解决办法是升级至官方推荐的版本(常规操作。。。),临时的workaround却没有。


    就是要每次人肉登到交换机上查看nfm相关的进程占用的内存大小,当占用内存大小在3-3.5G的时候手工重启设备。总之设备还是要重启,只是能提前大概知道什么时候设备可能自己扛不住了。

    当第一台设备重启了以后,手工去查看了其他Spine和Leaf交换机的内存占用情况:

    计算时间从上线到现在大概一年时间,使用了2.4G,到3.5G还有1G左右,按照这个速度怎么抗个3个月左右不成问题,然鹅刚算完没多久就被打脸,接连又有两台设备重启。这个内存的使用速度和流量相关,而且不是线性增长,并不能用这种方法计算。

    不能每次都这样人肉去看30台左右的设备的内存,得想个办法,于是就用python写了个简单的脚本登录每台设备show相关信息,

    但是每次都需要执行然后用肉眼观察判断每个交换机内存使用大小,导入表格看变化趋势,比较费时费力,如果要是能加到现有监控系统里面就好了。此时想到了之前一直想用而又没有去研究的Zabbix SSH agent的监控功能,SSH到设备上,然后执行个脚本或命令获取返回值,然后就可以加告警出图了。

    NEXUS系列设备原生支持python,但是还要研究如何放到设备上,如何执行,反正是ssh到设备上,如果执行个命令能获得相关结果也就可以了。说干就干!(之后有时间的话估计会研究下简单的脚本如何放在设备上执行吧,先插个旗子)

    回显是一行信息,之前用脚本执行的时候是通过python截取字符串的方式获取到相关数值,如何通过CLI回显单个数值是个问题。研究了半天‘|’后面的输出命令,常用的不好使,不常用的没研究出来,但他毕竟是个类linux系统,百度下linux如何可以做到。

    试一把:

    果然好使,其中‘cut -b 30-41’是经过多次测试后,保证每台设备都能输出正确结果的长度。

    有返回值后面的就好说了,常规Zabbix操作,加个SSH agent 类型的监控,加图加触发器。

    全部加上后的data信息:   

    历史曲线图及Trigger(思科给的回复是3-3.5G的内存使用会导致重启,因此设置了3G提醒告警提示手工重启设备)

    全加在一起的效果,比较乱:

(目前仍在计划ACI整体的升级,后续更新)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 12,495评论 6 13
  • 网络流量反映了网络的运行状态,是判别网络运行是否正常的关键数据,在实际的网络中,如果对网络流量控制得不好或发生网络...
    OSSIMCN阅读 14,258评论 0 7
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 6,350评论 0 10
  • 17.1 客户端冗余问题 在思科路由器上默认启用了代理地址解析协议(代理ARP),让主机能够获取网关路由器的MAC...
    潘晓可阅读 1,039评论 0 0
  • 观其大纲 第1部分Linux的基础知识第1章Linux概述第2章Linux系统的安装KickStart开始自动安装...
    周少言阅读 1,674评论 1 10

友情链接更多精彩内容