问题定位
查看监控后,发现kafka集群在2017-06-16 16:50分发现 java_log_topic和php_log_topic出现异常
定位后发现今天的数据量涨幅比较大
- kafka集群相关指标
- 条数平均在11k+/s
- 集群的输入在45M/s每台机器
- 集群的输出在55M/s每台机器
- 服务器相关指标
- 千兆网卡100+M/s,峰值200+M/s
1.kafka集群相关指标图
每秒的条数
每秒的输入(单位M)
每秒的输出(单位M)
2.服务器带宽指标
10.10.16.18
10.10.16.19
10.10.16.20
问题总结
kafka集群的千兆网卡带宽已经对集群造成瓶颈,带宽的瓶颈导致replication同步以及kafka与ZK通信异常等问题。
需要计划改用万兆网卡