关于2017-06-16 kafka集群异常问题定位

问题定位

查看监控后,发现kafka集群在2017-06-16 16:50分发现 java_log_topic和php_log_topic出现异常
定位后发现今天的数据量涨幅比较大

  1. kafka集群相关指标
  • 条数平均在11k+/s
  • 集群的输入在45M/s每台机器
  • 集群的输出在55M/s每台机器
  1. 服务器相关指标
  • 千兆网卡100+M/s,峰值200+M/s

1.kafka集群相关指标图

每秒的条数

image.png

每秒的输入(单位M)

image.png

每秒的输出(单位M)

image.png

2.服务器带宽指标

10.10.16.18

image.png

10.10.16.19

image.png

10.10.16.20

image.png

问题总结

kafka集群的千兆网卡带宽已经对集群造成瓶颈,带宽的瓶颈导致replication同步以及kafka与ZK通信异常等问题。
需要计划改用万兆网卡

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 本文转载自http://dataunion.org/?p=9307 背景介绍Kafka简介Kafka是一种分布式的...
    Bottle丶Fish阅读 5,589评论 0 34
  • kafka的定义:是一个分布式消息系统,由LinkedIn使用Scala编写,用作LinkedIn的活动流(Act...
    时待吾阅读 5,539评论 1 15
  • 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O...
    高广超阅读 13,057评论 8 167
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,648评论 19 139
  • 很早以前就想写下这篇文章,直到今天也不知道如何说起,也读过很多关于内向的文字,也看过很多关于内向的视频,看完之后斗...
    凉城未凉阅读 1,192评论 48 28

友情链接更多精彩内容