Kafka Consumer实践

背景

  • 生产环境采用默认5个分区的设置
  • kafka已经经过一层封装, 实现了自动增减consumer的逻辑

问题

  • JVM进程kill -15 无法自动退出, 需要-9杀掉, 导致连接层的Session数据不一致
  • consumer中有一堆的无效consumer, 专门做探测用
  • __offset_commit topic增长飞快

解决方案

通过网上查了好多别人的资料, 在kafka的topic的partition的设置和consumer的管理上, 没有提到过, 可能大家已经使用了我找到的方案.

去除自动探测consumer分配的逻辑

首先说下探测的逻辑:

  • 监听partition分配的事件,
  • 在分配事件触发后, 获取分配的分区数
  • 如果比当前机器里面的consumer多, 增加consumer, 反之减少

在分布式系统中, 也可以工作的不错, 最终保证consumer数量和partition保持一致.问题有两个:

  1. 从数量不一致到数量一致, 需要增减多次, 可能会导致commit的offset出现问题, 导致重复消费或者漏掉消息;
  2. 需要单独的consumer做探测, 和普通的消费事件的分离开,在查看consumer列表时, 会看到一批探测的consumer
增加partition数量

不能自动管理consumer数量, 就换一个方案, 管理partition.

  • 增加partition数量, 使之远大于消费的jvm进程,
  • 每个进程内有固定个数的consumer

如partition数量为36, 每个进程内固定3个consumer,随着机器的增加, 分配的情况如下:

JVM进程数 总的consumer数量 每个consumer数量
1 3 12
2 6 6
3 9 4
4 12 3
5 15 2-3
6 18 2
7 21 1-2

这种配置下, 大于12个进程的时候,就会存在有个机器上的consumer闲置的情况. 可以调整每个进程consumer数量和partition的数量.

其他

  1. consumer.poll(10000), 这个参数是拉取记录时, 没有记录的等待时间, 我觉得不必设置太短, 比如100(ms), 可以适当增加
  2. kafka-manager是我用过最好的管理监控工具
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 本文转载自http://dataunion.org/?p=9307 背景介绍Kafka简介Kafka是一种分布式的...
    Bottle丶Fish阅读 10,820评论 0 34
  • 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O...
    高广超阅读 14,407评论 8 167
  • Kafka系列一- Kafka背景及架构介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。...
    raincoffee阅读 6,680评论 0 22
  • kafka的定义:是一个分布式消息系统,由LinkedIn使用Scala编写,用作LinkedIn的活动流(Act...
    时待吾阅读 10,766评论 1 15
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,058评论 19 139

友情链接更多精彩内容