kafka工作原理:https://www.cnblogs.com/sujing/p/10960832.html
kafka为什么这么快:https://zhuanlan.zhihu.com/p/120967989
一、保证消息顺序性
1、消息顺序错乱问题:我们都知道Kafka是分布式多partition的,它会将一个topic中的消息尽可能均匀的分发到每个partition上。那么问题就来了,这样怎么保证同一个topic消息的顺序呢?
由于消费者是并行处理消息的,我们就无法保证消息的顺序性。如下图
如何发送顺序消息
kafka可以通过key,将某类消息写入同一个partition,一个partition只能对应一个消费者,以保证数据有序。
也就是说生产者在写消息的时候,可以指定一个 key,比如说我们指定了某个订单 id 作为 key,那么这个订单相关的数据,一定会被分发到同一个 partition 中去,而且这个 partition 中的数据一定是有顺序的。那么是否有这样一个问题呢?先后两条消息发送时,前一条消息发送失败,后一条消息发送成功,然后失败的消息重试后发送成功,造成乱序。为了解决重试机制引起的消息乱序为实现Producer的幂等性,Kafka引入了Producer ID(即PID)和Sequence Number。
2、消费者消息顺序
消费者从 partition 中取出来数据的时候,也一定是有顺序的。到这里,顺序还是 ok 的,没有错乱。
但是消费者这里还是可能会有多个线程来并发来处理消息,因为如果消费者是单线程消费数据,那么这个吞吐量太低了。而多个线程并发的话,顺序可能就乱掉了。
解决方案
消费者端创建多个内存队列,具有相同 key 的数据都路由到同一个内存 队列;然后每个线程分别消费一个内存队列即可,这样就能保证顺序性。如下图:
二、生产者和消费者说明
1、配置文件
2、启动时创建主题,分区,副本
3、消费时只指定主题时,当前消费者会轮询消费该主题对应的所有分区数据
4、指定分区消费,如果id不同,也就是消费者不同,那么在earliest模式下,消息会被重新消费,证明了offset是跟消费者绑定的
5、批量消费,需要将配置文件消费模式改为批量,消费时,使用list参数接收
6、有多个分区时,最好指定多个消费者进行消费,每个分区中的消息都是有序的
说明:通过id可以指定不同的消费者,consumer01和consumer02都在同一消费组下,也可指定不同的消费组。