1.消息系统
1.1消息系统/消息队列作用
1.应用解耦:多个应用可以通过消息队列来处理消息,应用相互独立,互不影响。
2.异步处理:比串行和并行处理,异步处理可以减少时间,效率更高。
3.流量削峰/数据限流:流量高峰期,可以通过消息队列来控制流量,避免流量过大而导致应用崩溃。
4.消息通信:实现点对点消息队列等
1.2消息系统分类
1.4各类消息系统
2.Why Kafka? What Kafka? Where Kafka?
2.1.kafka官方介绍
官网:
http://kafka.apache.org/
官方文档:
http://kafka.apache.org/documentation/#design
http://kafka.apache.org/documentation/#implementation
http://kafka.apache.org/documentation/#operations
http://kafka.apache.org/documentation/#security
2.2.设计初衷
1.能够应对海量的实时数据 --高吞吐,低延迟
2.需要具备分布式系统的特征 --高可用 水平扩展
2.3.应用场景
应用场景广泛,凡是设计到数据传输、收集、处理的地方都可以使用kafka,也可以这么说凡是大数据实时都可以用kafka
3.kafka架构原理
3.1.架构
3.2.kafka核心概念/名词解释
Broker:代理,就是一台kafka节点
Producer:生产者,将数据推送到kafka
Consumer:消费者,从kafka拉取数据进行消费
Consumer Group:消费者组,方便对消费者进行管理
Topic:主题,用来区分消息,方便对不同业务信息进行管理
Partition:分区,跟HDFS的分块类似,目的是为了提供读写效率
Replication:副本,保证数据安全
主副本(leader):某一个主题的某一个分区可以有多个副本,其中有一个主副本,支持读写
从副本(follower):某一个主题的某一个分区可以有多个副本,其中有一个主副本,剩下的都是从副本
注意:从副本负责备份数据,不支持读写,因为读写效率的提高依赖于分区!而且如果要从从副本读数据很难保证数据的一致性
Record:记录 发送/消费的一条消息记录
Offset:通俗理解是消息ID/编号
Segment:日字段/分段
ISR:表示与leader副本保持同步的从副本及本身
4.kafka命令(依赖zookeeper)
4.1.主题管理
1.查看主题详情列表: kafka-topics.sh --zookeeper node:2181 --list
2.查看主题详情:kafka-topics.sh --zookeeper node:2181 --topics test --describe
4.2创建主题
1.注意:支持自动创建(往一个不存在的主题发送数据会自动创建主题,一般不用)和手动创建(可以灵活的指定分配主题的参数如分区/副本数量)
2.注意:partitions 数不固定,几个/几十/几百个/上千都有, replication-factor数一般2-3即可
kafka-topics.sh --zookeeper node1:2181 --create --topics test --partition 3 --replication-factor 2
4.3.删除主题
1.kafka-topics.sh --zookeeper node1:2181 --delete --topic(主题名称)
注意:Note: This will have no impact if delete.topic.enable is not set to true.
4.4.分区与副本管理
==注意==
副本数一般不修改,分区数只能增加:应用场景是:集群扩容的时候偶尔用到! 一般其实都建议在创建主题的时候就预估好数据的规模和集群的大小,不到万不得已不去修改
查看之前的topic的分区数: kafka--topics.sh --zookeeper node1:2181 --describe --topic test
增加分区数:kafka--topics.sh --zookeeper node1:2181 --alter --topic test --partitions 4
4.5.控制台生产者命令
一般用于测试
使用命令向kafka指定主题发送数据,主题如果不存在会自动创建(但一般都是手动创建)
kafka-console-producer.sh --broker-list node1:9092 --topic test
4.6.控制台消费者命令
1.一般用于测试
kafka-console-consumer.sh --bootstrap-server node1:9092 --topic test --from-beginning
--from-beginning 表示从头开始消费
注意:kafka消费只能保证区内有序,但全局无序
也就是说在多分区情况下,发送
1
2
3
4
5
当时消费到的不一定是12345
但如果是单分区可以做的有序,但是没必要,因为Kafka就是通过分区来提高读取效率的!
2.消费者组里面可以有多个消费者,但是同一个主题里面的某一条消息,只能被同一个消费者组里面的一个消费者消费,不能再被同一个组里面的其他消费者消费,但是可以被其他组订阅消费
3.同一个组内消费者数量和分区数的关系
消费者数量 < 分区数: 消费者消费多个分区,压力大,效率低
4.消费者数量=分区数:一个消费者对应一个分区,效率高
5.消费者数量>分区数: 会存在消费者资源浪费,因为某一条消息只能被同一个消费者组里面的一个消费者消费,不能再被同一个组里的其他消费者消费
5.kafka原理加强
5.1生产者流程细节
1.生产者发送信息到kafka集群使用的是推送模式
2.生产者发送信息到kafka需要连接到任意一台kafka节点
3.每一条消息会被封装为一个Record记录对象,里面可以包含主题、分区(可选)、key(可选)、value
4.分区规则:
1) 没有key,用到轮询
2)有key,没有指定的分区用的默认的分区器defaultPartitioner,底层使用hash
3)有key,指定分区,那么就是指定的分区号-----优先级最高
4)可以自定义分区器
补充: key可以作为消息/记录的一个业务上的标识(但不是唯一的,也就是不同的value的key可以重复的) value才是消息的真正内容
5.分区的作用:
1)提高读写效率
2)便于集群扩容(机器扩容是增加机器同时增加分区数)
3)方便消费者负载均衡(消费者数量==分区数)
6.每一条消息/记录发送到kafka的时候会先到缓冲区,然后以batch的形式发送到kafka,落入磁盘是以顺序写的方式追加到磁盘文件中的.
7.每一条消息写到各个分区之后会有一个消息的唯一标识:offset
offset是区内有序,但是全局无序的(区内有序,区间无序)---kafka消息的局部有序性
5.2.Broker存储流程细节
1.消息到底kafka之后会根据分区规则进入到指定的分区(分区是分散各个节点)
2.分区在物理层面体现就是文件夹
3.分区中又会分为多个segment文件段,每个文件段由.log数据文件和.index索引文件组成
4.查询得时候会根据offset去.index中的索引找到.log中对于的消息位置
5.数据不是一直在kafka中存储,会有删除策略
基于时间: log.retention.hours=168
基于大小: log.retention.bytes=1073741824
6.数据越来越多其实也并不会对kafka的读写效率产生太大的影响,因为
1)写是各个分区顺序写/追加写
2)读是各个分区内根据offset对.index文件进行二分查找Olog(N)
5.3消费者流程细节
1.消费者从kafka中消费信息使用的是拉取模式
2.消费者连接上kafka集群任意一台节点之后,需要指定要订阅的主题或者主题+分区
3.消费从哪个偏移量开始消费,由auto.offset.reset决定
earliest:如果有offset提交记录,就从记录位置开始消费,没有则从最开始的位置开始消费
latest:如果有offset提交记录,就从记录位置开始消费,没有则从最后/新的位置开始消费
none:如果有offset提交记录,就从记录位置开始消费,没有则报错
4.消费者消费数据之后需要提交offset偏移量,可以有如下方式
1)自动提交:按照固定的时间间隔进行提交(提交到默认主题_consumer_offsets)
2)手动提交:按照自定义规则进行提交
3)注意:提交的信息包括:哪个消费者组消费、哪个主题的哪个分区、消费到哪个偏移量了
5.消费者组内可以有多个消费者(如果没有设置消费者组会有默认的消费者组名称,但是建议手动设置,方便维护),某一条消息只可以被同一个消费者组内的一个消费者消费,但可以被其他组的消费者再次消费.
6.消费者组中的消费者数量建议等于分区数.