Apache项目, 分布式消息应用, 具有很高的扩展性, 高的吞吐量, 大数据中扮演着很重要的角色
下载地址:
http://kafka.apache.org/downloads
版本号:
kafka_2.11-0.11.0.2
解压和修改配置文件
解压到当前目录下:
$ tar -zxvf kafka_2.11-0.11.0.2.tgz -C ./
进入到config目录下:
$ vi server.properties
#打开注释, 表示, topic可以删除
delete.topic.enable=true
# zookeeper地址:多个是用 "," 隔开
zookeeper.connect=hadoop106:2181,hadoop107:2181,hadoop108:2181
#设置位置标识(这里我配置的是我机器的ip号)
broker.id=106
#设置log生成地址(绝对路径)
log.dirs=/opt/module/kafka_2.11-0.11.0.2/kafkaLogs
退出vi
在kafka目录下穿件一个文件夹存放log日志
$ mkdir kafkaLogs
scp 分发到其他机器上, 注意: broker.id的其他机器上需要修改, 集群中必须唯一.
启动:(分别在集群机器上后台启动)
$ bin/kafka-server-start.sh config/server.properties 1>dev/null 2>&1
$ bin/kafka-server-start.sh -daemon config/server.properties
停止: (分别在集群的其他机器上停止)
$ bin/kafka-server-stop.sh
演示功能: (这里使用机器号hadoop106做演示, 当然集群下使用其他的机器一样的效果)
一. 创建topic
$ bin/kafka-topic.sh --zookeeper hadoop106:2181 --create --replication-factor 3 --partitions 3 --topic topic_name
1.replication-factor : 副本数量
2.partitions : 分区数量
3.topic : 定义topic名称
二. 查看topic列表
$ bin/kafka-topic.sh --zookeeper hadoop106 --list
三. 删除topic
$ bin/kafka-topic.sh --zookeeper hadoop106 --delete --topic topic_name
四. 生产者producer (注意: 端口号9092是producer端口号)
$ bin/kafka-console-producer.sh --broker-list hadoop106:9092 --topic topic_name
五. 消费者consumer(把所有的消息打印到控制台上)
$ bin/kafka-console-consumer.sh --zookeeper hadoop106:2181 --from-beginning --topic topic_name
六.查看topic详细信息
$ bin/kafka-topics.sh --zookeeper hadoop106:2181 --describe --topic topic_name
在部署kafka应用是, 需要注意的是, kafka和zookeeper是强依赖关系, 必须配合zookeeper集群部署, 这里只是简单部署引用和演示, 具体方便如果想深究的话, 各位小伙伴可以结合官方开发文档, 协助开发学习, 后期还会加入kafka streaming的方法演示, 请期待...
以下了解Kafka消费过程
消费分区(partition):
kafka的模型, 和rokectMQ基本一致, 生产者在写入消息过程中, 会根据该消息的topic的生产过程中设置的属性, 写入到分区中, 理论上分区是partition Log, 消息会将数据写入到Log日志中, 由于消息是异步发送的, 而且是顺序消费, 每一个分区都是一个独立的, 有序的, 不可变的记录序号列, 所以分区带来的是很高的扩展性, 分区会根据数据的大小长度, 进行分区消费.
消费副本(replication):
在分布式的集群中, 数据副本可以起到集群宕机的情况下, 其他机器可以正常的消费, 不影响应用的消费, 在没有副本的状态下, 一旦broker.id宕机, 那么可能导致生产应用的崩溃或者业务数据的丢失等等, 为了避免这种情况, 我们可以进行分区, 同时producer也不能再将数据存于其上的patition, 引入replication之后,同一个partition可能会有多个replication,而这时需要在这些replication之间选出一个leader,producer和consumer只与这个leader交互,其它replication作为follower从leader 中复制数据.