Kafka部署, 简单应用(一)

Apache项目, 分布式消息应用, 具有很高的扩展性, 高的吞吐量, 大数据中扮演着很重要的角色

下载地址:

http://kafka.apache.org/downloads

版本号:

kafka_2.11-0.11.0.2

解压和修改配置文件

解压到当前目录下:

$ tar -zxvf kafka_2.11-0.11.0.2.tgz -C ./

进入到config目录下:

$ vi server.properties

#打开注释, 表示, topic可以删除

delete.topic.enable=true

# zookeeper地址:多个是用 "," 隔开

zookeeper.connect=hadoop106:2181,hadoop107:2181,hadoop108:2181

#设置位置标识(这里我配置的是我机器的ip号)

broker.id=106

#设置log生成地址(绝对路径)

log.dirs=/opt/module/kafka_2.11-0.11.0.2/kafkaLogs

退出vi

在kafka目录下穿件一个文件夹存放log日志

$ mkdir kafkaLogs

scp 分发到其他机器上, 注意: broker.id的其他机器上需要修改, 集群中必须唯一.

启动:(分别在集群机器上后台启动)

~~$ bin/kafka-server-start.sh config/server.properties 1>dev/null 2>&1~~

$ bin/kafka-server-start.sh -daemon config/server.properties

停止: (分别在集群的其他机器上停止)

$ bin/kafka-server-stop.sh

演示功能: (这里使用机器号hadoop106做演示, 当然集群下使用其他的机器一样的效果)

一. 创建topic

$ bin/kafka-topic.sh --zookeeper hadoop106:2181 --create --replication-factor 3 --partitions 3 --topic topic_name

1.replication-factor : 副本数量

2.partitions : 分区数量

3.topic : 定义topic名称

二. 查看topic列表

$ bin/kafka-topic.sh --zookeeper hadoop106 --list

三. 删除topic

$ bin/kafka-topic.sh --zookeeper hadoop106 --delete --topic topic_name

四. 生产者producer (注意: 端口号9092是producer端口号)

$ bin/kafka-console-producer.sh --broker-list hadoop106:9092 --topic topic_name

五. 消费者consumer(把所有的消息打印到控制台上)

$ bin/kafka-console-consumer.sh --zookeeper hadoop106:2181 --from-beginning --topic topic_name

六.查看topic详细信息

$ bin/kafka-topics.sh --zookeeper hadoop106:2181 --describe --topic topic_name

在部署kafka应用是, 需要注意的是, kafka和zookeeper是强依赖关系, 必须配合zookeeper集群部署, 这里只是简单部署引用和演示, 具体方便如果想深究的话, 各位小伙伴可以结合官方开发文档, 协助开发学习, 后期还会加入kafka streaming的方法演示, 请期待...

以下了解Kafka消费过程

Kafka消费模型

消费分区(partition):

kafka的模型, 和rokectMQ基本一致, 生产者在写入消息过程中, 会根据该消息的topic的生产过程中设置的属性, 写入到分区中, 理论上分区是partition Log, 消息会将数据写入到Log日志中, 由于消息是异步发送的, 而且是顺序消费, 每一个分区都是一个独立的, 有序的, 不可变的记录序号列, 所以分区带来的是很高的扩展性, 分区会根据数据的大小长度, 进行分区消费.

消费副本(replication):

在分布式的集群中, 数据副本可以起到集群宕机的情况下, 其他机器可以正常的消费, 不影响应用的消费, 在没有副本的状态下, 一旦broker.id宕机, 那么可能导致生产应用的崩溃或者业务数据的丢失等等, 为了避免这种情况, 我们可以进行分区, 同时producer也不能再将数据存于其上的patition, 引入replication之后，同一个partition可能会有多个replication，而这时需要在这些replication之间选出一个leader，producer和consumer只与这个leader交互，其它replication作为follower从leader 中复制数据.

写入流程:

Kafka写入流程