1.前言:
一般来说kafka和Zookeeper都是部署在服务器上使用的,但是有时候在项目测试阶段也要求在本地要安装运行工项目进行测试使用;所以本教程教大家在windows上安装运行kafka和Zookeeper。
2. 简介
2.1 Kafka
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
2.2 ZooKeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
2.3 kafka的运行是需要zookeeper这种分布式应用程序协调服务。
2.3.环境搭建-安装JDK
有关jdk的安装和配置不再赘述。
3. 安装Zookeeper
下载地址:<u>https://zookeeper.apache.org/releases.html</u>
本人用的版本是:zookeeper-3.4.14
下载,解压(解压到哪随你);本文使用目录D:\java-lai;关于zookeeper以及kafka的目录,路径中最好不要出现空格,比如D:\Program Files,尽量别用,运行脚本时会有问题。
3.1进入zookeeper的相关设置所在的文件目录,例如本文的:D:\java-lai\zookeeper-3.4.14\conf
3.2将"zoo_sample.cfg"重命名为"zoo.cfg"
3.3打开zoo.cfg,编辑dataDir:dataDir=D:/java-lai/zookeeper-3.4.14/data
这里注意,路径要么是"/"分割,要么是转义字符"\",这样会生成正确的路径(层级,子目录)。
3.4与配置jre类似,在系统环境变量中添加:
a.系统变量中添加ZOOKEEPER_HOME=D:\java-lai\zookeeper-3.4.14
b.编辑系统变量中的path变量,增加%ZOOKEEPER_HOME%\bin
3.5在zoo.cfg文件中修改默认的Zookeeper端口(默认端口2181)
这是本文最终的zoo.cfg文件的内容:
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=D:/java-lai/zookeeper-3.4.14/data
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
3.6打开cmd cd到Zookeeper的bin目录下输入zkserver,运行结果如下
这样,Zookeeper已经安装完成,已在2181端口运行。
4. 安装kafka
下载地址:<u>http://kafka.apache.org/downloads</u>
本文所用版本:kafka_2.11-2.2.0
4.1下载,解压;本文使用目录D:\java-lai;
4.2进入kafka配置文件所在目录,D:\java-lai\kafka_2.11-2.2.0\config
进入kafka配置文件所在目录,D:\java-lai\kafka_2.11-2.2.0\config
4.3编辑文件"server.properties",找到log.dirs并编辑:
log.dirs=D:/java-lai/kafka_2.11-2.2.0/kafka-logs
同样注意:路径要么是"/"分割,要么是转义字符"\",这样会生成正确的路径(层级,子目录)。错误路径情况可自行尝试,文件夹名为这种形式:bigdatakafka_2.11-0.9.0.1kafka-logs
4.4在server.properties文件中,zookeeper.connect=localhost:2181代表kafka所连接的zookeeper所在的服务器IP以及端口,可根据需要更改。本文在同一台机器上使用,故不用修改。
4.5kafka会按照默认配置,在9092端口上运行,并连接zookeeper的默认端口2181。
5. 运行kafka
5.1打开cmd命令窗口cd到D:\java-lai\kafka_2.11-2.2.0
5.2输入:.\bin\windows\kafka-server-start.bat .\config\server.properties 回车。
5.3正确运行的情况为:
到目前为止,zookeeper以及kafka都已正确运行。保持运行状态,不要关闭。
6.操作日志的处理
kafka启动后,如果你去查看kafka所在的根目录,或者是kafka本身的目录,会发现已经默认生成一堆操作日志(这样看起来真心很乱):
而且会不断生成不同时间戳的操作日志。刚开始不知所措,一番研究后,看了启动的脚本内容,发现启动的时候是会默认使用到这个log4j.properties文件中的配置,而在zoo.cfg是不会看到本身的启动会调用到这个,还以为只有那一个日志路径:
在这里配置一下就可以了,找到config下的log4j.properties:
将路径更改下即可,这样就可以归档在一个文件夹下边了,路径根据自己喜好定义:
另外如何消除不断生成日志的问题,就是同一天的不同时间会不停生成。
修改这里,还是在log4j.properties中:
本身都为trace,字面理解为会生成一堆跟踪日志,将其改为INFO即可。
6.创建主题
6.1创建主题,命名为"test0811",replicationfactor=1(因为只有一个kafka服务器在运行)。可根据集群中kafka服务器个数来修改replicationfactor的数量,以便提高系统容错性等。
6.2在D:\java-lai\kafka_2.11-2.2.0\bin\windows目录下打开新的命令行
输入命令:
kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test0811
回车。
该窗口可以关闭。
7. 创建生产者(producer)和消费者(consumer)
7.1在D:\java-lai\kafka_2.11-2.2.0\bin\windows目录下打开新的命令行。
7.2输入命令,启动producer:
kafka-console-producer.bat --broker-list localhost:9092 --topic test0811
该窗口不要关闭。
7.3同样在该目录下打开新的命令行。
7.4输入命令,启动consumer:
kafka-console-consumer.bat --zookeeper localhost:9092 --topic test0811
发现 consumer没有启动,查了下有鱼版本原因,我这版本要用:
kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test0811
现在生产者、消费者均已创建完成。
⑤在producer命令行窗口中任意输入内容,回车在consumer命令行窗口中即可看到相应的内容。
至此,已完成kafka在windows下的安装和基本的使用。
这样就可以在自己的项目中配置本地的ip和相应的端口进行有关kafka和zookeeper的开发了。