ZooKeeper基本配置
-
以单机方式(STANDALONE SERVER)启动zookeeper:
最简单的ZooKeeper配置
# cat > /usr/local/zookeeper/conf/zoo.cfg << EOF
> tickTime=2000 //刷新时钟
> dataDir=/var/lib/zookeeper //数据存放位置
> clientPort=2181 //客户端连接端口
> EOF
�启动命令
# /usr/local/zookeeper/bin/zkServer.sh start
JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
-
以集群方式启动zookeeper:
tickTime=2000
dataDir=/var/lib/zookeeper
clientPort=2181
initLimit=20
syncLimit=5
server.1=zoo1.example.com:2888:3888
server.2=zoo2.example.com:2888:3888
server.3=zoo3.example.com:2888:3888
服务器的配置说明:
server.X=hostname:peerPort:leaderPort
X:必须为从1开始的整数
peerPort: 服务器之间相互通讯的端口
leaderPort: 主节点使用的通讯端口
initLimit:允许子节点与主节相连的次数
syncLimit:允许异步子节点成为主节点的次数
tickTime:每次连接的时间
ZooKeeper集群(剧团)建议使用单数的服务器,例如,3,5. 如果使用3个服务器,可以在丢失一个服务器的情况下继续正常工作。如果使用5个服务器,那么可以在丢失两个服务器时正常工作。
如何选择服务器的数量
考虑运行服务器数量在5个服务器为佳。如果需要修改ZooKeeper的配置,那么需要替换停止节点,修改以后,需要重新加载节点。如果如果服务器不能容错一个以上的节点down掉,那么维护工作将会有额外的风险。同时,也建议不要使用7个以上的节点,大多数使用反馈看,7个以上节点,会面临这效率降低的问题。
安装配置Kafka
-
基本配置
#zookeeper 地址,如果多个地址,以逗号隔开
zookeeper.connect=9.51.103.134:2181,9.51.103.135:2181
# Timeout in ms for connecting to zookeeper
zookeeper.connection.timeout.ms=6000
启动kafka server
./bin/kafka-server-start.sh -daemon ../config/server.properties
为验证kafka是否启动成功,创建一个topic,并且生产消费一些消息
-
创建并显示topic
//创建topic
# ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
Created topic "test".
//显示topic
# ./bin/kafka-topics.sh --zookeeper localhost:2181 --describe --topic test
Topic:test PartitionCount:1 ReplicationFactor:1 Configs:
Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0
-
产生并消费消息
//产生消息
# ./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
Test Message 1
Test Message 2
^C
#
//消费消息
# /bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning
Test Message 1
Test Message 2
^C
Consumed 2 messages
#
Broker 配置
-
broker.id
默认值为0,每个broker的唯一整型识别码,仅仅用作于broker之间的区别,建议值包含本身意义,以便与识别,例如ip地址最后一组。 -
port
默认9092, 监听端口,如果端口值小于1024,必须以root启动broker。不建议以root启动。 -
listeners
PLAINTEXT://your.host.name:9092* -
zookeeper.connect
格式:hostname:port/path,如果需要连接多个,每组以分号隔开。 例如:localhost:2181, 其中path是可选项。 path是制定的kafka根目录,如果指定了,但是不存在,将在broker启东时自动创建。
为什么要使用改变根目录
一般情况下,考虑使用改变根目录,它可允许Zookeeper 剧团共享应用,包括kafka集群。在多个Zookeeper是,这也是最好的方式来指定server。指定后,如果ensemble出现问题,允许broker 连接到其他zookeeper下面的剧团。
-
log.dirs
消息存放地址,多个以逗号分开 -
num.partitions
没每个topic创建的分区数量
如何确定分区的数量
考虑分区数量,应该考虑一下一些因素:
- 期望的吞吐量,比如 每分钟100KB 或者 1GB 每秒
- 期望单个分区达到的吞吐量,大多数,单个消费者是从一个分区读取数据,如果知道消费者写入数据库的数据最大为50MB每秒,类似于这种,但给分区的最大吞吐量为60MB
- 考虑每个生产者的最大吞吐量,一般情况下,生产者的速度总是大于消费者的
- 如果发送消息是基于Keys的,那么在后期增加分区是比较麻烦的,所以设计分区要考虑以后的使用场景。
- 考虑磁盘和网络情况
- 要避免高估,每个分区使用资源会降低主分区的性能
-
log.retention.ms
默认为log.retention.hours=168, 消息保存的时间,如果多个多个broker配置,那么最小值启用。 -
log.retention.bytes
消息保存的容量,每个分区单独使用容量,单位为字节。如1GB,一共8个分区,那么总容量为8GB