Apache Kafka消息系统的基本结构
消息系统存在两种角色
1:消息的生产者 Producer
2:消息的消费者(接收生产者的消息,然后处理我们的消息)-->Consumer
Kafka和hadoop或者spark也类似也支持集群也支持单节点的部署。
kafka的集群当中每个节点都叫做message server,kafka消息系统支持的是topic的消息,topic消息可以理解成分布式的环境,它可以在任意message server处理消息。
在每个message server上,他实际真正用于接收和转发消息的叫Broker,一个message server上可以由多个broker,同样的道理在其他的message server上也会有这样的broker也接收
消息的生产者发送的消息,并且把消息转发给Consumer,在kafka里面消息由分区组成, 分区非常的重要,每个分区运行在不同的broker上,利用这样的一种方式我们可以支持消息的分布式的处理。
我们在创建发送消息的时候首先就需要创建Topic,整个kafka的体系架构包括它的topic和分区信息都叫做元信息。
元信息
1:体系架构的信息
2:Topic的信息
3:分区的信息
这些元信息我们需要保存到zookeeper中。
在搭建kafka之前需要搭建zookeeper。
zookeeper之间搭建过了现在搭建kafka ,单机单broker。 kafka的核心文件,server.properties.
broker.id:不能重复
port :broker运行的端口号
log.dirs:保存日志的目录
zookeeper.connect = bigdata116:2181 , zookeeper的地址
63行 num.partitions = 2,表示topic默认的分区数2。
改完以上内容就可以启动kafka了。
(*)启动Kafka:bin/kafka-server-start.sh config/server.properties &
执行效果,按照后台运行方式来运行
看执行日志:
画圈圈的表明我们启动了kafka 的server。kafka的信息会存到zookeeper里面。
可以看到broker的信息,现在并没去创建Topic的主题,还不能发消息。
(*)测试Kafka
*创建Topic
bin/kafka-topics.sh --create --zookeeper spark81:2181 -replication-factor 1 --partitions 3 --topic mydemo1
解读这条命令:
1:--partitions 3 由三个分区组成
2:-replication-factor 1 分区的冗余是多少
3:--zookeeper spark81:2181 指定zookeeper的地址
4:--topic mydemo1创建一个topic叫 mydemo1,Topic由分区组成。
topic的信息相当于是一个频道,它也会被保存到zookeeper中,现在就可以发消息,它是主题、广播。
*发送消息
bin/kafka-console-producer.sh --broker-list spark81:9092 --topic mydemo1
*接收消息
bin/kafka-console-consumer.sh --zookeeper spark81:2181 --topic mydemo1
*搭建Spark Streaming和Kafka的集成开发环境
由于Spark Streaming和Kafka集成的时候,依赖的jar包比较多,而且还会产生冲突。强烈建议使用Maven的方式来搭建项目工程。
下面是依赖的pom.xml文件:
测试案例,多打开2个窗口,第一个是消息的发送者,后来两个是消息接收者。
上面消息发送者发了hello,下面两个接受者就接到了hello world,这个群发是一个广播。所有消息接受者都能接收到这个消息,后面会把这样的消息集成到spark streaming当中。