kafka的理论知识

kafka官网上介绍kafka是一个分布式流处理平台。

那什么是流处理平台呢,流处理平台有以下三种特性:

  1. 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。
  2. 可以储存流式的记录,并且有较好的容错性。
  3. 可以在流式记录产生时就进行处理。

第一个特性很好理解,我们可以用kafka去发消息和接受消息,做一个广播,这个很多工具都可以做到,redis也支持,自己实现也可以,但是kafka强大在他的高可用高性能和可靠性。
第二点,kafka他自己有个参数,log.retention.hours,日志删除的时间阈值(小时为单位),默认是168小时,也就是七天,这七天内的消息,你都可以重新消费到,也可以确定从何处开始消费。
第三点,kafka利用Kafka Streams,我们可以对kafka消息流进行处理,比如有一些要对消息进行特殊格式化或者过滤的场景,利用kafka的库类可以轻松实现。go也有goka这个包支持流式操作。
而分布式,Kafka作为一个集群,运行在一台或者多台服务器上.

Kafka适合什么样的场景?

它可以用于两大类别的应用:

  1. 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。 (相当于message queue)
  2. 构建实时流式应用程序,对这些流数据进行转换或者影响。 (就是流处理,通过kafka stream topic和topic之间内部进行变化)

关于数据

  • Kafka 通过 topic 对存储的流数据进行分类。
  • 每条记录中包含一个key,一个value和一个timestamp(时间戳)。

所以说起来kafka是一个时序数据库,作为一个时序数据库,则存在时序数据的优化方案。

kafka概念

Topics

Topic 就是数据主题,是数据记录发布的地方,可以用来区分业务系统。Kafka中的Topics总是多订阅者模式,一个topic可以拥有一个或者多个消费者来订阅它的数据。
然后在kafka内部中,每个topic写成多个分区(partition),多个分区的内容都是同一个topic。


分区和topic

每个分区都是有序且顺序不可变的记录集,并且不断地追加到结构化的commit log文件。分区中的每一个记录都会分配一个id号来表示顺序,为offset,offset用来唯一的标识分区中每一条记录。

Kafka 集群保留所有发布的记录,无论他们是否已被消费,并通过一个可配置的参数—log.retention.hours来控制保存时长。 举个例子, 如果保留策略设置为2天,一条记录发布后2天内,可以随时被消费,2天过后这条记录会被抛弃并释放磁盘空间。Kafka的性能和数据大小无关,所以长时间存储数据没有什么问题(如果磁盘允许的话)。

在golang的sarama-cluster包中,我们可以设定config对象来确定从最新消费或者是把保存的消息全部消费。

    import "github.com/bsm/sarama-cluster"
。。。
    config := cluster.NewConfig()
    config.Consumer.Offsets.Initial = sarama.OffsetNewest
    cg, err := cluster.NewConsumer(zookeeperStrings, group, topicString, config)
。。。

而kafka对于每个消费者,唯一保存的数据只有一个,消费者消费到哪里了,也就是消费者的offset。从下面这种图可以看出每个消费者之间是不会相互影响的。


image.png

分布式

日志的分区partition (分布)在Kafka集群的服务器上。每个服务器在处理数据和请求时,共享这些分区。每一个分区都会在已配置的服务器上进行备份,确保容错性.

每个分区都有一台 server 作为 “leader”,零台或者多台server作为 follwers 。leader server 处理一切对 partition (分区)的读写请求,而follwers只需被动的同步leader上的数据。当leader宕机了,followers 中的一台服务器会自动成为新的 leader。每台 server 都会成为某些分区的 leader 和某些分区的 follower,因此集群的负载是平衡的。

kafka和zookeeper

说到了leader和follower,那他们的关系是什么确定的呢,是通过经常看到的选举模式吗?并不是,我们在部署kafka的时候,我们需要一个zookeeper,他们的主从关系是通过zookeeper去确定的,zookeeper 也保存着kafka集群的全部信息(所以我们在代码初始化kafka的时候,只需要填入zookeeper集群的ip和端口即可)
所有的Kafka Broker节点一起去Zookeeper上注册一个临时节点,因为只有一个Kafka Broker会注册成功,其他的都会失败,所以这个成功在Zookeeper上注册临时节点的这个Kafka Broker会成为leader,其他的Kafka broker成为了 follower。

生产者

生产者可以将数据发布到所选择的topic(主题)中。生产者负责将记录分配到topic的哪一个 partition(分区)中。可以使用循环的方式来简单地实现负载均衡,也可以根据某些语义分区函数(例如:hash记录中的key%节点数)来完成。

消费者

消费者使用一个消费组名称来进行标识,发布到topic中的每条记录被分配给订阅消费组中的一个消费者实例。消费者实例可以分布在多个进程中或者多个机器上。

如果所有的消费者实例在同一消费组中,消息记录会负载平衡到每一个消费者实例,每个消费组只收到一次消息。

如果所有的消费者实例在不同的消费组中,每条消息记录会广播到所有的消费者进程。

在golang的sarama-cluster包中,我们可以设定group来确定消费组。

        import "github.com/bsm/sarama-cluster"
。。。
    config := cluster.NewConfig()
    config.ClientID = group
    cg, err := cluster.NewConsumer(zookeeperStrings, group, topicString, config)
。。。
        

kafka优势

传统的消息系统有两个模块: 队列和发布-订阅
在队列中,消息被消费就没有了,我们经常用redis去实现一些异步操作,这种的就算是队列消息。
在发布订阅中,依然以redis为例,但是redis并不能针对消息去做操作,只能广播(虽然新版本的redis支持了)。
kafka通过消息组,可以多用户广播,也可以对消息进行处理。
分区保证了消息的消费更加平衡,但是消费者组中的消费者实例个数不能超过分区的数量。

在我们的使用经验来讲,kafka做得最多的就是用户行为跟踪广播,虽然也可以做监控,但是我们监控是用prometheus去实现的,更加专业和舒服。有兴趣的同学也可以去了解一下。

参考文档:http://kafka.apachecn.org/documentation.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容

  • 什么是消息系统? 早期两个应用程序间进行消息传递需要保证两个应用程序同时在线,并且耦合度很高。为了解决应用程序不在...
    Java小铺阅读 1,209评论 0 2
  • 一、概述 Kafka是一个具有高吞吐量,高拓展性,高性能和高可靠的基于发布订阅模式的消息队列,是由领英基于Java...
    服务端开发阅读 777评论 1 5
  • 1介绍 Kafka是一个分布式的、可分区的、可复制的消息系统,提供了一个生产者、缓冲区、消费者的模型。 Kafka...
    虫儿飞ZLEI阅读 630评论 0 1
  • 来源 过往记忆大数据 1、Kafka 都有哪些特点? 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延...
    xiaotian是个混子阅读 1,140评论 0 4
  • 万物为你所用, 不受任何一物控制
    笼光巷雨阅读 141评论 0 0