大数据相关的我不太明白的知识整理

这是2021年第41篇随笔,全文1221字。

4月的第5篇。

4月计划9篇,随笔5/9篇。

昨日在听架构师降到数据接入提速的时候,听到一些名词不太懂。
本文就是搞懂这些名词。

总结放到上面:
经常听到的kafka是个消息队列系统MQ。
有一个跟其他MQ的区别就是永固化的日志。这也有个问题,我们在生产中会遇到kafka满了。
消息队列系统可以解耦和负载均衡多个系统的合作。
那Zookeeper作为kafka的broker服务器每次启动注册的管理,如同大数据系统里面的一个leader,协同配置管理,naming等各个服务。
读写速度快慢提速,跟kafka有啥关系?

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据
我想数据的接入,一条条数据也就是一消息体的形式接入,然后分发到我们的系统的。

问题1:

通过Docker接入到Kafka

  1. 为什么要通过docker接入kafka,而不直接接入?
  2. Mac上启动docker吗?
    看起来需要通过homebrew来安装
  3. Kafka是做什么的?

kafka是一个分布式、高吞吐量、高扩展性的消息队列系统

  1. 又来问什么是docker
    有文章提到过,docker集装箱原理

那什么是消息队列系统Message Queue MQ system?
关于消息队列,我最关系的是为什么要用MQ?有什么好处?
看了半天,第一个收获是,MQ是解决多接口和userid的关系。第二个收获是为了解耦。如图


消息队列解耦ABCD四个系统

还可以异步调用,提高用户体验和吞吐量


异步调用

此外消息队列还可以削峰限流,不至于把服务器崩了。

一文看懂kafka消息队列
我在阅读这篇文章的时候,觉得很适合我的理解水平。

问题2:

生产者和消费者

  1. 消费体
    消费者怎么拿到消息呢?两种方式pull和push

消费者怎么从消息队列里边得到数据?有两种办法:
生产者将数据放到消息队列中,消息队列有数据了,主动叫消费者去拿(俗称push)
消费者不断去轮训消息队列,看看有没有新的数据,如果有就消费(俗称pull)

  1. 压缩
  2. 生产者 压缩 kafka 消费者 解压

Kafka的服务端称为 Broker,每个 Broker 启动时会将自己的 Broker 配置信息上报给 Zookeeper ,如,监听地址与端口号等,Kafka的客户端(生产者与消费者统称)要连接 Broker 需要经过一层认证,不通过认证就无法连接

由此可知,

  1. kafka分服务端和客户端
  2. kafka的服务端成为broker,每个broker会把配置信息上报给Zookeeper,这里就提到了Zookeeper
  3. kafka的客户端,是生产者和消费者的统称


    kafka全貌

既然提到了Zookeeper,那就要问:

  1. Zookeeper为啥要跟Kafka 一起?
    一篇文章提到,Kafka选择Zookeeper作为服务端broker的管理。每个broker启动时都会到Zookeeper上进行注册。
    消费者和生产者的负载均衡。
    记录消息消费进度offset
  2. Zookeeper是干嘛的。
    我看到一篇文章说的好。Zookeeper类似一个组织里面的leader

问题3:

  1. 丢数据
  2. 单线程多线程写数据
  3. 通道和通道堵死?
    通道是一个弱鸡版的硬件,完成一次IO读写操作,数据传输
  4. IO
    磁盘的 IOPS,也就是在一秒内,磁盘进行多少次 I/O 读写。
    I/O通道是一种特殊的的处理机

问题4:

Kafka pull 和 DJ方式

  1. offset手动记录
    kafka消息处理类:MessageAndOffset

Producer使用Push(推送)的方式将消息发布到Broker,Consumer使用Pull(拉取)的方式从Broker获取消息,两者都是主动操作的。

关于offset更多:

Broker : Kafka一个服务器被称为一个Broker
Topic: 每一类消息可以定义一个Topic
Partition : 每个Topic都有1个或者多个partition,属于物理上的分隔
offset : 偏移量每个partition中的消息唯一标识
Producer : 消息发布者
Consumer : 消息订阅者
Consumer Group : 属于订阅者独有的概念,默认为统一的group

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351