31 简单看 storm

上一篇 带你利用zookeeper 分布式锁解决缓存重建冲突, 主要讲解了nginx 并发更新缓存时导致的缓存重建及数据不一致产生及利用zookeeper 分布式锁 解决的方案实现。本篇主要讲解前面虽然做了三级缓存方案,但是针对相同资源的大量请求,依然会导致整个系统崩溃,这种现象称为数据热点问题。那么怎么解决热点问题呢,当然是实现数据的快速预热、对热点数据能够实时感知,然后保证缓存热点数据自动降级。这时候呢, 首先我们需要知道哪些是热点数据,同时要保证实时性、稳定性,这里我们就选择标题说的storm 技术去解决。

关于storm 的介绍和概念,网上太多了,这里不是重点。下面讲讲storm 集群架构、核心概念、并行度、流分组。

storm 集群架构

storm 集群架构就不得不说以下几个名词:Nimbus,Supervisor,ZooKeeper,Worker,Executor,Task

  • Nimbus storm
    集群架构的主节点,负责元数据的维护、资源调度,实时计算作业的入口
  • Supervisor
    负责监听工作节点上已经分配的主机作业,启动和停止Nimbus已经分配的工作进程
  • ZooKeeper
    集群元数据存储,包含拓扑信息topologies、任务分配信息assignments及各类心跳信息
  • Worker
    具体处理Spout/Bolt逻辑的进程
  • Executor
    在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks
  • Task
    Worker中每个Spout/Bolt线程,每个Spout和Bolt在集群中会执行许多任务,每个任务对应一个线程执行
storm 集群架构关系

storm 核心概念

同样要知道以下几个名词代表什么:Topology,Spout,Bolt,Tuple,Stream

  • Topology
    一个运行着的Job,由 spout 和 bolt 组成,包含着处理逻辑及数据流向。
  • Spout
    Topology流的来源,通常Spout会从外部数据源(队列、数据库等)读取数据,然后封装成Tuple形式,之后发送到Stream中。Spout负责从数据源拉取数据,相当于整个系统的生产者。
  • Bolt
    负责消费数据并将tuple发送给下一个计算单元。Bolt处理输入的Stream,并产生新的输出Stream。Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
  • Tuple
    一次消息传递的基本单元,就是一条数据,每条数据都会被封装在tuple中,在多个spout和bolt之间传递
  • Stream
    就是一个流,务虚的一个概念,抽象的概念,源源不断过来的tuple,就组成了一条数据流
storm 核心概念关系图

注:每个task就跑这一个spout或者bolt

storm 并行度

其实没什么好讲的,storm 的并行度是task,为什么不是Executor 呢,认为是Executor 的,因为默认的 一个Executor 对应一个task ,但是 一个Executor 可以有多个task,task 才是最小的计算单元,所以并行度是task

storm 流分组

流分组其实定义的是task 到 task 之间的数据流向关系

流分组

流分组的策略也有很多种:
Shuffle Grouping :随机分组,尽量均匀分布到下游Bolt中
将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。

Fields Grouping :按字段分组,按数据中field值进行分组;相同field值的Tuple被发送到相同的Task
这种grouping机制保证相同field值的tuple会去同一个task

All grouping :广播
广播发送, 对于每一个tuple将会复制到每一个bolt中处理。

Global grouping :全局分组,Tuple被分配到一个Bolt中的一个Task,实现事务性的Topology。
Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。

None grouping :不分组
不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下

Direct grouping :直接分组 指定分组
由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid)。

注:比较常用的是Shuffle Grouping、Fields Grouping这两种

以上就是本章内容,如有不对的地方,请多多指教,谢谢!

为了方便有需要的人,本系列全部软件都在 https://pan.baidu.com/s/1qYsJZfY

下章预告:主要 结合一个单词计数案例来从代码层面认识storm

作者:逐暗者 (转载请注明出处)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • Storm入门系列之一:storm核心概念及特性 本文的将介绍一些 storm 入门的基础知识,包括 storm ...
    zhaif阅读 3,066评论 0 17
  • 什么是实时流计算? 主要的处理模式可以分为:流处理,批处理 流处理是直接处理,有时也分为在线,离线,近线(st...
    Bloo_m阅读 5,047评论 1 1
  • 一、Storm是什么 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的...
    Graceleeman阅读 3,017评论 0 6
  • 本文主要介绍storm中的基本概念,从基础上了解strom的体系结构,便于后续编程过程中作为基础指导。主要的概念包...
    看山远兮阅读 1,506评论 0 9
  • “一盅两价,人生一乐”。如果只说一件在广州不能错过之事,那一定是喝早茶了。慢慢品茶,配着两件甜美的茶点,和朋友聊聊...
    生命不设限Elisa阅读 480评论 0 1