Storm体系概要

一、Storm相关术语

  • 1、Nimbus:Strom集群主节点,负责资源分配和任务调度。
  • 2、Supervisor:Storm集群工作节点,接受Nimbus分配任务,管理Worker。
  • 3、Worker:独立的JVM进程,每个节点上可以配置运行一个或多个worker。一个Topology会分配到一个或者多个worker上运行。
  • 4、Executor:指一个Worker的JVM进程中运行的Java线程,一个Executor可以执行多个Task。Storm默认会给每个Executor分配一个Task。
  • 5、Task:Spout和Bolt的实例,他们的nextTuple和execute方法会被Executors调用执行。
  • 5、Topology:实时计算逻辑,计算拓补,由Spout和Bolt组成的图状结构。
  • 6、Spout:Storm编程模型中的消息源,可进行可靠传输(ack/fail机制)
  • 7、Bolt:Storm编程模型中的处理组件,定义execute方法进行实际的数据逻辑处理。可以用于:
    • 过滤
    • 连接(join)和聚合操作(aggregation)
    • 计算
    • 数据库读写
  • 8、Stream:Stream是由无限制的Tuple组成的序列。
  • 9、Tuple:Storm的核心数据结构,是包含了一个或多个键值对的列表。(和Map类似,开发中需要根据key,获得value)

0x01: Storm的分组策略

image.png

二、Storm原理架构

  • 1、Storm集群架构图


    image.png
  • 2、数据处理流程图


    image.png
  • 3、拓补图分析


    image.png

三、Storm主要特点

  • 1、简单的编程模型:Spout + Bolt
  • 2、高拓展性
  • 3、高可靠性:消息以消息树的形式存在,提供ack/fail消息保证机制
  • 4、高容错性:
    • 节点级别的容错
    • worker级别的容错
    • nimbus不支持容错
  • 5、支持多语言编程
  • 6、支持本地模式
  • 7、高性能:内部通讯采用ZeroMQ通讯,保证消息被快速处理

四、Storm的拓展:与Yarn结合

  • 1、资源的弹性计算
  • 2、共享底层存储
  • 3、支持多版本共存
  • 4、整体架构的统一

五、Storm的现状与发展趋势

  • Storm的应用场景:
    • 1、流式数据处理(数据预处理、ETL等)
    • 2、并行计算Top N(按字段分组计算top,然后全局汇总)
    • 3、微批处理(在时间窗口内进行批量处理)
    • 4、分布式并行计算

优点

在Storm和JStorm出现以前,市面上出现很多实时计算引擎,但自Storm和JStorm出现后,基本上可以说一统江湖: 究其优点:

  • 开发非常迅速:接口简单,容易上手,只要遵守Topology、Spout和Bolt的编程规范即可开发出一个扩展性极好的应用,底层RPC、Worker之间冗余,数据分流之类的动作完全不用考虑
  • 扩展性极好:当一级处理单元速度,直接配置一下并发数,即可线性扩展性能
  • 健壮强:当Worker失效或机器出现故障时, 自动分配新的Worker替换失效Worker
  • 数据准确性:可以采用Ack机制,保证数据不丢失。 如果对精度有更多一步要求,采用事务机制,保证数据准确。
  • 实时性高: JStorm 的设计偏向单行记录,因此,在时延较同类产品更低

应用场景

JStorm处理数据的方式是基于消息的流水线处理, 因此特别适合无状态计算,也就是计算单元的依赖的数据全部在接受的消息中可以找到, 并且最好一个数据流不依赖另外一个数据流。

因此,常常用于:

  • 日志分析,从日志中分析出特定的数据,并将分析的结果存入外部存储器如数据库。目前,主流日志分析技术就使用JStorm或Storm
  • 管道系统, 将一个数据从一个系统传输到另外一个系统, 比如将数据库同步到Hadoop
  • 消息转化器, 将接受到的消息按照某种格式进行转化,存储到另外一个系统如消息中间件
  • 统计分析器, 从日志或消息中,提炼出某个字段,然后做count或sum计算,最后将统计值存入外部存储器。中间处理过程可能更复杂。
  • 实时推荐系统, 将推荐算法运行在jstorm中,达到秒级的推荐效果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容

  • Date: Nov 17-24, 2017 1. 目的 积累Storm为主的流式大数据处理平台对实时数据处理的相关...
    一只很努力爬树的猫阅读 2,173评论 0 4
  • 这是一个JStorm使用教程,不包含环境搭建教程,直接在公司现有集群上跑任务,关于JStorm集群环境搭建,后续研...
    Coselding阅读 6,328评论 1 9
  • 目录 场景假设 调优步骤和方法 Storm 的部分特性 Storm 并行度 Storm 消息机制 Storm UI...
    mtide阅读 17,106评论 30 60
  • 话说:好吃不一定擅长烹调,好做的必定好吃,汪曾祺先生是两者俱佳。翻看汪曾祺的精品作品集,关于美食的文章就有好些篇,...
    风清清阅读 2,075评论 4 6
  • 成为一个优秀的程序员和成为其他优秀的专业人员一样,需要尽可能多的做一些有质量的工作。有句很流行的话可以总结:做,正...
    磨砺营阅读 333评论 0 1