Storm基础(一):架构和组件

1、使用场景

信息流处理 Stream Processing

  • 处理源源不断产生的消息,并将处理之后的结果存储到某个存储系统中去,典型的架构是Kafka + Storm + HBase(或redis)

连续计算 Continuous Computation

  • Storm可进行连续查询并把结果及时反馈给客户端,比如把微博上的热门话题发送到浏览器上

分布式远程程序调用 Distributed RPC

  • 用来处理并行密集查询,客户端向Storm提交一个查询请求和查询参数,Storm运行Topology并行处理,并将结果同步返回给客户端

在线机器学习

2、实际商业应用场景

一淘-实时分析系统pora

  • 实时分析用户的属性,并反馈给搜索引擎。实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果
    携程-网站性能监控
  • 实时分析系统监控携程网的网站性能。利用HTML5提供的performance标准获得可用的指标,并记录日志,Storm集群实时分析日志和入库;使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件
    游戏行业
  • 一个游戏新版本上线,通过storm收集游戏中的数据,运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整,这样就能够大大缩短游戏迭代周期,加强游戏的生命力

3、Storm特性

  • 自由共享、开源的分布式实时计算系统
  • 实时计算领域的Hadoop
  • 编程模型简单,并且支持多种编程语音
  • 高性能,低延迟
  • 易扩展
  • 容错
  • 消息不丢失

4、Storm VS Hadoop

  • Hadoop是hdfs是分布式文件存储系统,mapreduce + Yarn批量离线计算(批处理)
  • Storm只是一个实时分布式计算框架,但可以读取HDFS上的文件进行批量计算,另外Storm可以运行在yarn上
  • Storm是计算任务为Topology,除非人为移除(kill),否则会一直运行下去,而MapReduce数据处理完毕,就会停止
image.png

5、Storm VS Spark Streaming

  • Storm 流式数据处理技术框架,真正的实时处理框架,针对数据,来一条记录就处理一次,ms毫秒级别
  • Spark Streaming 实时数据分析框架,其实是微批数据处理框架,m秒级别
    *批处理:时段跨度相对来说比较大,可以是 年/季度/月/星期/天/小时/分钟/秒
    *实时处理:时间跨度非常小的批处理,通常是m秒级别,一秒的数据量可以非常大(GB,TB)
image.png

6、Storm架构体系

image.png

image.png

7、Storm组件

Nimbus

  • 主节点,本身无状态
  • 接收客户端任务Topology的提交,并负责在集群中分发代码,即Jar包
  • 分配工作给从节点supervisor,注意不是直接分配,而是将任务发布到zookeeper上,由supervisor到zookeeper上领取任务(在Zookeeper相应的znode节点上写入任务分配信息,由supervisor查看这些znode上的任务分配信息,获取分配到的任务)
  • 监控: 监听集群状态(从Zookeeper集群中相应znode上读取supervisor,worker进程的状态信息数据)
  • 容错:当supervisor节点挂掉,由Nimbus将该节点上正在运行着的任务重新分配给其他supervisor执行

Supervisor

  • 从节点
  • 从Zookeeper上获取Nimbus分配的任务,负责启动和停止本机上worker进程来执行任务,worker的容错由Supervisor进程负责
  • 需要定时将自己的运行状态信息(心跳信息)汇报到zookeeper上,由Nimbus监控(在Zookeeper相应的znode节点上写入心跳信息)

Worker

  • 真正的执行任务的进程,负责启动executor线程来执行任务
  • worker进程并不是常驻进程,不能通过手动启动
  • 负责与其他worker之间进行数据传输
  • 需要将自己的运行状态汇报到zookeeper上,由Nimbus监控

Executor

  • 真正执行任务的线程(负责执行客户提交到Storm集群上任务中Task(spout/bolt)),由worker启动和停止

Zookeeper

  • 存储任务调度信息、各节点状态信息、心跳
  • 使Storm集群各节点保持无状态,这样具有高可靠性
  • zk上storm各节点存储数据类型如下
image.png

UI

  • storm web监控页面
  • 在storm.yaml配置文件中通过配置ui.port参数指定web ui访问端口
  • UI需要与Nimbus运行在同一台服务器上
image.png

Logviewer

  • Storm集群任务运行过程中日志手机进程,需要在每个supervisor所在的节点上启动

Netty

  • storm底层通信框架,替代了0.9版本之前的zeroMq

8、编程模型

  • Storm任务:Topology,称之为拓扑图,有向无环图(DAG)


    image.png
  • Storm处理的数据结构——Stream、Tuple
    数据流Stream是一个个tuple;
    tuple元组是任意数据结构类型的键值对集合,(k1:v1,k2:v2,k3:v3),比如,(name:"zhangsan",age:"19",birthday:"1998-0910")

  • Storm数据采集器 Spout
    数据采集器,从数据源上获取数据,转成tuple发射到后面的bolt处理
    常见的是KafkaSpout,从Kafka上获取数据记录

  • Storm数据处理器 Bolt
    数据处理器,顾名思义,在bolt里面实现数据的逻辑处理,可执行Filter过滤,functions函数操作,aggregate聚合,join组合,存储数据到数据库等操作

  • Storm数据流分组 grouping
    shuffleGrouping:随机分组,随机分发Stream中的tuple,保证后面每个Bolt接收Tuple数据大致一致;
    fieldsGrouping :按字段分组,保证相同字段的tuple分配到同一个bolt 中;
    globalGrouping:全局分组,所有的tuple都发送到同一个bolt中,此时一般将当前Component的并发数据设置为1;

  • 提交Topology
    本地运行模式提交:LocalCluster.submitTopology
    集群模式提交:StormSubmitter.submitTopology

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容

  • 目录 场景假设 调优步骤和方法 Storm 的部分特性 Storm 并行度 Storm 消息机制 Storm UI...
    mtide阅读 17,079评论 30 60
  • Storm学习笔记总结 Storm概述 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、...
    Waldeinsamkeit4阅读 776评论 0 10
  • 一、Storm简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数...
    达微阅读 907评论 0 3
  • Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop...
    timothyue1阅读 580评论 0 0
  • 十一月对我阴冷着脸身后的建筑不再膨胀我和边儿上的陆地被热情隔离枯死的生灵怀揣胆怯,屡屡碰壁这是一个只在乎前进的幻境...
    蕴津阅读 197评论 0 0