spark基础学习(二)

一、绪论

    上一章节对Spark组件进行了简单的描述,并详细介绍了RDD的内容。本章节主要介绍spark组件之一Spark Streaming的内容。

     Spark Streaming是用来对实时数据进行流式计算的组件。本章节主要从Spark Streaming的原理及其核心DStream两个大方面来介绍Spark Streaming的运行机制。其中实例代码使用的编程语言是Scala语言。

二、原理与架构

  1、流式计算原理 

        从根本上来讲,Spark Streaming并不是完全意义上实现了流式计算。它使用一种“微批次”的架构来实现对数据的流式计算,即把流式计算当成一系列连续的小规模的批处理来对来。也就是“频繁地进行批处理”。

2、流式计算架构

    架构图如图1-1所示:


图1-1 Spark Streaming的高层次架构

    首先,Spark Streaming会从各中输入源中读取数据到接受器上,并将这些数据分组成小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就被创建出来,在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时,批次停止增长。每个输入批次都形成了一个RDD,以Spark作业的方式来处理并生成其他的RDD(具体的内容见上一章节的RDD介绍)。处理的结果可以以批处理的方式传给外部系统。

三、DStream

    Spark对数据的抽象表示是RDD,相应地Spark Streaming对流数据的抽象表示是离散化流(discretized stream),叫做DStream。DStream是随时间推移而受到的数据的序列。在其内部,每个时间去收到的数据都作为RDD存在,也就是说DStream是有这些RDD所组成的序列。具体的结构如图2-2所示。


图1-2 DStream结构

1、DStream的创建

    DStream可以从各种输入源来创建,例如Flume、Kafka或者HDFS。这里主要介绍两种比较常用方式:套接字和文件流。

    a、套接字

    从套接字中获取输入流需要从创建StreamingContext开始,因为StreamingContext是流计算功能的主要入口。之后我们需要通过调用socketTextStream()函数来创建出监听某个端口号上收到的数据的DStream。以本地7777端口为例,实现代码如例 1-1所示:

例 1-1 使用套接字作为输入流创建DStream

val ssc=new StreamingContext(conf,Sconds(1))

val lines=ssc.socketTextStream("localhost",7777)

val errorLines=lines.filter(_.contains("error"))

errorLines.print()

    当然,这里只是定义好了要进行的计算,当系统收到数据时就会开始计算。要开始接受数据,就必须显示调用StreamingContext的start()方法。之后,Spark Streaming就会开始吧Spark作业不断交给下面的SparkContext去调度执行。这些执行会在另外一个进程中执行,所以需要调用awaitTermination来等待流计算完成,来防止应用退出。具体代码如例1-2所示。

例 1-2 流式计算的启动

ssc.start()

ssc.awaitTermination()

    b、文件流

    Spark Streaming支持从任意hadoop兼容的文件系统目录中的文件创建数据流。

例 1-3 读取目录中的文本文件流

val logData = ssc.textFileStream(logDirectory)

2、DStream的转化操作

    DStream的转化操作分为无状态和有状态两种。

    a、无状态操作

    在无状态转化操作中,每个批次的处理并不依赖于之前批次的的数据。这种类型的操作会把相对于的简单的RDD转化操作应用到每个批次即DStream中的每一个RDD上。常见的转化操作有map()、filter()、reduceByKey()等。

例 1-4 对DStream使用map()和reduceByKey()操作

val accessLogDStream = logData.map(line => ApacheAccessLog.parseFromLogLine(line))

val ipDStream = accessLogDStream.map(entry => (entry.getIpAddress() , 1))

val ipCountsDStream = ipDStream.reduceByKey((x,y) => x + y)

    需要注意的是reduceByKey()操作会归约每个时间区间内的数据,但是不会归约不同区间之间的数据。

    b、有状态操作

    有状态操作需要使用之前批次的数据或者中间结果来计算当前批次的数据。这是一种跨时间区间的跟踪数据的操作。主要的两种类型是滑动窗口和updateStateByKey(),前者是以一个时间段作为滑动窗口进行操作,后者是用来跟踪每个键的状态变化。

    需要注意的是有状态转化操作需要在StreamingContext中打开检查点机制来保证容错性。

3、DStream的输出操作

    输出操作是指对于流式计算得到的最终结果所要执行的操作,比较常用的有输出到屏幕上和推入外部数据库中。一般用print()来调试输出结果,它会在每个批次中抓取DStream的前十个元素打印出来。Spark Streaming对于DStream的保存是接受一个目录作为参数来存储文件。还支持可选参数来设置文件的后缀名。例1-5就是一个将DStream保存为文本文件的例子,其中"text"参数是可选参数。

例 1-5 将DStream保存为文本文件

ipAddressRequestCount.saveAsTextFiles("outputDir" , "text")

四、参考文献

    [1] Holden Karau ,  Andy Konwinski , Patrick Wendell , Matei Zaharia .Spark快速大数据分析[M].北京:人民邮电出版社,2015.9;

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容