Spark Streaming
Spark Streaming 执行过程
Spark 内部实现遵循以下步骤:
- 主要部件的初始化过程
- 网络侧接收到的数据如何存储到内存
- 如何根据存储下来的数据生成相应的spark job
下面我们以wordcount为例说明。
1. streamingContext初始化过程
val ssc= new StreamingContext("local[2]","Networkwordcount",Seconds(1))
Streamingcontext的参数:
- sparkcontext,任务最重通过sparkcontext借口提交到spark cluster运行
- checkpoint 检查点
- duration 根据多久时长常见一个batch
利用初始化的ssc生成dstream。
val lines=ssc.sockettextStream("localhost",9999)
sockettextstream返回值是dstream
socketinputdstream的实现中,最主要就是定义getreceiver函数,在getreceiver函数中制作了一件事情,即产生一个新的socketreceiver。
创建完socketreceiver之后,接下来的工作就是对dstream进行一系列的操作转换。对Streaming的实际应用开发也集中在这样的一个阶段。
val words=lines.flatmap(_.split(" "))
import org.apache.spark.streaming.streamingContext._
val pairs=words.map(word=>(word,1))
val wordcounts=pairs.reduceByKey(_+_)
wordcounts.print()
在上述的转换过程中,print属于输出操作。
共有如下输出操作
- foreachrdd
- saveasobjectfiles
- saveastextfiles
- saveashadoopfiles
上述设计的输出操作其实最后都会调用到foreachdstaream,foreachdstream不同于dstream的地方在于冲在了generatejob方法。
最后就是提交。
ssc.start()
ssc.awaitTermination()
2. 数据接收
ssc.start触及的运行逻辑。调用jobscheduler.start,由job scheduler一次启动一下三大功能模块。
- 监控
- 数据接收
- 定期生成spark job的jobgenerator
3. 数据处理
如何将输出和输入绑定一起,依赖于dstreamgraph,dstreamgraph记录输入的stream和输出的stream。
窗口操作
滑动窗口:
在任何基于窗口的操作都需要制定两个参数,一个是窗口总的长度,另一个是滑动窗口的间隔。需要注意的是这两个参数的值必须是批量处理时间间隔的倍数。
比如想知道过去30s某个单词出现的次数,每10s更新一次结果,可以使用如下代码:
val windowedwordcounts=pairs.reduceBykeyandWindow(a:int,b:int)=>(a+b),seconds(30),seconds(10))