Apache Flink基本编程模型

前一篇文章中<一文了解Flink数据-有界数据与无界数据>大致讲解了Apache Flink数据的形态问题。Apache Flink实现分布式集合数据集转换、抽取、分组、统计等。根据数据源的类型,即为有界数据与无界数据,提供了DataSet与DataStream的基础API。

image

根据数据源的类型,即为有界数据与无界数据。Apache Flink提供可以编写流处理与批处理的程序。其中DataSet API用于批处理,DataStream API用于流式处理。对于DataSet来说可以认为其中存储的是可重复有界的数据集合。而DataStream中存储的可以认为是重复的无界的数据集合。
image

Flink提供了不同级别的抽象来实现批处理或流处理任务的开发。

image

Flink的基本构建就是数据流与转换,(Flink 中DataSet API中使用的也是内部流)。从整体概念上来讲,流是持续的不会产生中断的数据记录流。而转换则是讲一个或多个流的进行转换、计算、聚合等产生一个或多个流。

image

程序在执行时会映射出一个或者多个数据流,每个数据流都以一个或者多个源为开头,例如Kakfa、File等或者是通过与计算得来。数据流之间类似于一个有向无环图DAG。

通过两个例子来看DataSet和DataStream。

  • 批处理
val env = ExecutionEnvironment.getExecutionEnvironment
    // 创建DataSource
    val text = env.fromElements(
      "Best Data Processing Engine")
    //flatMap : 把字符串转换为小写,并且按照空白分割为一个个的单词.
    //filter: 过滤非空结果
    //map: 把切割的单词转换为 单词,1
    //groupBy:按照下标位0进行分组
    //sum: 计算 下标位1的结果
    val counts = text.flatMap { _.toLowerCase.split("\\W+")
      .filter { _.nonEmpty } }
      .map { (_, 1) }
      .groupBy(0)
      .sum(1)
    //打印结果到控制台
    counts.print()

  • 流式处理
val env = StreamExecutionEnvironment.getExecutionEnvironment
    val text = env.socketTextStream("localhost",9999)
    //flatMap : 把字符串转换为小写,并且按照空白分割为一个个的单词.
    //filter: 过滤非空结果
    //map: 把切割的单词转换为 单词,1
    //timeWindow: 按照时间,每5s获取进行一次计算
    //sum: 计算 下标位1的结果
    val counts = text.flatMap { _.toLowerCase.split("\\W+")
      .filter { _.nonEmpty } }
      .map { (_, 1) }
      .keyBy(0)
      .timeWindow(Time.seconds(5))
      .sum(1)

    //打印结果到控制台
    counts.print()

从上面看,流式处理与批处理的代码实现基本上是一样的,流式处理的数据在通过 nc -lk 9999开启一个socket。 Flink连接socket之后就可以进行执行。数据相对与批处理来说是无界的持续数据集。而代码上增加了一个Window。

Window

窗口是批处理上不存在的一个过程。流处理与批处理的工作方式不同,例如流处理无法聚合计算元素总数,因为流数据通常都是无界的。所以,流上的聚合是由窗口来界定的。(5s,100条)。 Apache Flink中窗口有翻滚窗口,滑动窗口与会话窗口。基于对数据集的切割能够实现基于时间的窗口(TimeWindow)、基于数据驱动的窗口(CountWindow)等。

时间

既然存在时间窗口,那么就会对时间做一个基本的定义。一般来讲,时间基本上存在与事件处理的当前时间。也就是处理引擎当前的时间。

Apache Flink对于提供了不同的时间概念:
image
  • 事件时间(创建时间的时间):类似于我们使用log输出日志的时候所打印的时间。
  • 摄取时间:是指事件源输入到Flink的时间。
  • 处理时间:基于时间的操作,每次操作的时间。

常规情况下对时间进行区分可以理解为

  1. log4j输出一条日志的头带有的时间为 事件时间
  2. 采集程序把数据写入到kafka,Apache Flink实时读取Kafka中的数据,读取到该条数据的时间为摄取时间。
  3. ApacheFlink进行翻滚窗口处理,翻滚时间为5分钟,那么处理到该条数据的时间则为处理时间。

有状态的计算

image

虽然数据流是无界的数据流,持续产生。但是Apache Flink会记录基于窗口的多个事件的结果。批处理时不需要把数据的当前状态进行存储。而流式计算需要持久的执行,基本上都是以月为单位的执行。那么就需要保存把计算过程持久的存储起来,下次计算的结果直接进行累加。

容错

Apache Flink提供了容错的机制,基于状态与检查点进行执行。该机制确保了当出现故障时系统可以退回到检查点。Apache Flink从容错可处理上可以实现(at least once, exactly once)
⬇⬇⬇ 你好,我是CainGao。一线大数据开发者,关注我一起交流场景实现 ⬇⬇⬇

image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352