Flink基础教程(简约笔记)

  • 人民邮电出版社

第一章 为何选择Flink

  • 竞品:SparkStreaming/Storm/Samza/Apex

  • Lambda架构(不懂为何叫Lambda)
    https://ask.hellobi.com/blog/transwarp/5107

  • 在大型分布式系统各种,数据一致性和对事件发生顺序的理解必然都是有限的。

  • 来源德语:快速、灵巧

  • Flink将批处理(有限的静态数据)视作一种特殊的流处理


    image.png
  • Flink Runtime是核心引擎,直接基于此的程序冗长编写费力——提供API


    20190120113636940.png

第二章 流处理架构

  • 传统分布式的问题:
    1. 数据到达分析阶段的流程复杂缓慢
    2. 都需要访问数据库,数据架构单一
    3. 复杂的异常处理,难以保证异常出现后系统的正常运行
    4. 实际数据与状态数据的一致性
image.png
  1. 消息传输层(Kafka或者MapR Streams)
  • 从生产者采集连续事件产生的数据,并传输给订阅了的app和服务
  1. 流处理层
  • 持续将数据在app和系统间移动

  • 聚合、处理事件

  • 在本地维持app的状态

  • 兼具高性能和持久性(消息重播,而非到流处理层后就消失了)

  • 解耦生产者和消费者(消息立刻到达,但无需立刻处理——支持多、微服务)

第三章 Flink用途

  1. 计算用户连续访问时长(解决了刚工作时遇到的一个痛点——用python脚本分析用户在JZB_App上的访问时长。当时问题很多,除了数据处理的缓慢,内存消耗,如何定义连续访问都很麻烦,没法确定哪种是最好的,否则就要每个定义都计算一份数据)
  • 如果使用微批处理,可能人工定义的计算窗口与会话窗口不吻合
  • Flink可以设置非活动阈值——可以根据真实情况设置计算窗口
  1. Flink优势——能够区分这两类时间
  • 事件事件——实际发生时间(容易实现计算的正确性)
  • 处理时间——开始被程序处理
  1. 故障后保持准确
  • 检查点checkpoint机制

第四章 对时间的处理

批处理

定期运行批处理作业,实现应用持续性。数据被持续地分割为文件(比如每小时一单位),作业以文件作为输入
  • 缺点
    1. 太多独立部分(太多系统——数据分割摄取、计算、调度 依赖混淆,都要需要时间概念;学习成本和bug)
    2. 时间处理方法不明确(比如改为半小时一次)
    3. 预警(需要通过增加Storm实时提供近似计数,这样就变成Lambda了)
    4. 乱序事件流(到达数据中心的顺序和实际发生顺序)
    5. 批处理作业时间界限不清洗(分割点前后的时间,以及要分析时间段聚合结果无法满足)

流处理

柱状为kafka.png
  • 流即是流不必人为分割
  • 时间定义被写入应用程序代码(时间窗口等),而非牵扯到多个模块

流处理中的批处理

  • 批处理只作为提高系统性能的机制。批量越大,系统吞吐量越大
  • 为提高性能使用的批处理必须完全独立于定义窗口时用的缓冲,或者为了保证容错性而提交的代码,也不能作为API的一部分。否则系统将受到限制,难以使用且脆弱。
    (有点不好理解)

时间

  • 事件时间,带有时间戳的记录
  • 处理时间,处理事件的机器测量的时间
  • 摄取时间/进入时间,进入流处理框架的时间

时间窗口

支持滚动和滑动


滚动.png
stream.timeWindow(Time.minutes(1))
滑动.png
stream.timeWindow(Time.minutes(1), Time.seconds(30))

计数窗口

采用计数窗口时,分组依据不再是时间戳,而是元素的数量。滚动和滑动的计数窗口分别定义如下。

stream.countWindow(4)
stream.countWindow(4, 2)

假设计数窗口定义的元素数量为 100,而某个 key 对应的元素永远达不到 100 个,那么窗口就永远不会关闭,被该窗口占用的内存也就浪费了。

会话窗口

可方便处理用户连续访问页面时长的问题(通过设定间隔时长)。

stream.window(SessionWindows.withGap(Time.minutes(5))

时空穿梭

image.png

很有用:调试或者重新处理数据。但需要流处理器支持事件时间,否则结果会不同(机器时间不同了)

水印

当计算基于事件时间时,如何判断所有的事件已到达?需要依靠由数据驱动的时钟而非系统时钟。
比如滚动窗口中,计算10:00:00-10:01:00的事件,因为时间戳就是数据,那如何判断是否存在某个10:00:59的元素还没到呢?

Flink 通过水印来推进事件时间。水印是嵌在流中的常规记录,计算程序通过水印获知某个时间点已到。水印使事件时间与处理时间完全无关。

水印由应用程序开发人员生成,需要领域知识。启发式水印可能出错。

第五章 有状态的计算

image.png

一致性

流处理一致性三个级别(对于故障发生后的恢复能力):

  • at-most-once: 计数结果可能丢失,没有能力
  • at-least-once: 计数结果>=正确值(Storm/Samza)
  • exactly-once: 计数结果=正确值 (Strorm Trident/ Spark Streaming)
    Flink——既保证exactly,也有低延迟高吞吐

检查点

  • 保证exactly-once的机制,在出现故障时将系统重置回正确状态。
    总体而言就是在数据流中嵌入检查点,遇到检查点时记录检查点的位置与此时的计数状态,以方便在遇到故障时恢复最近的状态并重跑检查点后的数据。
    详情可见(也是部分图源):
    http://www.linkedkeeper.com/1415.html
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容