流式计算框架Apache-Flink简介及环境搭建

相关软件

       作者使用的操作系统是 Windows,读者也可以用 Mac,操作使用不会有明显差异,如果有差别会额外注明。本教程使用的软件主要是intellij idea用于代码编辑,使用的flink版本为flink-1.8.0,使用的JDK版本为1.8.0_151。另外版本控制软件 (version control software) 例如 Git 是软件开发中必不可少的工具,本教程作为入门教程暂时不介绍,有兴趣的读者可以自学。

课程介绍

本系列课程主要分为四块,分别为1)课程介绍&环境搭建2)主流应用接口3)Flink与Kafka的结合4)实战应用:实时ETL数据处理 课程本身具有一定的连续性:从是什么,到怎么做;从了解理论到联系实战;从知道到做到,层层递进。

本节内容

What:Apache Flink概念-有状态流式处理引擎

何谓有状态流式处理

传统批次处理方法

特点:持续收取数据、以时间作为划分数个批次档案的依据、周期性执行批次运算


黄箭头中间的状态为批处理作业之间的中间态

我们会思考下面几个问题:

1、假设计算每小时出现特定事件转换的次数(如:每小时A->B的次数)

2、如果事件转换跨越了所定义的时间划分该如何处理?

(将中介运算结果(intermediate result)带入下一个批次运算)

3、如果接受到的事件顺序颠倒如何处理?

理想方法



长时间串行计算处理,处理不断输入的记录

但是这样做很慢,怎么加快这一过程呢?分散流式处理应运而生

分散流式处理

分散实现并行,加快处理速度

再对输入变量加入状态值,处理时对输入状态进行判断,就是有状态分散流式处理了

有状态分散式流式处理

Apache Flink:原理/架构

概述

Flink的整个组件类似于Spark,它的核心是一个分布式的流式处理框架,在核心之上,有两套API,一套应用于批处理—DataSet API,一套应用于流式处理—DataStream API。

从图中可以看出,在两套API下又有更为高级的库,而它的整个处理部署方式可以支持本地、集群、云端

基础架构

Flink的整个架构和Spark很相似,有三个主要部分。 

一个是提交任务的客户端—Flink Program;还有作业的管理器—JobManager,主要负责任务的调度和状态的检测,以及在整个集群出现故障时进行初步管理;最后是任务管理器—TaskManager,实现业务逻辑的执行,负责把接受到的任务运行之后,将相应的结果输出到外部或进行外部交互。在整个过程中,JobManager是不负责任务执行的。

编程模型

下面我们来看一下Flink的具体编程模型结构。

第一条语句是建立整个Flink运行时的环境,类似于Spark里建立一个上下文。它的主要业务逻辑是由指定数据源、指定变换逻辑、指定输出三部分决定的。

指定数据源的过程就是nv.addSource,这是指定我们的数据到底从哪里来,在这个设计中,它是从kafka里把数据读出来。在这个事例里面,数据流的变换比较简单,只是把每一行数据做一个解析,解析完后获得另一个数据流,就构成了 DataStreamevents这个数据流。

在这个数据流上面,我们做了一个分组:keyBy(“id”)、timeWindow(Time.seconds(10))、apply(new MyWindowAggregationFunction())。我们把整个数据处理完之后,得到一个统计数据流,指定输出。

这大致就是整个数据流的业务逻辑,箭头下方是数据流图。

“map”就是做一些映射,比如我们把两个字符串合并成一个字符串,把一个字符串拆成两个或者三个字符串。

“flatMap”类似于把一个记录拆分成两条、三条、甚至是四条记录。

“Filter”就类似于过滤。

“keyBy”就等效于SQL里的group by。

“reduce”就类似于MapReduce里的reduce。

“join”操作就有点类似于我们数据库里面的join。

“aggregate”是一个聚合操作,如计数、求和、求平均等。

“connect”实现把两个流连成一个流。

“project”操作就类似于SQL里面的snacks。

“repartition”是一个重新分区操作。

执行机制

知道Flink的编程模型之后,那么Flink是怎样去运行这些业务逻辑的呢?下面是它的执行机制。

上图是表现业务逻辑的业务执行图,Flink的执行方式类似于管道,它借鉴了数据库的一些执行原理,实现了自己独特的执行方式。

状态与容错

Flink的容错机制很特别


是吧,很特别吧

Flink在处理数据流时,它的整个数据流里面的数据分为两种,一种是本身业务发给的数据,还有一种是Flink自己插到数据流里面的数据。插入的记录我们叫它barrier,就是栅栏,我们可以把它看成一个表示进度的标记,标记整个数据处理的状态,它从源头发出。从图中我们可以看到,不管是什么流,它都会产生一个checkpoint barrier。 

当operator收到栅栏之后,它会把栅栏的状态存储,然后把特定记录发出去,到达第二个operator里面,它又把它的状态放到Master里,它就是这样一步一步去完成的。在这个过程中,如果有一步出现故障,Flink会重复前面的步骤,重新去运行,所以不会出现数据的丢失和错误。

Why:为什么我们要用Flink

保证带状态计算下的精确一次语义,对于某些特定的计算而言非常有必要。

一般在流式处理框架中,数据的处理一般有两种方式,一种是按照处理时间来处理数据,另一种就是按照事件时间来处理数据,“事件时间语义支持”方式更为复杂。

Flink的API非常高级,在处理流式数据的逻辑业务中,效率更高。

如何在Windows下搭建Flink开发环境

Java 的安装和配置

在各个操作系统上安装和配置 Java 的教程有很多,这里有三个要点需要注意:

● Flink 编译和运行要求 Java 版本至少是 Java 8,且最好选用 Java 8u51 及以上版本

● 如果要能够编译 Flink 代码,需要安装 JDK

● 安装好 Java 后,还需要配置 JAVA_HOME 和 PATH

这三个要点在 mac 系统、Linux 系统及 Windows 系统上都是适用的。

Windows上安装 JKD8 方法如下:

在下面这个下载链接中下载并安装Windows对应的安装包https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装完成后查看 java8 的安装目录

配环境变量

检查 java 版本:java -version

Maven 的安装和配置

编译 Flink 要求必须使用 Maven 3,推荐使用 Maven 3.2.5。Maven 3.3.x 能够编译成功,但是在

shade 一些 dependencies 的过程中有些问题,故不推荐使用。

到官网下一下zip包

http://maven.apache.org/download.cgi 

解压之后,记录下路径,在系统环境变量中添加 M2_HOME 和 MAVEN_HOME,最后在PATH中添加。

验证是否安装成功,在cmd输入命令mvn -version验证。 这样显示就代表成功了。

Git 的安装和配置

Git 的安装可以参考这篇文章:https://git-scm.com/book/en/v1/Getting-Started-Installing-Git

当我们完成上述安装配置后,我们就可以从 github 上下载 Flink 代码了。github 上 flink 的代码仓

库是 https://github.com/apache/flink

下载完了之后,我们可以把服务启起来玩一下

进入你下载的Flink代码目录,进入bin目录,双击执行start-cluster.bat文件

然后就可以看到有个java控制台启动了

进入http://localhost:8081/#/overview

我们就可以看到Flink的监控页面,下面是一些监控信息。

执行一个程序试试吧

进入flink源码的bin目录,执行:flink run D:\Flink_linked\flink-1.8.0\examples\b

atch\WordCount.jar

指标还挺多

今天就到这里了。大家可以自己试试看执行执行demo什么的。也可以写一点程序自己执行一下。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容