相关软件
作者使用的操作系统是 Windows,读者也可以用 Mac,操作使用不会有明显差异,如果有差别会额外注明。本教程使用的软件主要是intellij idea用于代码编辑,使用的flink版本为flink-1.8.0,使用的JDK版本为1.8.0_151。另外版本控制软件 (version control software) 例如 Git 是软件开发中必不可少的工具,本教程作为入门教程暂时不介绍,有兴趣的读者可以自学。
课程介绍
本系列课程主要分为四块,分别为1)课程介绍&环境搭建2)主流应用接口3)Flink与Kafka的结合4)实战应用:实时ETL数据处理 课程本身具有一定的连续性:从是什么,到怎么做;从了解理论到联系实战;从知道到做到,层层递进。
本节内容
What:Apache Flink概念-有状态流式处理引擎
何谓有状态流式处理
传统批次处理方法
特点:持续收取数据、以时间作为划分数个批次档案的依据、周期性执行批次运算
我们会思考下面几个问题:
1、假设计算每小时出现特定事件转换的次数(如:每小时A->B的次数)
2、如果事件转换跨越了所定义的时间划分该如何处理?
(将中介运算结果(intermediate result)带入下一个批次运算)
3、如果接受到的事件顺序颠倒如何处理?
理想方法
但是这样做很慢,怎么加快这一过程呢?分散流式处理应运而生
分散流式处理
再对输入变量加入状态值,处理时对输入状态进行判断,就是有状态分散流式处理了
有状态分散式流式处理
Apache Flink:原理/架构
概述
Flink的整个组件类似于Spark,它的核心是一个分布式的流式处理框架,在核心之上,有两套API,一套应用于批处理—DataSet API,一套应用于流式处理—DataStream API。
基础架构
Flink的整个架构和Spark很相似,有三个主要部分。
一个是提交任务的客户端—Flink Program;还有作业的管理器—JobManager,主要负责任务的调度和状态的检测,以及在整个集群出现故障时进行初步管理;最后是任务管理器—TaskManager,实现业务逻辑的执行,负责把接受到的任务运行之后,将相应的结果输出到外部或进行外部交互。在整个过程中,JobManager是不负责任务执行的。
编程模型
下面我们来看一下Flink的具体编程模型结构。
第一条语句是建立整个Flink运行时的环境,类似于Spark里建立一个上下文。它的主要业务逻辑是由指定数据源、指定变换逻辑、指定输出三部分决定的。
指定数据源的过程就是nv.addSource,这是指定我们的数据到底从哪里来,在这个设计中,它是从kafka里把数据读出来。在这个事例里面,数据流的变换比较简单,只是把每一行数据做一个解析,解析完后获得另一个数据流,就构成了 DataStreamevents这个数据流。
在这个数据流上面,我们做了一个分组:keyBy(“id”)、timeWindow(Time.seconds(10))、apply(new MyWindowAggregationFunction())。我们把整个数据处理完之后,得到一个统计数据流,指定输出。
这大致就是整个数据流的业务逻辑,箭头下方是数据流图。
“map”就是做一些映射,比如我们把两个字符串合并成一个字符串,把一个字符串拆成两个或者三个字符串。
“flatMap”类似于把一个记录拆分成两条、三条、甚至是四条记录。
“Filter”就类似于过滤。
“keyBy”就等效于SQL里的group by。
“reduce”就类似于MapReduce里的reduce。
“join”操作就有点类似于我们数据库里面的join。
“aggregate”是一个聚合操作,如计数、求和、求平均等。
“connect”实现把两个流连成一个流。
“project”操作就类似于SQL里面的snacks。
“repartition”是一个重新分区操作。
执行机制
知道Flink的编程模型之后,那么Flink是怎样去运行这些业务逻辑的呢?下面是它的执行机制。
状态与容错
Flink的容错机制很特别
Flink在处理数据流时,它的整个数据流里面的数据分为两种,一种是本身业务发给的数据,还有一种是Flink自己插到数据流里面的数据。插入的记录我们叫它barrier,就是栅栏,我们可以把它看成一个表示进度的标记,标记整个数据处理的状态,它从源头发出。从图中我们可以看到,不管是什么流,它都会产生一个checkpoint barrier。
当operator收到栅栏之后,它会把栅栏的状态存储,然后把特定记录发出去,到达第二个operator里面,它又把它的状态放到Master里,它就是这样一步一步去完成的。在这个过程中,如果有一步出现故障,Flink会重复前面的步骤,重新去运行,所以不会出现数据的丢失和错误。
Why:为什么我们要用Flink
保证带状态计算下的精确一次语义,对于某些特定的计算而言非常有必要。
一般在流式处理框架中,数据的处理一般有两种方式,一种是按照处理时间来处理数据,另一种就是按照事件时间来处理数据,“事件时间语义支持”方式更为复杂。
Flink的API非常高级,在处理流式数据的逻辑业务中,效率更高。
如何在Windows下搭建Flink开发环境
Java 的安装和配置
在各个操作系统上安装和配置 Java 的教程有很多,这里有三个要点需要注意:
● Flink 编译和运行要求 Java 版本至少是 Java 8,且最好选用 Java 8u51 及以上版本
● 如果要能够编译 Flink 代码,需要安装 JDK
● 安装好 Java 后,还需要配置 JAVA_HOME 和 PATH
这三个要点在 mac 系统、Linux 系统及 Windows 系统上都是适用的。
Windows上安装 JKD8 方法如下:
在下面这个下载链接中下载并安装Windows对应的安装包https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
安装完成后查看 java8 的安装目录
配环境变量
检查 java 版本:java -version
Maven 的安装和配置
编译 Flink 要求必须使用 Maven 3,推荐使用 Maven 3.2.5。Maven 3.3.x 能够编译成功,但是在
shade 一些 dependencies 的过程中有些问题,故不推荐使用。
到官网下一下zip包
http://maven.apache.org/download.cgi
解压之后,记录下路径,在系统环境变量中添加 M2_HOME 和 MAVEN_HOME,最后在PATH中添加。
验证是否安装成功,在cmd输入命令mvn -version验证。 这样显示就代表成功了。
Git 的安装和配置
Git 的安装可以参考这篇文章:https://git-scm.com/book/en/v1/Getting-Started-Installing-Git
当我们完成上述安装配置后,我们就可以从 github 上下载 Flink 代码了。github 上 flink 的代码仓
库是 https://github.com/apache/flink
下载完了之后,我们可以把服务启起来玩一下
进入你下载的Flink代码目录,进入bin目录,双击执行start-cluster.bat文件
然后就可以看到有个java控制台启动了
进入http://localhost:8081/#/overview
我们就可以看到Flink的监控页面,下面是一些监控信息。
执行一个程序试试吧
进入flink源码的bin目录,执行:flink run D:\Flink_linked\flink-1.8.0\examples\b
atch\WordCount.jar
今天就到这里了。大家可以自己试试看执行执行demo什么的。也可以写一点程序自己执行一下。