Flink 数据统计 举个栗子

一、统计流程

image.png

所有流计算统计的流程都是:

1、接入数据源

2、进行多次数据转换操作(过滤、拆分、聚合计算等)

3、计算结果的存储

其中数据源可以是多个、数据转换的节点处理完数据可以发送到一个和多个下一个节点继续处理数据

Flink程序构建的基本单元是stream和transformation(DataSet实质上也是stream)。stream是一个中间结果数据,transformation对数据的加工和操作,该操作以一个或多个stream为输入,计算输出一个或多个stream为结果,最后可以sink来存储数据。

image.png

包括数据源,每一次发射出来的数据结果都通过DataStream来传递给下一级继续处理

每一个Transformation要有2步:

1、处理数据

2、将处理完的数据发射出去

二、Flink的数据源

Flink提供数据源只需要实现SourceFunction接口即可。

SourceFunction有一个抽象实现类RichParallelSourceFunction

继承该实现类,实现3个方法,既可以自定义Source

public void open(Configuration parameters) //初始化时调用,可以初始化一些参数

public void run(SourceContext ctx)//发送数据

在该方法里调用ctx的collect方法将数据发射出去。

image.png

该例子中是每20秒发送出去一个Order类型的实体。

三、Flink的数据转换操作

Flink针对于不同的场景提供了不同的解决方案,减少了用户去关注处理过程中的效率问题。

常见的操作有下面这些:�“map”就是做一些映射,比如我们把两个字符串合并成一个字符串,把一个字符串拆成两个或者三个字符串。

“flatMap”类似于把一个记录拆分成两条、三条、甚至是四条记录,例如把一个字符串分割成一个字符数组。

“Filter”就类似于过滤。

“keyBy”就等效于SQL里的group by。

“aggregate”是一个聚合操作,如计数、求和、求平均等。

“reduce”就类似于MapReduce里的reduce。

“join”操作就有点类似于我们数据库里面的join。

“connect”实现把两个流连成一个流。

“repartition”是一个重新分区操作(还没研究)。

“project”操作就类似于SQL里面的snacks(还没研究)。

常见的操作有filter、map、flatMap、keyBy(分组)、aggregate(聚合)

具体的使用方式后面的例子中会体现。

三、窗口

流数据的计算可以把连续不断的数据按照一定的规则拆分成大量的片段,在片段内进行统计和计算。比如可以把一小时内的数据保存到一个小的数据库表里,然后对这部分数据进行计算和统计,而流计算只不过是实时进行的。

常见的窗口有:

1、以时间为单位的Time Window,例如:每1秒钟、每1个小时等

2、以数据的数量为单位的Count Window,例如:每一百个元素

Flink给我们提供了一些通用的时间窗口模型。

1、Tumbling Windows(不重叠的)

数据流中的每一条数据仅属于一个窗口。每一个都有固定的大小,同时窗口间彼此之间不会出现重叠的部分。如果指定一个大小为5分钟的tumbling窗口,那么每5分钟便会启动一个窗口,如下图所示:

image.png

2、Sliding Windows(重叠的)

与Tumbling窗口不同的是,在构建Sliding窗口时不仅需要指定窗口大小,还会指定一个窗口滑动参数(window slide parameter)来确定窗口的开始位置。因此当窗口滑动参数小于窗口大小时,窗口之间可能会出现重复的区域。

例如,当你指定窗口大小为10分钟,滑动参数为5分钟时,如下图所示:

image.png

3、Session Windows (会话窗口)

当数据流中一段时间没有数据,则Session窗口会关闭。因此,Session Windows没有固定的大小,无法计算Session窗口的开始位置。

image.png

四、Flink中的时间概念

Flink中有3中不同的时间概念

处理时间 Processing Time

指的是我们上面进行Transformation操作时,当时的系统时间。

事件时间 Event Time

指的是业务发生时间,每一条业务记录上会携带一个时间戳,我们需要指定数据中那一个属性中获取。

在按业务发生时间统计数据时,我们面临一个问题,当我们接收的数据的时间是无序的时候,我们什么时间去触发聚合计算,我们不可能无限制的等待。Flink引入了Watermark的概念,这个Watermark是添加在窗口上的,是告诉窗口我们最长等待的时间是多久,超过这个时间的数据就抛弃不再处理。

提取时间 Ingestion Time

指的是数据进入Flink当时的系统时间。

五、订单统计的例子

image.png

第四步:设置时间戳和Watermarks

DataStream marksSource = vilidatedSource.assignTimestampsAndWatermarks(newBoundedOutOfOrdernessTimestampExtractor(Time.minutes(1)){@OverridepubliclongextractTimestamp(Order o){returno.getTimestamp().getTime();            }        });

前面已经设置了使用EventTime来处理数据,那么在进行时间窗口计算前必须给数据分配获取时间戳的字段,这里设置了Order的timestamp字段为EventTime,同时这里也设置了一个1分钟的Watermarks,表示最多等待1分钟,业务发生时间超过系统时间1分钟的数据都不进行统计。

第五步:数据分组

KeyedStream keyedStream =                marksSource.keyBy("biz");//先以biz来Group

这里设置了以Order中biz字段进行分组,这就意味着所有biz相同的数据会进入到同一个时间窗口中进行计算。

第六步:指定时间窗口、聚合计算

DataStream>> results = keyedStream                .window(TumblingEventTimeWindows.of(Time.minutes(1)))                .aggregate(newOrderSumAggregator()).setParallelism(1);

这里设置了一个以1分钟为单位的不重叠的TumblingEventTimeWindow。

然后使用OrderSumAggregator来进行聚合计算。

需要注意的是如果最前面设置的是使用ProcessTime来处理数据,这里的窗口就会变成TumblingProcessTimeWinwow,前后必须一一对应,之前就因为前后不对应,统计结果不正确一直招不到原因。

六、聚合计算

上面例子中比较核心的部分就是聚合计算,也就是我们的OrderSumAggregator

聚合计算我们只需要实现Flink给我们提供的AggregateFunction接口,重写其方法即可。

ACC createAccumulator();//创建一个数据统计的容器,提供给后续操作使用。

ACC add(IN in, ACC acc);//每个元素被添加进窗口的时候调用。

第一个参数是添加进窗口的元素,第二个参数是统计的容器(上面创建的那个)。

OUT getResult(ACC acc);//窗口统计事件触发时调用来返回出统计的结果。

ACC merge(ACC acc1, ACC acc2);//只有在当窗口合并的时候调用,合并2个容器

其中这个容器根据情况也可以是在内存里提供,也可以是在其他存储设备中提供。

通过上面的例子我们就实现了按照业务时间来统计每分钟内的订单数量,订单最多可以延迟1分钟上报。

但是我们为了等待1分钟内上报的数据,造成了数据会延迟1分钟进行统计,例如8点02分我们才能统计到8点到8点01分上报的数据。

为了解决这个问题,我们可以给window再增加一个自定义的统计触发器,这个触发器可以在整点触发统计事件(也就是调用上面的getResults方法),这样就达到了8点到8点01分这个时间段的数据,在8点01分统计一次,在8点02分再重新统计一次(加上后面1分钟上报的数据)。

作者:和平菌

链接:https://www.jianshu.com/p/8de68a2a12aa

来源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容