flink - operator - KeyedStream - KeyedProcessFunction

描述
  1. 数据在KeyBy后对key按hash结果进入对应的KeyedProcessFunction subtask
  2. 同个key的数据的所有数据都会进入同一个KeyedProcessFunction subtask
  3. 不同key的数据也有可能进入同一个KeyedProcessFunction subtask
  4. 同一个KeyedProcessFunction subtask中所有数据共享普通变量
  5. 同一个KeyedProcessFunction subtask中同一个key的数据共享状态变量,不同key的数据不共享状态变量
  6. 不同KeyedProcessFunction subtask中所有变量均不共享
  7. 提供了RuntimeContext的使用
  8. 提供了Watermark和ProcessingTime的访问
  9. 提供了timerService的使用,当数据即将触发定时器时,先执行processElement函数,再执行onTimer函数
  10. 提供了侧输出流的使用
输入

KeyedStream

输出

DataStream

KeyedProcessFunction
声明一个自定义KeyedProcessFunction类
  class MyProcessFunction(自定义类参数) extends KeyedProcessFunction[key数据类型, input数据类型, output数据类型] {
  // 必须实现processElement方法
      override def processElement(value: input数据类型, ctx: KeyedProcessFunction[key数据类型, input数据类型, output数据类型]#Context, out: Collector[output数据类型]): Unit = {
        ...
        }
}

// 使用
dataStream
.keyBy(...)
.process(new MyProcessFunction(...))


// 在processFunction中使用状态一个valueState
lazy val myState: ValueState[Long] = getRuntimeContext.getState(
      new ValueStateDescriptor[Long]("myState", classOf[Long])
    )
    
// 在processFunction中使用timerService计时器功能
    // 声明一个基于eventTime的计时器, 当该task中的数据eventTime到达触发时间戳时,就会调用onTimer方法,并清除该计时器。 ctx在processElement方法和onTimer方法中均能使用
ctx.timerService().registerEventTimeTimer(触发时间戳,单位毫秒)
    // 声明一个基于processTime的计时器,当processTime到达触发时间戳时,该task会调用onTimer方法,并清除计时器
ctx.timerService().registerProcessingTimeTimer(触发时间戳,单位毫秒)
// 手动删除一个eventTime计时器,需要指定计时器对应的时间戳
ctx.timerService().deleteEventTimeTimer(计时器触发时间戳)
// 手动删除一个processTime计时器,需要指定计时器对应的时间戳
ctx.timerService().deleteProcessingTimeTimer(计时器触发时间戳)

// 实现onTimer方法
override def onTimer(timestamp: Long, ctx: KeyedProcessFunction[key数据类型, input数据类型, output数据类型]#OnTimerContext, out: Collector[output数据类型]): Unit = {
  ...
  //其中timestamp为声明计时器时指定的eventTime或processTime
}

// 访问task中的watermark,watermark与eventTime对齐
ctx.timerService().currentWatermark()
// 访问task中的processTime
ctx.timerService().currentProcessingTime()
// 使用侧输出流
ctx.output(new OutputTag[output数据类型]("定义测输出流id"), output value)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转自 http://www.ibm.com/developerworks/cn/education/java/j-...
    抓兔子的猫阅读 2,360评论 0 22
  • 概述 以Flink算子的视角为入口,解析它们是如何设计和工作的。 重点在AbstractStreamOperato...
    铛铛铛clark阅读 8,741评论 0 9
  • 每一个想学习Java多线程的人,手里至少有这本书或者至少要看这本书。强烈建议大家多看几遍。 代码中比较容易出现bu...
    玥玥籽阅读 954评论 0 0
  • 1:DLNA简述: DLNA是Digital Living Network Alliance(数字生活网络联盟)的...
    sxyxsp123阅读 2,099评论 0 3
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,613评论 28 53