实时样本拼接:将推荐下发的特征流和用户行为流进行实时拼接,生成流式训练样本。

image.png
flink流式拼接
方案一:依托于flink 的实时有状态计算能力,利用interval join 进行双流join,生成实时样本。
Interval Join 通过定义一个时间间隔来指定两个事件可以被关联的时间范围。

image.png
方案二:将实时特征流放入KV缓存,用户行为流通过 look up join 拼接样本。
look up join 允许实时流数据与外部系统的维度数据进行关联。

image.png