Flink 实时计算在微博的应用

Flink 实时计算在微博的应用
https://zhuanlan.zhihu.com/p/375032985
Flink GitHub 地址
https://github.com/apache/flink

一、微博介绍
二、数据计算平台介绍
1. 数据计算平台概况
基于 K8s 和 Yarn 分别部署了实时数据处理的 Flink、Storm,以及用于离线处理的 SQL 服务。
结合 Hive 的 SQL,SparkSQL 构建一个 SQL 计算服务

    实时计算的作业将近 1000 多个,离线作业超过了 5000 多个,每天处理的数据量超过了 3 PB。
2. 数据计算
    实时计算:也提供一些基础的 flink 实时计算和 storm 实时计算。
    离线计算:离线计算主要包括 SQL 计算。主要包括 SQL 的即席查询、数据生成、数据查询和表管理。
    表管理主要就是数仓的管理,包括表的元数据的管理,表的使用权限,还有表的上下游的血缘关系。
3. 实时特征
    基于 Flink 和 Storm 构建了一个实时特征生成的服务
4. 流批一体
    基于 FlinkSQL 构建的批流一体
    目前调度层支持的计算引擎主要就是 HiveSQL,SparkSQL 跟 FlinkSQL。Hive 和 Spark 的 SQL 主要用于批量计算,FlinkSQL 是做批流混跑。
5. 数据仓库
    建立实时数仓主要是去解决离线特征生成的周期长的问题
    另外就是使用 FlinkSQL 去解决 streaming 作业开发周期比较长的问题。
    其中的一个关键点还是离线数仓跟实时数仓的元数据的管理。

三、Flink 在数据计算平台的典型应用

  1. 流式机器学习
    特征的实时化和模型的实时化
    2.微博流式机器学习的特点:
    3.流式机器学习有几个比较难的问题
    4.流失机器学习流程
    5.样本
    6.样本平台
    7.流式机器学习项目的样本 UI
    8.流失机器学习的应用
  2. 多模态内容理解
    1.简介
    2.平台
    3.UI
  3. 内容去重服务
    1.背景
    2.架构
    3.应用
    4.最后
    我们通过将 Flink 实时流计算框架跟业务场景相结合,在平台化、服务化方面做了很大的工作,在开发效率、稳定性方面也做了很多优化。
    我们通过模块化设计和平台化开发,提高开发效率。
    目前实时数据计算平台自带全链路监控,数据指标统计和 debug case 追踪(日志回看)系统。另外,基于 FlinkSQL 在批流一体这块目前也有一定的应用。这些都是 Flink 给我们带来的一些新的变化,我们会持续不断的探索 Flink 在微博中更大的应用空间。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言 在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现...
    zhisheng_blog阅读 4,263评论 1 8
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,606评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,231评论 4 8
  • 步骤:发微博01-导航栏内容 -> 发微博02-自定义TextView -> 发微博03-完善TextView和...
    dibadalu阅读 3,185评论 1 3
  • 回这一趟老家,心里多了两个疙瘩。第一是堂姐现在谈了一个有妇之夫,在她的语言中感觉,她不打算跟他有太长远的计划,这让...
    安九阅读 3,537评论 2 4