240 发简信
IP属地:北京
  • 120
    Flink 面试通关手册

    概述 2019 年是大数据实时计算领域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (内部的 Flink 分支版本)开源,大数据领域一夜间从 Spark 独步天下...

  • 120
    端到端exactly-once(翻译官方)

    1 概述 在Flink1.4.0中,发布了一个叫做TwoPhaseCommitSinkFunction的特性,该逻辑抽取两阶段提交协议常规逻辑,使得可以构建端到端的exact...

  • 120
    Flink--Checkpoint机制原理

    基于flink-1.8.1 本文转载自一文搞懂Flink内部的Exactly Once和At Least Once 如何理解flink中state(状态) state泛指 s...

  • 120
    【Hive】MR 工作流程(数据流转)

    Hive是基于Hadoop的一个数据仓库工具。通过hive,我们可以方便地进行ETL的工作。Hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的...

  • 【Hive】hql语法转MR任务

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.说白了,hive就是MapReduce客户端,将用户编写的HQL语法...

  • 120
    Python精讲Numpy基础,大牛笔记详细解释

    以前总认为Numpy是渣渣,直到深入接触以后才知道功能这么强大。堪比Matlab啊。果然是人生苦短,我用Python。所以本文作为一个记录&笔记,文章内容大多数取自网络以&官...

  • 120
    浅谈调度工具——Airflow

    本文将介绍 Airflow 这一款优秀的调度工具。主要包括 Airflow 的服务构成、Airflow 的 Web 界面、DAG 配置、常用配置以及 Airflow DAG ...

  • 四种优化 Apache Flink 应用程序的方法

    使用 Flink Tuples 当你使用类似于groupBy,join, 或者keyBy算子时,Flink 提供了多种用于在你的数据集上选择 key 的方法。你可以使用 ke...