1.原始数据 2.目标数据 sql实现
1.原始数据 2.目标数据 sql实现
原文 行宫元稹·唐寥落古行宫,宫花寂寞红。白头宫女在,闲坐说玄宗。 声平24321, 11442.22134, 24121. 译文及注释 译文曾经富丽堂皇的古行宫已是一片荒凉...
说明 postgresql从9.5版本开始新加入了group by的分组集合功能,提供了GROUPING SETS,CUBE,ROLLUP参数,使用方式与oracle[htt...
一.pom.xml 二、测试代码 三、常见的坑 3.1 pom文件的scala版本和idea手动导入版本不一致 pom.xml 的scala版本是 2.11修改办法是: 冲突...
代码:
背景 Flink LookupTableSource 通过使用流数据的一列或者多列的值,加载外部存储数据(维表数据),进而完成对流数据的字段扩展。在维表数据不频繁变更的情况下...
一、数据传输形式 Stream在算子之间传输数据的形式可以是one-to-one(forwarding)的模式也可以是redistributing的模式,具体是哪一种形式,取...
一、介绍 所有的Flink程序都是由三部分组成的: Source 、Transformation 和 Sink。 Source 负责读取数据源,Transformation...
1.导出女装类目2020年整体销额,订单数,销量 2.导出2018年4月总销额大于2000元的商品,整年的订单数,销量,购买用户数,总金额 3.导出2019年订单单价在如下价...
一个算子就是一个Task. 一个算子的并行度是几, 这个Task就有几个SubTask
一、问题引入 问题引入:比较上面两张图,图1中,相同算子操作放在不同的slot中,图2中一个算子操作占用一个slot。如果flink window操作比较复杂,那么图2中就会...
思考问题:1.怎么样实现并行计算?答:设置并行度。多线程,不同任务放到不同线程上。 2.并行的任务,需要占用多少slot? 3.一个流处理程序,到底包含多少个任务? 一、Ta...
一、flink运行时架构图https://ci.apache.org/projects/flink/flink-docs-release-1.11/fig/processes...
前言:因为hive支持开窗函数的缘故,会在某些场景比mysql省很多事,该篇以网上流传的50道SQL题为例,比较SQL和HQL的实现。21题难度最大。附上万能图解:Join图...
1.下载jar包 随便弄个IDEA的Maven项目,项目中导入依赖,此时Maven仓库里面就会有这些东西,注意hive-jdbc版本要对应上,否则连不上报错 此时用搜索软件搜...
一、flink运行时的组件 1.1 JobManager-作业管理器 JobManager控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManag...