背景 对于亿级规模的数据量,使用传统数据库分析会比较低效且耗时。 这时就引入了OLAP引擎,本文以impala和spark为主进行介绍。 OLA...
当接到复杂的业务需求需要产出多张报表时,首先需要将需求理解透彻,然后梳理清楚包含哪些指标,然后设计报表的物理存储结构。 具体从以下角度出发: 1...
真真假假一查便知。 笔者以武汉为例说一下如何查证。 搜索武汉房管局,第一条就是,点击即可。 找到办事服务,点击商品房项目查询 找到你想要的楼盘 ...
1.使用explain查看执行计划 建表优化 2.开启动态分区配置,使用分区过滤3.分桶表 语法优化 a. 分区过滤和列过滤,减少数据量和降低读...
Spark UI 上面显示的 Storage Memory 可用内存其实等于 Execution 内存和 Storage 内存之和,也就是 us...
hive timestamp 与impala显示不一致 hive ''和null 不一致 导入hive \n\r 特殊字符 hive 动态分区插入
知音号里面的剧情是上世纪二三十年代的大武汉,船上有不同的角色,名伶、报童、商贾…… 你可以自由地穿梭在各个角落,在演员之间驻足,甚至与他们共舞对...
传统的离线 Batch SQL (面向有界数据集的 SQL)有三种基础的实现方式,分别是 Nested-loop Join(嵌套循环)、Sort...
Window概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而w...