IP属地:浙江
一、AQE特性 自适应查询执行(AQE)是Spark SQL中的一种优化技术,它利用运行时统计信息来选择最有效的查询执行计划,也就是说可以根据执...
一、Shuffle流程 1、Shuffle定义 Spark之所以出现Shuffle,主要是因为具有某种共同特征的一类数据需要最终汇聚到一个计算节...
Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 在执行Spark的应用程序时,Spark集群会启动...
Spark任务从提交到执行完成有很多步骤,整体上可以划分为三个阶段: 应用的提交; 执行环境的准备; 任务的调度和执行。 一、执行流程概述 Sp...
1、窗口函数 常用到的Hive窗口函数具体有:row_number()、rank()、dense_rank() 这三个窗口函数,具体区别主要有:...
一、Rowkey设计 1、Rowkey长度原则 Rowkey是一个二进制码流,Rowkey的长度建议设计在10-100个字节,最好不要超过16个...
Hive作为大数据领域常见的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大、数据倾斜、job(小文件过多)或者...
一、基础配置 我们公司yarn node节点的可用资源配置为:单台node节点可用资源数:核数33cores、内存110G。Hive on Sp...