1. spark 内存用不好是怎样的情况? storage(缓存) 已经存储在磁盘上,说明 预留给缓存的内存偏少 在一个stage 执行的若干个task中, 甚至是 shuf...
1. spark 内存用不好是怎样的情况? storage(缓存) 已经存储在磁盘上,说明 预留给缓存的内存偏少 在一个stage 执行的若干个task中, 甚至是 shuf...
经典面试题两种方式 方式一 1.按照key对数据进行聚合(groupByKey)2.将value转换为数组,利用scala的sortBy或者sortWith进行排序(mapV...
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析 一、Spark 内存管理和消费模型 过往文章:spark内存...
1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark...
1. RDD 详解 RDD 是一个数据集的表示,不仅表示了数据集,还表示了这个数据集从哪来,如何计算,主要属性包括: 分区列表 计算函数 依赖关系 分区函数(默认是 hash...
Spark Core 关于RDD你需要知道的 RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式...
1. 摘要 主题:在这篇文章中可以找到一些简单的示例说明Spark在读取存储在 Parquet 中的分区表时的重要特性,尤其是性能调优。涵盖的主要主题是: •分区修剪•列投影...
Spark Streaming是核心Spark API的一个扩展,它并不会像Storm那样一次一个地处理数据流,而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Sp...
数据湖的基本特征 可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面: “保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓...