坨坨的大数据

发简信

坨坨的大数据

1
关注
279
粉丝
94
文章
221800

字数
428

收获喜欢
85

总资产

IP属地：广东

坨坨的大数据

spark 内存管理
1. spark 内存用不好是怎样的情况？ storage（缓存）已经存储在磁盘上，说明预留给缓存的内存偏少在一个stage 执行的若干个task中，甚至是 shuf...

1024 0 1
坨坨的大数据

Spark - 实现TopN
经典面试题两种方式方式一 1.按照key对数据进行聚合（groupByKey）2.将value转换为数组，利用scala的sortBy或者sortWith进行排序（mapV...

975 0 1
坨坨的大数据

Spark Shuffle
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析一、Spark 内存管理和消费模型过往文章：spark内存...

314 0 1
坨坨的大数据

Spark 处理小文件
1. 小文件合并综述 1.1 小文件表现不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长，查看Spark...

6102 1 5
坨坨的大数据

Spark之RDD超详细总结（三）
1. RDD 详解 RDD 是一个数据集的表示，不仅表示了数据集，还表示了这个数据集从哪来，如何计算，主要属性包括：分区列表计算函数依赖关系分区函数(默认是 hash...

674 0 2
坨坨的大数据

【Spark重点难点】你从未深入理解的RDD和关键角色
Spark Core 关于RDD你需要知道的 RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式...

457 0 1
坨坨的大数据

Spark对Parquet表的查询优化知多少？
1. 摘要主题：在这篇文章中可以找到一些简单的示例说明Spark在读取存储在 Parquet 中的分区表时的重要特性，尤其是性能调优。涵盖的主要主题是： •分区修剪•列投影...

1511 0 2
坨坨的大数据

Spark Streaming
Spark Streaming是核心Spark API的一个扩展，它并不会像Storm那样一次一个地处理数据流，而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Sp...

433 0 2
大数据学习

数据湖的基本特征
数据湖的基本特征可以从数据和计算两个层面进一步分析数据湖应该具备哪些特征。在数据方面： “保真性”。数据湖中对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。与数据仓...

1009 0 1