马上码 - 简书

发简信

12
关注
3
粉丝
18
文章
12836

字数
16

收获喜欢
1

总资产

IP属地：云南

马上码

hive学习笔记
一、什么是hive Hive是由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表并提供类...

2990 0 4
马上码

SPARK性能优化----对多次使用的RDD进行持久化
概述当你在Spark代码中多次对一个RDD做了算子操作后，恭喜，你已经实现Spark作业第一步的优化了，也就是尽可能复用RDD。此时就该在这个基础之上，进行第二步优化了，也...

3369 0 3
马上码

SPARK性能优化----尽可能复用同一个RDD
概述除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能的复用一个RDD。比如说，有一个RDD的数据格式是key-value...

4026 0 3
马上码

SPARK性能优化----避免创建重复的RDD
Spark的性能调优实际上是由很多部分组成，不是调节几个参数就可以立竿见影的，我们需要根据不同的业务情况以及数据情况，对Spark作业进行综合性的分析，然后进行多方面的调节和...

3870 0 4

暂无个人介绍