C8H11O2N_4cd4 - 简书

C8H11O2N_4cd4

IP属地：重庆

Spark SQL
简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQ...

643 0 0
spark-Core
RDD解决的问题:1.中间结果保存在内存中,并且重用2.提供了通用的抽象的分布式的数据模型3.提供了多种数据操作模式(支持函数式编程):如map...

319 0 0

Spark_简单介绍
介绍:Spark是用于大规模数据处理的统一分析引擎 spark的引入:虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是...

699 0 0
Hive的基本的概述即使用参考
1.Hive的概述 √ 意义：在于大幅度降低工程师学习MapReduce的学习成本，让好用（计算速度快）的MapReduce更方便的使用（使用简...

399 0 0
SparkStreaming接收Kafka中数据的两种方式
kafka版本说明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiv...

599 0 0
YARN的运行流程简要步骤
1.client 向 ResourceManager提交应用程序，其中包括启动该应用的 ApplicationMaster 的必须信息，例如 A...

1691 0 0
MapReduce的shuffle阶段
map端的shuffle: 每个maptask的数据会进入环形缓冲区中,(默认100M,溢出比是80%),数据在写入时,会进行分区,往数据中添加...

391 0 0

初识MapReduce的八个步骤
Map阶段2个步骤第一步：设置inputFormat类，将我们的数据切分成key，value对，输入到第二步第二步：自定义map逻辑，处理我...

469 0 0
HDFS文件写入的简要步骤
1、client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传...

802 0 0