简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQ...
RDD解决的问题:1.中间结果保存在内存中,并且重用2.提供了通用的抽象的分布式的数据模型3.提供了多种数据操作模式(支持函数式编程):如map...
介绍:Spark是用于大规模数据处理的统一分析引擎 spark的引入:虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是...
1.Hive的概述 √ 意义:在于大幅度降低工程师学习MapReduce的学习成本,让好用(计算速度快)的MapReduce更方便的使用(使用简...
kafka版本说明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiv...
1.client 向 ResourceManager提交应用程序,其中包括启动该应用的 ApplicationMaster 的必须信息,例如 A...
map端的shuffle: 每个maptask的数据会进入环形缓冲区中,(默认100M,溢出比是80%),数据在写入时,会进行分区,往数据中添加...
Map阶段2个步骤 第一步:设置inputFormat类,将我们的数据切分成key,value对,输入到第二步 第二步:自定义map逻辑,处理我...
1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传...