简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQL查询引擎的作用。 引入 Hi...
简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQL查询引擎的作用。 引入 Hi...
RDD解决的问题:1.中间结果保存在内存中,并且重用2.提供了通用的抽象的分布式的数据模型3.提供了多种数据操作模式(支持函数式编程):如map,ruduce,foreach...
介绍:Spark是用于大规模数据处理的统一分析引擎 spark的引入:虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的...
1.Hive的概述 √ 意义:在于大幅度降低工程师学习MapReduce的学习成本,让好用(计算速度快)的MapReduce更方便的使用(使用简单) √ 基本概念:Hive是...
kafka版本说明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiver是使用Kafka的高层次C...
1.client 向 ResourceManager提交应用程序,其中包括启动该应用的 ApplicationMaster 的必须信息,例如 ApplicationMaste...
map端的shuffle: 每个maptask的数据会进入环形缓冲区中,(默认100M,溢出比是80%),数据在写入时,会进行分区,往数据中添加一个分区属性,当数据写入到80...
Map阶段2个步骤 第一步:设置inputFormat类,将我们的数据切分成key,value对,输入到第二步 第二步:自定义map逻辑,处理我们第一步的输入数据,然后转换成...
1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传; 2、client请求第一个...
作用(用于消息中间件) 1.可以作为缓冲(流量消减)--防止高并发 2.分布式 3.解耦合 分片机制 简要介绍: 1.Kafka可以将主题划分为多个分区(Partition)...
RDB: 介绍: 一种基于快照机制实现的持久化方案, 会将一个服务器某个时刻的一个状态整体保存下来.快照文件非常小,一般只有几kb左右. 优点: 持久化的文件非常小,适合于做...
1. 服务器启动,运行服务提供者。 2. 服务提供者在启动时,向注册中心(zookeeper)注册自己提供的服务。 3. 服务消费者在启动时,向注册中心订阅自己所需的服务。 ...