历经版本迭代更新,spark sql中原本带有模式信息的RDD即SchemaRDD,在spark1.3之后变成了新的数据结构 DataFrameRDD是风不是的java对象的...
InnoDB基础架构 InnoDB存储引擎具有多个内存块,组成一个内存池。内存池: 维护所以进程线程需要访问的多个内部数据结构 缓存磁盘文件数据,方便快速存取,同时对磁盘文件...
Hadoop生态系统底层是HDFS存储系统,在此之上是HBase和MapReduce,再往上是Pig和Hive。Pig适用于流处理,应用场景为ETL工具。Hive是适用于批处...
NoSQL的四大类型 键值数据库 如redis 列式存储数据库 如HBase 图数据库 如Neo4J 文档数据库 如MangoDB NoSQL的三大基石 CAPConsist...
HBase的数据模型 HBase基于HDFS进行底层数据存储,HBase是谷歌内部工具BigTable的一个开源实现,BigTable基于DFS。HBase是一个稀疏多维的排...
NameNode 包含两种重要数据结构 FsImage:保存系统文件树FsImage记录内容包括:访问权限,块大小以及组成文件的块,文件的复制等级和文件的修改访问时间。 Ed...
架构简要介绍在前几片博客提过了 Spark的消息通信原理 通信模块类图 首先看一下Spark的消息通信的类图 最核心的是左上角的虚线框的四个类首先定义了RpcEnvFacto...
之前的集群容错处理模型比如MapReduce,Dryad等,都是将计算转换为一个DAG,是的模型能有效的恢复DAG中的故障和慢节点执行的任务,但是没有提供除了文件系统之外的其...
参考Spark官方文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html Spark shell以...
Spark 集群架构 架构图如下: 图中出现了以下几个实体: Application :Spark的应用程序,由集群上的一个Driver结点和多个Executor组成。 Dr...
学习资料来源于:《Hadoop权威指南》https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hadoo...
MapReduce工作机制 书中第7章 MapReduce的作业运行机制 通过调用Job对象的submit()方法或者waitForCompletion()方法,我们可以运行...