1. HDFS架构:
1. 架构综述:
HDFS是master/slave架构。HDFS集群包含一个namenode和多个datanode;namenode管理文件系统namespace,并且管理客户端对文件的访问。datanode用来管理数据存储。
Namenode存储元数据信息。一个文件在被存进HDFS之前,被切分成多个“数据块”。对于之前的设定,通常replication=3, 每个块会被冗余成3个块,存储在不同的datanode中,对于每一个数据块和datanode的mapping关系(每一个数据块存储在哪个datanode节点上)存储在namenode中。NameNode响应文件系统客户端的读和写请求,Namenode接受客户端的元数据操作请求(Metadata ops),并下发给Datanode 块操作(Block ops)。DataNode在Namenode的操作说明支持下,执行数据块的创建、删除、创建副本等操作。
对于最后的读写操作,客户端直接从Datanode读数据和写数据(Namenode会动态分配给Client离它最近的Datanode,“客户端是指运行在datanode上的程序”)。
HDFS上的文件,可以创建、删除、移动或重命名,当文件创建、写入和关闭之后不能修改文件内容。
2. Namenode功能:
(1)Namenode决定数据块的复制。
(2)周期性的获得集群的datanode的心跳(Heartbeat)和块状态报告(Blockreport)。
(3)HDFS的中心服务器;负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
(4)客户端(Client)访问HDFS集群的入口。
(5)响应给客户端的数据直接由datanode传出。Namenode负责文件元数据的操作,Datanode负责处理文件内容的读写请求。
(6)读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取延时。副本存在哪些datanode上由Namenode来控制。
3. DataNode功能:
(1)存储数据,以块为单位进行存储(128M)。数据块在Datanode以文件存储在磁盘上,包括2个文件,一个是数据本身,一个是元数据(数据块长度、块数据的校验和、时间戳)。
(2)每隔一个小时向namenode报告块的状态(1H);
(3)周期性向namenode注册(心跳),如果Namenode超过10分钟没有收到某个Datanode的心跳信息,则认为该Datanode不可用,不再读取该datanode数据和向该datanode写入数据。
(4)在线加入/卸载服务器。
4. DataBlock Replication
假如replication factor是3,那么同一个数据块有3份。那么这3份冗余的数据块的存储规则一般情况下是: 在本机架的一个node上存第一个;在同一机架的不同node上存第二个;在不同机架的不同node上存第三个。为了节省带宽和降低读取延时,HDFS会选取一个离客户端最近的那个数据块(三个数据块中)。
5. 安全模式(safemode):
启动时,namenode进入safemode状态。在safemode状态时,不发生数据块的复制。Namenode获取Datanode的心跳和块报告。每一个文件块有一个配置的最小的副本数。当Namenode确认每个块的副本数达到配置的数目后,离开安全模式。之后,如果有小于配置数量的块,namenode开始复制这些块。
Namenode保存2个文件,分别是EditLog和FsImage。EditLog,记录文件系统元数据改变的事务日志。整个文件系统namespace,包括数据块到文件的映射、文件系统属性存储在FsImage中。在namenode启动时,FsImage会读入内存中,按照EditLog的内容(事务日志)执行FsImage,生成一个新的FsImage。同时,将EditLog内容清空。所以,如果EditLog的内容很大的话,会影响Namenode的启动速度。
2. Secondary Namenode
(1)Secondary Namenode
Namenode将对文件系统的修改日志保存在edits log中。当Namenode启动时,Namenode从fsimage中读取HDFS的状态,并将edits log中的日志事务应用执行在fsimage,这样会得到一个新的fsimage,并清空edits log。
因为Namenode只会在启动时做该操作。如果集群比较繁忙,edits log就会变得很大,这样在namenode启动时,就会需要大量时间来执行edits log中的事务。
Secondary Namenode定时合并edits log 到fsimage,来保证edits log在一个比较小的范围内。一般情况下,Secondary namenode与 Namenode节点在不同的机器上。
(2)常用配置项:
dfs.namenode.checkpoint.period :配置两个连续checkpoint之间的时间间隔,默认是1小时。
dfs.namenode.checkpoint.txns :配置设置强制checkpoint的最大的事务数,默认是1 million,如果上边的时间未达到,但是达到了这个设置的事务数,业务触发checkpoint(Secondary Namenode合并fsimage和edits log)。
(3)配置Secondary Namenode节点:
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop-namenode.ipma.com:50090</value>
</property>
3. Yarn
1. Yarn基本概念名词介绍:
在hadoop 0.x版本,mapreduce执行所有的功能,从hadoop 2.x开始,开始分出mapreduce和yarn。
JobTracker分出2个功能: 资源管理、作业调度/监控。 ResourceManager 、 ApllicationMaster.
ResourceManager:管理系统资源、任务调度;Applications管理(启动/监控ApplicationMaster);处理客户端请求;监控namenode。
ApplicationMaster : 从ResourceManager申请资源; 和Namenode一起执行和监控任务;作为job任务的管理者。
resource Container:对任务运行环境的抽象;包含内存、cpu、磁盘、网络等一系列信息;任务运行资源、任务启动命令、任务运行环境。
NodeManager:单个节点上的资源管理和任务管理、处理来自ResourceManager的命令;处理来自ApplicationMaster的命令。
2. Yarn任务运行流程:
(1)resourcemanager收到客户端请求。
(2)resourcemanager会去生产一个application master,作为当前job任务的管理者。会随机的在某一个namenode上产生一个Application Master。
(3)application master再去向resource manager申请资源。
(4)resource manager响应application master的资源申请。
(5)application master分派任务给其他nodemanager(container)。
(6)nodemanager接受到任务指派以后,开始执行job任务。
(7)nodemanager执行完成以后向管理者报告。
(8)application master向resourcemanager报告。