1.目的
副本是昂贵的--在HDFS中默认的3副本机制有200%的存储空间和其它的资源(比如:网络带宽)开销。然而,相对于低 I/O 活动的暖数据集和冷数据集,在正常的操作期间对其额外的副本很少访问,但是仍然消耗与第一副本相同数量的资源。
因此,一个自然的改进是使用纠删码(Erasure Coding)替代副本机制,它使用更少的存储空间提供相同的容错级别,一个典型的纠删码设置,会使得存储空间的开销不超过50%;一个EC文件的副本因子是无意义的,它一直保持为1,并且不能通过命令 -setrep修改EC的副本因子的值。
2.背景
磁盘阵列(RAID)是在存储系统中,使用EC最出名的。RAID使用条带的方式实现的EC,它提供逻辑上序列的数据(比如文件)到更小的单元(比如比特、字节、或块),并存储连续的单元到不同的磁盘上。在本指南的其余部分,这种条带分布单元被称为条带单元(或者单元),对于每一个条带原始数据单元,计算并存储一定数量的奇偶校验单元,这个过程叫做编码。通过对剩余的数据和奇偶校验单元解码计算,可以恢复任意条带单元的错误。
将EC和HDFS集成可以提高存储效率,然而同样提供传统的基于副本机制的HDFS持久化部署,例如:3副本的文件有6个块,将会消耗 6*3 = 18个块的磁盘空间,但是使用EC(6个数据,3个校验)部署,他将只消耗9个块的磁盘空间。
3.框架
在EC的环境中,条带有若干主要的优点,首先,它能在线EC(使用EC的格式直接写数据),避免转换阶段,直接节省存储空间。在线EC通过并行利用多磁盘主轴增强I/O性能;这在高性能的网络的集群中尤其需要。其次,它自然的分发小文件到多个DataNodes,消除了将多个文件绑定到一个编码组的需要,这会很大的简化文件的操作,比如删除、配额汇报和在联邦集群中不同的Namespace之间迁移数据等。在典型的HDFS集群中,小文件占总存储空间3/4以上的消耗,为了更好的支持小文件,在第一阶段工作中,HDFS支持条带的EC。在未来,HDFS也会支持连续的EC布局,查看设计文档,更多的信息在issue HDFS-7285中讨论。
3.1.NameNode扩展
条带的HDFS文件是由逻辑上的块组构成,每个块组包含一定数量的内部块,为了减少额外的块对NameNode内存消耗,提出了新的分层块命名协议,块组的ID可以从它的内部块的任意ID中推断出来,这允许块组级别的管理,而不是块级别的。
3.2.客户端扩展
客户端读写路径被增强,可以并行处理一个块组的多个内部块;在输出/写入路径,DFSStripedOutputStream 用于管理一组数据流,每个数据流对应一个DataNode,该DataNode在当前块组中存储一个内部块,这些数据流大多是异步工作;协调器负责操作整个块组,包括结束当前的块组、分配新的块组等等。在输入 / 读路径,DFSStripedInputStream 将请求的逻辑字节范围的数据转换为存储在DataNodes上的内部块的范围,然后并行的发布读请求,在出现故障时,它发出额外的读请求用于解码。
3.3.DataNode扩展
DataNode会运行一个额外的ErasureCodingWorker (ECWorker)任务用于后台恢复失败的EC块,当NameNode检测到一个失败的EC块,它会选择一个DataNode去做恢复的工作,恢复任务通过心跳响应传递至DataNode,这个过程类似于副本块重新复制失败的数据块,重建失败的块有3个主要的任务:
1)从源节点读取数据
使用专用的线程池并行的读取输入数据,基于EC策略,它将所有的读请求调度到所有的源节点,并且只读取最小数据量的输入块数用于重构。
2)解码数据并生成输出数据
从输入数据中解码出新的数据块和奇偶校验块,所有丢失的数据块和校验块一起解码。
3)传输生成的数据块到目标节点
解码完成后,恢复的数据块被传输到目标DataNode节点。
3.4.纠删码策略
为了使纠删码策略适合异构的工作方式,我们允许HDFS集群上的文件和目录具有不同的副本和纠删码策略,纠删码策略封装了如何编码/解码文件,每一个策略由以下信息部分定义:
3.4.1.EC约束
这个包括在EC组(比如:6+3)中数据块和校验块的数量,以及编解码器算法(比如:Reed-Solomon, XOR)
3.4.2.条带单元的大小
这决定了条带读写的粒度,包括缓冲区大小和编码工作。
策略被命名为数据块数量-校验块数量-块单元的大小,当前支持6种内置策略:RS-3-2-1024k, RS-6-3-1024k, RS-10-4-1024k, RS-LEGACY-6-3-1024k, XOR-2-1-1024k 和REPLICATION。
REPLICATION是一种特殊的策略,它只能被设置在目录上,强制目录采用3副本策略,而不是继承它的祖先的纠删码策略,该策略使3副本目录与纠删码目录交叉成为可能。
REPLICATION 策略是一直启用的,而其它的内置策略在默认的情况下是禁用的。
类似于HDFS存储策略,纠删码策略是设置在目录上的,当一个文件被创建,它继承离它最近的祖先目录的EC策略。
目录级别的EC策略只影响在该目录下创建的新文件,一旦一个文件已经被创建,它的纠删码策略可以被查询,但是不能改变,如果一个纠删码文件被重命名到一个不同的EC策略的目录中,该文件会保留它之前存在的EC策略,转换一个文件到不同的EC策略需要重写它的数据,重写数据是通过拷贝文件(比如:通过distcp)而不是重命名文件。
我们允许用户通过XML文件的方式去定义它们自己的EC策略,该XML文件必须要有下面的3部分:
1)layoutversion: 表示EC策略文件格式的版本。
2)schemas:这个包括所有用户定义的EC约束
3)policies: 这个包括所有用户定义的EC策略,每个策略由schema id和条带单元的大小(cellsize)构成,
在hadoop conf目录中有一个名称叫 user_ec_policies.xml.template的样本EC策略的XML文件。
<?xml version="1.0"?>
<!--
这是用户定义EC策略配置的模板,所有的策略和约束都在'configuration'标签之内,'configuration'标签是该XML文档的顶级元素, 'layoutversion'标签中包含该EC策略XML文件格式的版本, 'schemas'标签中包含用户定义的EC约束,'policies' 标签中包含所有用户定义的EC策略,每一个策略由schema id 和cellsize组成。
-->
<configuration>
<!-- The version of EC policy XML file format, it must be an integer -->
<layoutversion>1</layoutversion>
<schemas>
<!-- schema id is only used to reference internally in this document -->
<schema id="XORk2m1">
<!-- The combination of codec, k, m and options as the schema ID, defines
a unique schema, for example 'xor-2-1'. schema ID is case insensitive -->
<!-- codec with this specific name should exist already in this system -->
<codec>xor</codec>
<k>2</k>
<m>1</m>
<options> </options>
</schema>
<schema id="RSk12m4">
<codec>RS</codec>
<k>12</k>
<m>4</m>
<options> </options>
</schema>
<schema id="RS-legacyk12m4">
<codec>RS-legacy</codec>
<k>12</k>
<m>4</m>
<options> </options>
</schema>
</schemas>
<policies>
<policy>
<!-- the combination of schema ID and cellsize(in unit k) defines a unique
policy, for example 'xor-2-1-256k', case insensitive -->
<!-- schema is referred by its id -->
<schema>XORk2m1</schema>
<!-- cellsize must be an positive integer multiple of 1024(1k) -->
<!-- maximum cellsize is defined by 'dfs.namenode.ec.policies.max.cellsize' property -->
<cellsize>131072</cellsize>
</policy>
<policy>
<schema>RS-legacyk12m4</schema>
<cellsize>262144</cellsize>
</policy>
</policies>
</configuration>
3.5.IntelISA-L
因特尔ISA-L代表因特尔智能存储加速库,ISA-L是为存储应用程序优化的底层函数开源的集合,它包括在AVX 和AVX2指令集上快速的块 Reed-Solomon类型的纠删码优化,HDFS纠删码可以利用ISA-L去加速编解码计算,ISA-L支持大多数开源的操作系统,包括linux和windows,ISA-L默认是不启动的,有关如何启动ISA-L,请看下面的说明。
4.部署
4.1.集群和硬件配置
纠删码在集群的CPU和网络方面提出了额外的要求。
编码和解码工作会消耗HDFS客户端和DataNodes上额外的CPU。
纠删码文件也分布在机架之间,用于机架容错,这意味着当读取和写入条带文件,大多数操作是在机架外的,因此,网络对分带宽非常重要的。
对于机架容错来说,至少拥有与配置的EC条带宽度相同的机架数量也是很重要的,对于EC策略RS (6,3),这意味着至少要有9个机架,理想的情况下要有10或者11个机架用于处理计划内和计划外的停机。对于机架数量少于条带宽度的集群,HDFS不能维护机架容错,但是仍然会分散条带文件到多个节点为了节点级别的容错。
4.2.配置的关键字
默认情况下,所有内置的纠删码策略是被禁用的,但是定义在参数dfs.namenode.ec.system.default.policy中的除外,该策略在默认情况下是启用的。集群管理员可以根据集群的大小和希望的容错属性使用命令hdfs ec [-enablePolicy -policy <policyName>]启用一组策略;例如,对于一个拥有9个机架的集群,类似RS-10-4-1024k 这样的策略不能达到机架级别的容错,而策略RS-6-3-1024k 或者RS-3-2-1024k更适合。如果管理员只关心节点级别的容错,在至少有14个DataNodes的集群中策略RS-10-4-1024k也是适合的。
系统默认的EC策略可以通过参数‘dfs.namenode.ec.system.default.policy’ 来配置,在这种配置下,当命令 ‘-setPolicy’没有指定策略名称的参数时,默认的策略将会被使用。
默认情况下,参数 ‘dfs.namenode.ec.system.default.policy’ 的值为“RS-6-3-1024k”,使用Reed-Solomon和XOR实现的编解码器可以使用客户端和DataNode节点指定如下的关键字配置:io.erasurecode.codec.rs.rawcoders用来指定默认的RS编解码器,io.erasurecode.codec.rs-legacy.rawcoders用于指定legacy RS编解码器,io.erasurecode.codec.xor.rawcoders用于指定XOR编解码器;用户也可以使用类似关键字io.erasurecode.codec.self-defined-codec.rawcoders来配置自定义的编解码器。这些关键字的值是带有回退机制的编码器名称的列表。这些编解码器工厂以指定的配置的值有序的被加载,直到一个编解码器被成功的加载,默认的RS和XOR编解码器配置更喜欢本地实现,而不是纯java实现;RS-LEGACY没有本地编解码器实现,因此默认的只能是纯java的实现;所有这些编解码器都有纯java的实现;对于默认的RS编解码器,它也有一个本地实现,利用英特尔 ISA-L库提高编解码器性能;对于XOR编解码器,也支持利用英特尔 ISA-L库提升编解码的性能的本地实现;请参阅“Enable Intel ISA-L”获取更详细的信息。默认的RSLegacy的实现是纯java的,默认的RS和XOR是使用了因特尔ISA-L库本地实现的,在DataNodes上的纠删码后台恢复工作也可以使用下面的参数被调优:
1)dfs.datanode.ec.reconstruction.stripedread.timeout.millis--条带读取超时时间,默认值 5000 ms
2)dfs.datanode.ec.reconstruction.stripedread.buffer.size--读取服务的缓存大小,默认值 64K
3)dfs.datanode.ec.reconstruction.threads-- DataNode用于后台重构工作的线程数量,默认值 8 个线程
4)dfs.datanode.ec.reconstruction.xmits.weight--与副本块恢复相比,EC后台恢复任务使用的xmits 的相对权重,默认值0.5,设置它的值为0去禁用计算EC恢复任务的权重,也就是说,EC任务总是1 xmits。通过计算出读数据流的数量和写数据流的数量的最大值来计算出纠删码恢复任务的xmits。例如,如果一个EC恢复任务需要从6个节点读取数据,往2个节点写入数据,它拥有的 xmits 是max(6, 2) * 0.5 = 3,复制文件的恢复任务总是计算为1xmit,NameNode利用dfs.namenode.replication.max-streams减去DataNode上总的xmitsInProgress(合并来自副本文件和EC文件的xmits) ,以便调度恢复任务到这个DataNode。
4.3.启用英特尔ISA-L
HDFS利用因特尔ISA-L库去提高默认的RS本地实现的编解码器的编解码计算速度,开启并使用英特尔ISA-L库,需要3步:
1)构建ISA-L库,请参阅官方的网站 “https://github.com/01org/isa-l/” 获取详情信息。
2)构建带有ISA-L支持的Hadoop,请参阅源码中BUILDING.txt文件中的 “Build instructions for Hadoop”中的“Intel ISA-L build options”部分。
3)使用-Dbundle.isal拷贝 isal.lib 目录中的内容到最终的tar文件中。
使用该tar文件部署Hadoop,确保ISA-L是在HDFS客户端和DataNodes端是可用的。为了验证ISA-L能够被Hadoop正确的检测到,运行命令 hadoop checknative来验证。
4.4.管理员命令
HDFS提供了EC的子命令用于执行纠删码相关的管理命令。
hdfs ec [generic options] [-setPolicy -path <path> [-policy <policyName>] [-replicate]] [-getPolicy -path <path>] [-unsetPolicy -path <path>] [-listPolicies] [-addPolicies -policyFile <file>] [-listCodecs] [-enablePolicy -policy <policyName>] [-disablePolicy -policy <policyName>] [-help [cmd ...]]
下面是关于每个命令的详情:
4.4.1. -setPolicy
[-setPolicy -path <path> [-policy <policyName>] [-replicate]]
在指定的目录的路径上设置纠删码策略。
path:HDFS中的目录,这是一个强制的参数,设置一个策略只影响新创建的文件,不影响已经存在的文件。
policyName:在这个目录下的文件上使用的纠删码策略,如果配置了参数‘dfs.namenode.ec.system.default.policy’,这个参数可以被省略,这时路径的EC策略将会被设置成配置文件中的默认值。
-replicate:在目录上应用指定的REPLICATION策略,强制目录采用3副本复制方案。
-replicate 和-policy <policyName>是可选的参数,它们不能同时被指定。
4.4.2. -getPolicy
[-getPolicy -path <path>]
获取在指定路径上目录或者文件的纠删码策略的详情。
4.4.3. -unsetPolicy
[-unsetPolicy -path <path>]
取消之前使用setPolicy 在目录上设置的纠删码策略。如果目录是从祖先中继承的纠删码策略,unsetPolicy 是一个空操作,即在没有明确设置策略的目录上取消策略将不会返回错误。
4.4.4. -listPolicies
[-listPolicies ]
列出所有在HDFS中注册的纠删码策略,只有启用的策略才能使用setPolicy 命令。
4.4.5. -addPolicies
[-addPolicies -policyFile <file>]
添加一个纠删码策略的列表,请参阅模板策略文件etc/hadoop/user_ec_policies.xml.template,最大的条带单元大小被定义在属性 ‘dfs.namenode.ec.policies.max.cellsize’ 中,默认值是4MB,当前的HDFS中总共允许用户添加64个策略,被添加的策略ID的范围是64~127,如果已经有64个策略被添加,再添加策略将会失败。
4.4.6. -listCodecs
[-listCodecs]
获取系统中支持的纠删码编解码器和coder列表。一个coder是一个编解码器的实现,一个编解码器可以有不同的实现,因此会有不同的coder,编解码器的coders采用后备的顺序被列出。
4.4.7. -removePolicy
[-removePolicy -policy <policyName>]
移除一个纠删码策略。
4.4.8. -enablePolicy
[-enablePolicy -policy <policyName>]
启用一个纠删码策略
4.4.9. -disablePolicy
[-disablePolicy -policy <policyName>]
禁用一个纠删码策略。
5.局限性
由于大量的技术挑战,在纠删码文件上不支持某些HDFS的写操作,比如hflush, hsync 和append操作。
在纠删码文件上使用append()将会抛出IOException。
在DFSStripedOutputStream 上执行hflush() 和hsync()是空操作,因此,在纠删码文件上调用hflush() 或者hsync()不能保证数据被持久化。
客户端可以使用StreamCapabilities 提供的API去查询一个OutputStream 是否支持hflush() 和hsync(),如果客户端渴望数据通过hflush() 和hsync()持久化,当前的补救措施是在非纠删码目录中创建3副本文件,或则使用FSDataOutputStreamBuilder#replicate()提供的API在纠删码目录中创建3副本文件。