作者:clark010
出处:http://www.jianshu.com/u/f9af3f199145
版权:本文版权归作者所有
转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任
背景
HBase的snapshot及restore都不涉及文件的移动和拷贝,操作耗时在秒级别;因为底层依赖的HDFS FileSystem不支持硬链接,所以HBase自己实现了一套FileLink的逻辑,每次snapshot都只是进行文件的link而不实际移动数据,而这保证了snapshot操作的效率(虽然不可避免的需要进行一下内存flush,但基本最耗时的消耗都在flush这一下)。下面会通过源码的角度解析一下HBase snapshot的实现。
** 本文基于HBase-1.1.2版本代码分析 **
整个Snapshot相关内容会分为四篇Blog,本文为第一篇
-
第一篇 - 简介
- Snapshot命令行
- Snapshot相关存储路径
- 主要Java类
-
第二篇 - Snapshot源码分析
- Take Snapshot
-
第三篇 - Restore源码分析
- Restore Snapshot
-
第四篇 - Clone/Delete源码分析
- Clone Snapshot
- Delete Snapshot
Snapshot命令行
-
list_snapshots
- 列出所有已经存在的snapshot
-
snapshot <tableName> <snapshotName> [{SKIP_FLUSH => true}]
- 对table做snapshot
-
clone_snapshot <snapshotName> <tableName>
- 通过某一个snapshot clone一个新表
-
restore_snapshot <snapshotName>
- 从某一个snapshot对表做restore(需要先disable掉相关的hbase表)
需要注意一下,使用snapshot功能需要在hbase-site.xml打开snapshot开关
<property>
<name>hbase.snapshot.enabled</name>
<value>true</value>
</property>
更多命令的详细介绍可以参考HBase Wiki
Snapshot相关存储路径
/[hbase-root]
|__ .hbase-snapshot 存储所有snapshot的元信息
|__ .tmp/ snapshot的workDir,临时数据存放
|__ [snapshot name]
|__ .snapshotinfo snapshot的元信息
|__ data.manifest snapshot相关hfile的元信息
|__ data
|__ [namespace]
|__ [table]
|__ .tabledesc
|__ .tableinfo.[id]
|__ [encode region]
|__ .regioninfo
|__ [column family]
|__ [HFile / Link Files] HBase底层支持HFile及链接文件
|__ .links-[regionName] back reference,用于快速的删除无用的引用文件
|__ [ref files]
|__ .....
|__ archive
|__ data
|__ [namespace]
|__ [table]
|__ [encode region]
|__ [column family]
|__ [HFile / Link Files]
|__ WALs / oldWALs / ......
主要Java类
- Client:
-
HBaseAdmin
- 入口类
-
- Master:
-
MasterRpcServices
- 接收Client端的RPC请求 SnapshotManager
-
EnabledTableSnapshotHandler extends TableSnapshotHandler
- 在线表 -
DisabledTableSnapshotHandler extends TableSnapshotHandler
- 离线表 -
ProcedureCoordinator
- 用于提交分布式snapshot事务 Procedure
ZKProcedureCoordinatorRpcs extends ProcedureCoordinator
-
SnapshotFileCache
- 缓存snapshot引用文件,用于判断文件是否deletable -
SnapshotFileCleaner
- 清理snapshot文件线程
-
- RegionServer:
-
RegionServerSnapshotManager
- 监控分布式任务,并创建管理具体子任务 FlushSnapshotSubprocedure
-
RegionSnapshotTask
- FlushSnapshotSubprocedure内部类 -
HRegion
- 调用snapshot接口,处理具体的snapshot任务 -
SnapshotManifest
- Utility class to help read/write the Snapshot Manifest -
SnapshotManifestV2/SnapshotManifestV1
- SnapshotManifest内存数据结构
-