登录注册写文章

HBase 数据迁移

HBase 数据迁移

数据来源

logs
RDBMS

ways of move data into HBase

HBase put API
HBase bulk load tool
自定义MR job
最常见的
RDBMS抽取数据
- JDBC,通用，实时性（全量/增量）
HBase插入数据
- 多线程，通用
kettle

import TSV

使用bulkload讲file装换成HFile后再上传：通常MapReduce在写HBase时使用的是tableOutPutFormat方式，在reduce中直接生成put对象写入HBase，该方式在大量的数据写入时效率低下，频繁使用flush，split，compact等大量I/O操作，并对HBase节点的稳定性造成一定影响，（GC时间过长，相应变慢，到直接点超时退出，引起一系列连锁反应）
HBase支持bulk load的入库方式，是利用HBase的数据信息按照特定格式存储在HDFS上的这一原理，直接在HDFS中生成持久化的HFile数据格式文件上传，即完成巨量数据快速入库的办法，配合MR使用，快捷高效，而且不占用region的资源，降低对HBase节点的压力
- 消除了HBase集群的插入压力
- 提高了job的运行速度

最后编辑于：2017.12.11 07:43:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

hbase数据迁移
导出：导入：
xiaoyushidai阅读 447评论 0赞 1
Hbase
HBase存储架构图 HBase Master 为Region server分配region 负责Region s...
kimibob阅读 5,782评论 0赞 52

15.HBase基础
1. HBase介绍，Hbase是什么？ HBase -- Hadoop Database ，是一个高可靠、高性能...
奉先阅读 3,981评论 1赞 36
🔝一共81个，开源大数据处理工具汇总（上） | 36大数据
//一共81个，开源大数据处理工具汇总（上） | 36大数据http://www.36dsj.com/archiv...
葡萄喃喃呓语阅读 3,105评论 0赞 15
不要只是想，要去行动
以前每年我都会给自己定很多年计划，不过几乎没有一个实现过。每次定计划的时候，我都会想自己要为这些计划学习哪些内容...
白白的成长日记阅读 1,230评论 0赞 1

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文