1.client写数据到MemStore,当数据量达到一定值后通过Flush,将数据保存到磁盘中StoreFile中，当StoreFile达到一定量值后，触发Compact操作，合并为一个文件，当数据达到一定量，触发split操作，分割为两个Region,两个region下线，由regionServer管理,同时删除一些存储空间（比如被delete标记的文件），会创建新的region

更新和添加都是在compact阶段。

HBase 自带MapReduce程序

1.导入Hadoop与Hbase的环境变量

2.使用HBase-server-cdh.jar中方法导入数据

Hive集成Hbase

Hive是存储在HDFS中，将SQL语句转化为MapReduce中的，通过Hive将表添加到HBase,Hive进行复杂的数据分析，同过HBase进行快速实时查询

hive整合Hbase

hive映射Hbase的表0.90,0.92上

Storage Headlers,Hbase所有jar包，拷贝到hive中即可

Hive表中的域都存储在HBase中，但是Hive表不需要包含Hbase中所有的列

方法：

直接拷贝hbase中的所有jar包到hive中，直接重启hive

创建hive表映射Hbase,指定存储headler和映射关系，hbase中表名称

HBase的集群调优

内存越大越好，不要低于32G,64位机器，swap减少或设置为0，scancaching调大，将超时时间调长，将线程数调大

HBase的Rest

找到restapi的使用指南后，执行以下命令启动RESTServer：

bin/hbase rest start -p4444 #端口自己指定即可

TResult对单行（Row）及其查询结果(若干colunmvalue)的封装

TGet对查询一行(row)的封装，可以设置行内的查询条件

TPut与TGet一样，只是它是写入若干“列”

TDelete与TGet一样，只是它是删除若干“列”

TScan对查询多行和多列的封装，有点类似于“cursor”

TRowMutations实际上是若干个TDelete和TPut的集合，完成对一行内数据的“原子”操作

python使用thrift连接Hbase

from thrift import Thrift

from thrift.transport import TSocket

from thrift.transport import TTransport

from thrift.protocol import TBinaryProtocol

from hbase import Hbase

from hbase.ttypes import *

transport = TSocket.TSocket('localhost', 9090);

transport = TTransport.TBufferedTransport(transport)

protocol = TBinaryProtocol.TBinaryProtocol(transport);

client = Hbase.Client(protocol)

transport.open()

contents = ColumnDescriptor(name='cf:', maxVersions=1)

client.createTable('test', [contents])

print client.getTableNames()

sqoop的使用

import

-D

sqoop.hbase.add.row.key=true

--connect

jdbc:mysql://192.168.1.9:3306/spider

ID,GOODS_NAME,GOODS_PRICE

注：参数含义解释

-D sqoop.hbase.add.row.key=true是否将rowkey相关字段写入列族中，默认为false，默认情况下你将在列族中看不到任何rowkey中的字段。注意，该参数必须放在import之后。

--connect数据库连接字符串

--username –password mysql数据库的用户名密码

--table Test_Goods表名，注意大写

--hbase-create-table如果hbase中该表不存在则创建

--hbase-table对应的hbase表名

--hbase-row-key hbase表中的rowkey,注意格式

--column-family hbase表的列族

--where导入是mysql表的where条件，写法和sql中一样

--split-by CREATE_TIME默认情况下sqoop使用4个并发执行任务，需要制订split的列，如果不想使用并发，可以用参数--m 1

importTsv的使用

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv'-Dimporttsv.separator=,' -Dimporttsv.columns='HBASE_ROW_KEY,city'-Dimporttsv.bulk.output=/user/yarn/output user_info /user/yarn