四.分布式数据库Hbase

4.1概述

1.2HBase简介:

HBase是一个高可靠,高性能,面向列,可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。Hbase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理超过10亿行数据和数百万列元素组成的数据表。

1.3Hbase与传统关系数据库的对比分析。

图片发自简书App

4.3HBase数据模型

3.2数据模型的相关概念

图片发自简书App

3.3数据坐标

四位坐标[行键,列族,列限定符,时间戳]


图片发自简书App

3.6面向列的存储

HBase采用DSM存储模型,DSM会对关系进行垂直分解,并为每个属性分配一个子关系。因此,一个具有n个属性的关系会被分解为n个子关系,每个子关系单独存储,每个子关系只有当前相应的属性被请求时,才会被访问。
DSM是以关系数据库中的属性或列为单位进行存储的,关系中多个元组的同一属性值会被存储在一起,而一个元组中的不同属性值通常会被存放在不同的磁盘页中。
HBase是以列族为单位进行分解,而不是每个列都不单独存储。

4.4

4.1HBase的功能组件

库函数,链接到每个客户端;一个Master主服务器;许多个Redion服务器
Master主服务器负责管理和维护HBase的分区信息。例如一个表被分成了哪些region,每个region被存放在哪个region服务器上。
Region服务器负责存储和维护分配给自己的Region,处理来自客户端的请求。

4.2表和Region

表中的行数很大,不能存储到一台机器上,需要根据行键的值对表进行分区,每个行区间构成一个分区,被称为"Region"。
Region是负载均衡和数据分发的基本单位。
这些Region被分发到不同的Region服务器上
初始时,每个表只包含一个Region,随着数据不断涌入,Region持续增大,当一个Region的行数达到一个阙值时,就会自动分成两个新的Region。

图片发自简书App

图片发自简书App

4.3Region的定位

一个Region标识符可以表示为"表明+开始主键+RegionID"
映射表包括"Region标识符+Region服务器标识"
映射表包含了关于Region 的元数据(即Region和Region服务器之间的对应关系),被称为"元数据表(.META表)"
元数据表也可能很大,一个服务器装不下,也需要分区存储到不同的服务器上,因此元数据表也被分成多个Region。
为了定位这些Region,在构建一个新的映射表,这个表就是"根数据表(-ROOT-表)"(根数据表不能再分割,永远只存在一个Region存放根数据表,因此这个用来存放-ROOT-表的唯一Region,他的名字被程序写死了,Master永远知道它的位置)。

图片发自简书App
图片发自简书App

客户端访问用户数据之前,首先访问Zookeeper,获取—ROOT—表的位置信息,然后访问—ROOT—表,获取.META.表的信息,接着访问.META.表找到所需的Region具体位置位于哪个Region服务器,最后才会到该服务器读取数据。

4.5运行机制

5.1HBase系统架构

客户端,Zookeeper服务器,Master主服务器,Region服务器。HBase一般采用HDFS作为底层数据存储。
客户端
客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据的访问。
对于管理类的操作,客户端与Master进行RPC,对于数据的读写类操作,客户端与Region服务器进行RPC。
Zookeeper服务器
在HBase服务器集群中,包含一个Master和多个Region服务器,Master就是这个集群的总管,他必须知道Region服务器的状态。
每个Region服务器必须到Zookeeper中进行注册,Zookeeper会实时监控每个Region服务器的状态,并通知Master。
Zookeeper还会从多个Master服务器中选取一个作为主管。
Zookeeper中保存—ROOT—表的地址和Master的地址
Master
主要负责表和Region的管理工作。
管理用户对表的增加,删除,修改,查询。
实现不同Region服务器之间的负载均衡。
在Region分裂或合并后,负责重新调整Region的分布。
对发生故障失效的Region服务器上的Region进行迁移。
Region服务器
Region服务器时HBase中最核心的模块,负责维护分配给自己的Region,并相应用户的读写请求。
Region一般采用HDFS作为底层存储文件系统。

图片发自简书App

4.6HBase编程实践

6.1常用的Shell命令

create:创建表
create '表名','列族名1','列族名2','列族名3'
put:向表,行,列指定的单元格添加数据
put '表名','行','列','要添加的值',时间戳
get:通过指定表名,行,列获得相应的单元格的值
get '表名','行','列1','列2'
scan:浏览表信息
scan '表名'
delete:删除指定单元格数据
delete '表名','行','列',时间戳

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 1. 简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用...
    LeeMin_Z阅读 920评论 0 1
  • 参考:https://www.jianshu.com/p/569106a3008f 最近在逐步跟进Hbase的相关...
    博弈史密斯阅读 853评论 1 1
  • 一、简介 Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分...
    菜鸟小玄阅读 2,384评论 0 12
  • 1. HBase介绍,Hbase是什么? HBase -- Hadoop Database ,是一个高可靠、高性能...
    奉先阅读 3,738评论 1 36
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,265评论 0 34