第二次分享内容--数据分片与数据路由

1. 概念介绍


数据分片与数据路由

在大数据背景下,数据规模已经由GB级别跨越到PB级别。单机明显无法存储如此规模的数据量,只能依靠大规模集群来对这些数据进行存储和处理,所以系统可扩展性成为衡量系统优劣的重要指标。
  传统并行数据库为了支持更多的数据,往往采用纵向拓展的方式,即不增加机器数量,而是通过改善单机硬件资源配置来解决问题。
  而目前主流的大数据存储与计算系统通常采用横向拓展的方式支持系统可拓展性,即通过增加机器数目来获得水平拓展能力。
  与此对应,对于存储待处理的海量数据,需要通过数据分片(share/patition)来将数据进行切分合并到各个机器中去。数据分片后,如何能够找到某条记录的存储位置就成为必然 要解决的问题,这一般被称为数据路由(routing).

数据分片与数据复制

数据分片与数据复制是紧密联系的两个概念,对于海量数据,通过数据分片实现系统的水平扩展能力,通过数据复制保证数据的高可用性。
由于机器可能存在隐患,为了保证数据不丢失,可将数据备份起来,客户端可从多个备份数据中选择物理距离较近的进行读取,增加了读操作的并发性又可以提高单次读的读取效率。

image.png

数据复制虽然带来了很多好处,但是也引入了相应的问题:
每份数据都存在多个副本,在并发对数据进行更新时如何保证数据的一致性就成为关键问题。
今天主要关注的问题是数据分片与路由的相关技术。


分片方式

常见的数据分片方式包括哈希分片与范围分片。
1.抽象模型
数据分片与路由的抽象模型,可以看成一个二级映射关系。

  • 第一级key-partition映射是将数据记录映射到数据分片,一个数据分片可以包含多条数据记录;
  • 第二级partition-machine映射是将数据分片映射到物理机器中,一个物理机器可以包含多个数据分片。
数据分片与路由的抽象模型
  • 数据分片时,根据key-partition映射关系将数据水平分割成数据分片,再根据partition-machine映射关系将分片存入对应的物理机器中;
  • 数据路由时,根据key-partition映射关系查找到对应的数据分片,然后根据partition-machine得出具体存储该数据的物理机器,之后从该物理机器读取值。
  1. 哈希分片
    数据分片的常见手段是采取哈希函数,常见的哈希分片方式分别是:
  • 哈希取模法
    假设有K台机器,对其编号从0到K-1。对于key关键字的记录,根据H(key)哈希函数求出存储该数据的机器编号,从而实现数据分片。数据路由也使用相同的哈希函数。

       H(key)=hash(key) mod K
    

    Round Robin的优点是实现非常简单。
    缺点是缺乏灵活性,因为每台物理机器对应一个数据分片,抽象模型中两个映射关系都采取了同一个哈希函数,造成了集群中机器个数和哈希函数的紧耦合,因此只要机器个数发生变化,哈希函数发生变化,需要重新进行数据分片。

  • 虚拟桶
    所有记录通过哈希函数映射到虚拟桶,一个虚拟桶可以包含多条记录,这是第一层映射关系,虚拟桶其实就是数据分片;第二层映射通过查表实现,一个物理机器可容纳多个虚拟桶。

虚拟桶的运行机制
  • 一致性哈希
    一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法.
    一致性哈希是在分布式环境下,每台机器负责存储部分数据,通过哈希方式对数据进行操作的方法。
    侧重一致性哈希原理
    http://blog.csdn.net/cywosp/article/details/23397179

    把数据通过一定的hash算法处理后映射到环上
    现在我们将object1、object2、object3、object4四个对象通过特定的Hash函数计算出对应的key值,然后散列到Hash环上。如下图:
    Hash(object1) = key1;
    Hash(object2) = key2;
    Hash(object3) = key3;
    Hash(object4) = key4;

    侧重一致性哈希在分布式系统中应用的实际情况 。
    http://blog.csdn.net/bzhxuexi/article/details/46422027
    (1) 环形Hash空间
  1. 范围分片
    所有记录根据主键进行排序,再从排序好的记录中划分数据分片,每个分片存储的是一段记录。一般会保存一个数据分片的映射表,表记录数据分片中记录的最小主键值以及对应的机器地址。


    范围分片

内容来源

大数据日知录
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容