袖珍分布式系统(一)

本文是Distributed systems for fun and profit的第一部分,本文是阅读该文后的一些记录。

Introduction

看了好多分布式系统,如Amazon's Dynamo, Google's BigTable and MapReduce, Apache's Hadoop等,那这些系统背后有没有什么共性的东西呢?本文试图去带领大家阐述这些系统背后的思想。

在作者看来,distributed programming主要是在处理分布式带来的两个主要的影响:

  1. information travels at the speed of light
  2. independent things fail independently

具体怎么理解呢?

信息的传输速度是光速,虽然已经很快了,但是还是需要时间的,另一个系统要处理的错误不仅一类,而是会很多,而且这些错误之间没有联系,彼此独立。

作者希望通过本文,让读者能认识对distance, time and consistency models怎么交互有个更好的理解。

Distributed systems at a high level

Distributed programming is the art of solving the same problem that you can solve on a single computer using multiple computers.

分布式系统遇到的问题和单机系统是一样的,只是解决同一个问题的时候,其系统的constraints不同了。

计算机系统主要解决两类问题

  1. 计算
  2. 存储

市面上各种框架其可以划分为两个领域的战争,一个是偏向底层存储的战争,一个是偏向计算的战争

偏向存储的战争有关系型数据库和非关系型数据库(Relational vs NoSQL)的战争,它们两者都有各自的应用特点。

  • 关系型数据库最大的特点是事务的一致性,读写操作都是事务的,具有ACID的特点,它在银行这样对一致性有要求的系统中应用广泛。
  • 而非关系型数据库一般对一致性要求不高,但支持高性能并发读写,海量数据访问,在微博、Facebook这类SNS应用中广泛使用。

另外,非关系型数据库内部也有战争,比如说HBase和Cassandra,前者注重一致性(Consistency)和可用性(Availability),后者提供可用性(Availability)和分区容错性(Partition tolerance)

Redis和Memcached,它们都是内存内的Key/Value存储,但Redis还支持哈希表,有序集和链表等多种数据结构。

MongoDB,CouchDB和Couchbase这三个文档型数据库,MongoDB更适用于需要动态查询的场景,CouchDB偏向于预定义查询,Couchbase比CouchDB有更强的一致性,而且还可以作为Key/Value存储。

搜索引擎Solr和Elasticsearch的,它们都是基于Lucene,性能上相近,但是前者在Java/C#开发者中大受欢迎,而后者深受Python/PHP开发者喜爱。

偏向计算的战争有MapReduce和Spark之间的战争,此外还有Spark Streaming和Storm之间的战争等等。

以上关于计算和存储的讨论来自深入浅出Spark(1)什么是Spark

回到本文的内容上:我们为什么需要分布式?理论上如果单机系统有无限的内存,极致的计算速度,那我们是没必要将系统设计为分布式的,因为分布式引入了一些列问题,但是呢,我们没有money啊,我们只能妥协了,用平价机器来实现高性能。

下面回答第二个问题:我们通过分布式希望得到什么?

在作者看来所有的问题起源都是:size - scalability

everything starts with the need to deal with size

everything starts with size - scalability

那什么是scalability呢?

Scalability is the ability of a system, network, or process, to handle a growing amount of work in a capable manner or its ability to be enlarged to accommodate that growth.

scalability:伸缩性,系统伸缩性好意味着当系统处理growing amount of work的时候,即使处理难度不是线性增长的,也应该是可预测的,而不是指数级增长的。

那什么是growing amount of work呢?作者又举了3个具体的例子:

  • Size scalability: adding more nodes should make the system linearly faster; growing the dataset should not increase latency
  • Geographic scalability: it should be possible to use multiple data centers to reduce the time it takes to respond to user queries, while dealing with cross-data center latency in some sensible manner.
  • Administrative scalability: adding more nodes should not increase the administrative costs of the system (e.g. the administrators-to-machines ratio).

上面的讨论我们可以看到每个例子都试着从存储和计算两方面进行解释,然后每个处理都是在time,distance和consistency的抉择。

随着系统size的增加,我们的设计需要不断满足实际的需求,而这些需求主要来自于

  • performance
  • availability

Performance (and latency)

而这两方面在实际系统中的测量方式也有很多,先来看performance

Performance is characterized by the amount of useful work accomplished by a computer system compared to the time and resources used.

性能主要是通过计算机系统有效工作占计算时间和资源的比例来衡量的,更具体来说:

  • Short response time/low latency for a given piece of work
  • High throughput (rate of processing work)
  • Low utilization of computing resource(s)

低延迟,高吞吐,低利用率

先看延迟

Latency:The state of being latent; delay, a period between the initiation of something and the occurrence.

Latent:From Latin latens, latentis, present participle of lateo ("lie hidden"). Existing or present but concealed or inactive.

延迟:一件事情发生到真正产生影响

举个例子:假设一个数据中心,有一个功能是通过计算所有数据,然后返回一个结果

result = query(all data in the system)

对于上面这个请求,影响延迟的因素是什么呢?

  1. the amount of old data
  2. the speed at which new data "takes effect" in the system

是1还是2呢?

我们可以知道如果系统处理query的速度和新数据在系统中生效的速度一样,那么我们会发现query将永远不会返回,因此真正决定延迟的是2.

另外一点我们需要注意的是:延迟是因为有新数据的产生,那如果系统没有产生数据,那就没有延迟一说。

最后一点我们无法忽略的延迟是:

  • the speed of light limits how fast information can travel, and
  • hardware components have a minimum latency cost incurred per operation (think RAM and hard drives but also CPUs).

信息传输产生的延迟以及硬件本身产生的延迟。

因此决定延迟的因素有:

  1. 操作本身的耗时
  2. 信息传输延迟

看完性能后,我们看下一个分布式系统的主需求:可用性

Availability (and fault tolerance)

Availability the proportion of time a system is in a functioning condition. If a user cannot access the system, it is said to be unavailable.

单机系统相比较于分布式系统永远无法达到的一点是:高可用或者说容错

分布式系统可以通过一群不可靠的组件,最后达到一个高可用的系统,这就是分布式的魅力。

那我们来看下什么是容错(fault tolerance)

Fault tolerance:ability of a system to behave in a well-defined manner once faults occur

从定义我们可以看到,首先我们要规定问题边界:要处理的错误,基于定义好的错误我们去开发算法去解决它。如果系统发生了我们从未考虑的错误,那何来谈容错一说。

What prevents us from achieving good things?

分布式系统受限于两个物理约束:

  • the number of nodes (which increases with the required storage and computation capacity)
  • the distance between nodes (information travels, at best, at the speed of light)

简单来说就是数量和距离,上面的物理限制在增加节点的时候会带来:

  • an increase in the number of independent nodes increases the probability of failure in a system (reducing availability and increasing administrative costs)【降低可用性和管理成本】
  • an increase in the number of independent nodes may increase the need for communication between nodes (reducing performance as scale increases)【通信成本增加降低系统性能】
  • an increase in geographic distance increases the minimum latency for communication between distant nodes (reducing performance for certain operations)【多数据中心增加通信成本】

上面说了这么多限制,那怎么定义系统好不好呢?总的来说是从 performance 和 availability 来看,具体衡量则是我们经常说的SLA(service level agreement)。

除了 performance 和 availability 外,还有一个很重要的点是: intelligibility,即系统好不好理解,如果系统设计的非常好,但是只有设计的人懂,那这种系统价值也是不大的。

Abstractions and models

抽象帮我们做减法,只剩下本质的东西,而模型则将抽象具现化,让我们能更精确的定义抽象的东西。

我们来举一些具体的模型的例子,这些也是之后章节会讲的东西:

  • System model (asynchronous / synchronous)
  • Failure model (crash-fail, partitions, Byzantine)
  • Consistency model (strong, eventual)

我们设计分布式系统的目标是:work like a single system,但是现实中我们有很多的节点需要处理,我们很难让使用者在无感知的情况下使用分布式系统,模型越是简单,意味着提供给用户的功能越是抽象,如果用户想要获得更好的性能,更高级的功能,只能穿过给用户提供的抽象,去看系统的实现细节。

Design techniques: partition and replicate

为了存储更多的数据,我们将数据保存到不同的节点上,为了让运算更快,我们将同一份数据copy多份,让多个实例进行计算,一个很好的总结是:

Divide and conquer - I mean, partition and replicate.

Partitioning

  • Partitioning improves performance by limiting the amount of data to be examined and by locating related data in the same partition【数据分片后减少数据大小从而提高性能】
  • Partitioning improves availability by allowing partitions to fail independently, increasing the number of nodes that need to fail before availability is sacrificed【每个数据片失败都是独立的,提供了可用性】

Replication

To replication! The cause of, and solution to all of life's problems.

复制是应对延迟的有效手段

  • Replication improves performance by making additional computing power and bandwidth applicable to a new copy of the data
  • Replication improves availability by creating additional copies of the data, increasing the number of nodes that need to fail before availability is sacrificed

复制来到好处的同时,也带来了很多问题,最大的就是数据一致性问题,只有当模型是 strong consistency 的时候,我们才会得到一个简单的编程模型(和单机系统一致),其他模型我们都好去理解系统内部是怎么做的,这样子才能很好的满足我们的需求。

以上就是第一部分概述的所有,下面第二部分将会更具体的介绍分布式系统的相关概念。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容

  • 未完待续……
    三顺_1884阅读 238评论 2 1
  • 说到落差这个东西,我第一反应就是剪头发啊!知道为什么么?因为我是高度近视! 每次我洗头剪头发都是处于朦胧状态,然后...
    昕海薇阅读 446评论 2 4
  • 桑克尔还在悲鸣。 我望着灰暗的天空,身上使不出一丝力气,直到雨落在眼睛里,眼睑才挣扎着恢复生机。此刻我该想些什么,...
    不才子阅读 217评论 0 1