要实现伸缩性架构,最重要的是使用集群,只要能做到向集群中加入服务器的数量和集群处理能力成正比,网站就能够无限增强处理能力。
一类是不同的服务器部署不同的服务实现伸缩性,这类问题通过纵向分离(分层后分离)和横向分离(业务分割后分离)实现;
另一类是集群中多台服务器部署相同的服务实现伸缩性,这类问题需要设计应用服务器和数据服务器的伸缩性。
一、应用服务器的伸缩性
应用服务器伸缩性的核心是无状态和负载均衡。
负载均衡服务器的分类:
a. Http重定向LB:需要两次请求;
b. DNSLB:DNS有缓存可能导致访问到下线的服务器;
c. 反向代理LB:成为所有请求和响应的中转站,压力大;
d. IPLB:通过修改数据包的IP地址实现;
e. 链路层LB:修改数据的MAC地址;
常用的LB算法有:轮询、加权轮询、随机、最少连接、源地址散列
二、缓存集群的伸缩性
1. Memcached模型
Memcached使用Key-Value形式存储和访问数据,在内存中维护一张巨大的HashTable,使得对数据查询的时间复杂度降低到O(1),保证了对数据的高性能访问。内存的空间总是有限的,当内存没有更多的空间来存储新数据时,memcached就会利用LRU算法将不常使用的数据淘汰掉。
Memcached本身并不是分布式缓存系统,它的分布式是由访问它的客户端实现的。
常用的路由算法有:
a. 余数Hash:算法简单,但一旦有服务器宕机或者要新增服务器就会导致缓存失效,引起雪崩。
b. 一致性Hash:服务器的增减不会引起雪崩效应,但当服务器节点较少时可能某台服务器压力过大。
c. 带虚拟节点的一致性Hash:每台服务器对应多个虚拟节点,避免某台服务器压力过大,寻址的过程多了一步从虚拟节点到服务器的映射。
三、数据服务器的伸缩性
1. 关系数据库集群的伸缩性
a. 读写分离:主server负责写入,并同步到从server,从server负责读取和数据分析。
要实现数据库的复制,需要开启Master服务器端的Binary log。数据复制的过程实际就是从slave从master获取binary log,然后再在本地镜像中执行日志中的操作。由于复制是异步的,因此只能保证最终一致性。
b. 数据分库
对ID按照表的数量取模,计算出数据存储在哪个数据库里。
c. 拆表
对ID按照表的数量取模,计算出数据存储在哪张表里。
常见的有Corba
2. Nosql集群的伸缩性
HBase的伸缩性依赖其可分裂的HRegion和可伸缩的HDFS实现。
HBase使用ColumnFamily。Hbase表的创建的时候就必须指定列族。
Rowkey的概念和mysql中的主键是完全一样的,Rawkey的设计。
TimeStamp对Hbase来说至关重要,因为它是实现Hbase多版本的关键。在Hbase中使用不同的timestame来标识相同rowkey行对应的不同版本的数据。
主要组建包括ZooKeeper、HMaster、HRegionServer、HRegion。
ZooKeeper的主要作用:
a. 分布式锁:选举记录主HMaster;
b. 集群管理:监控HRegionServer的状态,在HRegionServer故障时通知HMaster重新分配HRegion;
c. 通过Zoopkeeper存储元数据的统一入口地址。
HRegionServer:分布多个HRegion。
HMaster的主要作用:
a. 为RegionServer分配Region,当收到ZooKeeper的HRegionServer失效的通知时为HRegion重新分配HRegionServer;
b. 维护HRegionServer集群的负载均衡;
c. 当RegionSever失效的时候,协调对应Hlog的拆分。
HRegionServer的主要作用:
a. 处理来自客户端的读写请求;
b. 负责和底层HDFS的交互,存储数据到HDFS;
c. 负责Region变大以后的拆分;
d. 负责Storefile的合并工作。
寻址
第1步:Client请求ZK获取.META.所在的RegionServer的地址。
第2步:Client请求.META.所在的RegionServer获取访问数据所在的RegionServer地址,client会将.META.的相关信息cache下来,以便下一次快速访问。
第3步:Client请求数据所在的RegionServer,获取所需要的数据。
写操作
上图可以看出氛围3步骤:
Hbase的写入流程如下图所示:
第1步:Client获取数据写入的Region所在的RegionServer
第2步:请求写Hlog
第3步:请求写MemStore
只有当写Hlog和写MemStore都成功了才算请求写入完成。MemStore后续会逐渐刷到HDFS中。
HBase的伸缩性:
当表的数据量越来越大,Region越来越多的时候,只需要添加RegionServer,此时RegionServer向ZooKeeper写入节点,ZooKeeper通知HMaster为其分配HRegion。
HBase的可用性:
当某个HRegionServer异常时,ZooKeeper会监测到并通知HMaster,HMaster会将故障的RegionServer的Region重新分配给其他RegionServer,并通过Hlog将RegionServer的操作还原到新的RegionServer上。
HBase的高性能:
随着数据量增大,Region会越来越大,当Region的大小超过设定的阈值时会分裂,分裂后的Region可能位于同一个RegionServer,也可能位于不同的RegionServer。这就保证了Region不会太大以至于影响读写性能。