TiDB整体架构
TiDB集群主要包括三个核心组件:TiDB Server,PD Server和TiKV Server。此外,还有用于解决用户复杂OLAP需求的TiSpark组件和简化云上部署管理的TiDB Operator组件。
- PD Server:整个集群的管理者,主要存储元数据,进行负载均衡。分配全局唯一的事务ID。(TiDB是支持分布式事务的)
- TiDB Server:负责接收SQL请求的。通过PD中存储的元数据找到数据存储在哪个TiKV上,并与TiKV进行交互将结果返回给客户端。(SQL请求的解析和查询结果的返回)
- TiKV Server:负责真正存储数据的。本质上是一个KV存储引擎。
- TiSpark:解决用户的复杂的OLAP查询需求的组件。
- TiDB Operator:方便云上部署的组件。
TiDB核心特性
TiDB的两大核心特性为:水平扩展和高可用。
1.高度兼容MySQL
大多数情况下,无需修改代码即可从MySQL轻松迁移至TiDB,分库分表后的MySQL集群亦可通过TiDB工具进行迁移。
2.分布式事务支持
TiDB100%支持标准的ACID事务。
3.一站式HTAP(Hybird Transactional/Analytical Processing混合的事务和分析处理)解决方案
TiDB作为典型的OLTP行存储数据库,同时兼具强大的OLAP性能,配合TiSpark,可提供一站式HTAP方案,一份存储同时处理OLTP&OLAP,无需传统繁琐的ETL过程。
OLTP
在线事务处理:强调支持短时间内大量并发的事务操作(增删改查)能力,每个操作设计的数据量都很小(比如几十到几百字节),强调事务的强一致性。
OLAP
在线分析处理:偏向于复杂的只读查询。读取海量的数据进行分析计算,查询时间往往很长。
4.云原生SQL数据库
TiDB是为云而设计的数据库,支持公有云、私有云和混合云的部署。配和TiDB Operator工具可实现自动化运维,使部署、配置和维护变得十分简单。
5.水平弹性扩展
通过简单地增加节点即可实现TiDB的水平扩展,按需扩展或存储,轻松应对高并发,海量数据场景。
6.真正金融级高可用
相比于传统主从复制方案,基于Raft(数据一致性协议)的多数派选举协议可以提供金融级100%的数据一致性保证,且在不丢失大多数副本的前提下,可以实现故障的自动回复(auto-failover),无需人工介入。
水平扩展
无限水平扩展是TiDB的一大特点,这里说的水平扩展包括两方面:计算能力(添加TiDB)和存储能力(添加TiKV)。
TiDBServer负责处理SQL请求,随着业务增长可简单添加TiDB Server节点,提高整体的处理能力,提供更高的吞吐。
TiKV负责存储数据,随和数据量的增长,可以部署更多的TiKV Server节点解决数据扩展的问题。
PD会在TiKV节点之间以Region为单位调度,将部分数据迁移到新加的节点上。
在业务早期,可以只部署少量的服务实例(推荐至少部署3个TiKV,3个PD,2个TiDB),随着业务的增长,按照需求添加TiKV或者TiDB实例。
高可用
TiDB、TiKV、PD这三个组件都能容忍部分实例失效,不会影响整个集群的可用性。
1.TiDB
TiDB是无状态的,推荐至少部署2个实例,前端可通过负载均衡组件对外提供服务。单当个实例失效时,会影响正在这个实例上运行的Session,从应用的角度看,会出现单次请求失败的情况,重新连接后即可继续获得服务。单个实例失效后,可以重启这个实例或者部署一个新的实例、
2.PD
PD是一个集群,推荐至少部署3个实例,通过Raft协议保证数据的一致性,当单个实例失效时,如果它不是Raft的leader那么服务完全不受影响;如果它是leader,Raft协议会重新选举出新的leader,自动恢复服务。PD在选举的过程中无法对外提供服务,耗时大约3秒。
2.TiKV
TiKV是一个集群,通过Raft协议保证数据的一致性(副本数量可配置,默认保存3副本,通过PD做负载均衡调度),当单个节点失败时,会影响这个节点存储的所有Region。对于Region中的leader节点,会中断服务,等待重新选举。对于Region中的follower节点,不会影响服务。当某个TiKV节点失效,并且在一段时间内(默认30分组)无法恢复,PD会将其上的数据迁移到其他的TiKV节点上。
TiDB存储和计算能力
存储能力-TiKV
TiKV通常部署3台以上。TiDB每份数据默认为3副本,这一点与HDFS相似,但是通过Raft协议进行数据复制,TiKV Server上的数据是以Region为单位进行,由PD Server集群进行统一调度,类似HBASE的Region调度。
TiKV集群存储数据的格式是KV结构,并不是直接存储在本地磁盘上,而是先将数据给RocksDB,由RocksDB存储在磁盘上。RocksDB存储数据使用LSM树(日志结构合并树),可以支持高效的写操作,从而提高了集群整体的随机读写性能。
HBASE底层的wam预写日志也用了LSM树,避免了B+树叶子节点膨胀带来的大量随机读写。
计算能力-TiDB Server
TiDB Server本身是无状态的,意味着当计算能力成为瓶颈的时候,可以直接扩容机器,对用户是透明的。理论上TiDB Server的数量并没有上限限制。