TDSQL简介:
分布式数据库 TDSQL(TencentDBforTDSQL,TDSQL)是部署在腾讯云上的一种支持自动水平拆分、Shared
Nothing架构的分布式数据库。分布式数据库即业务获取的是完整的逻辑库表,而后端会将库表均匀的拆分到多个
物理分片节点。TDSQL默认部署主备架构,提供容灾、备份、恢复、监控、迁移等全套解决方案,适用于 TB或 PB
级的海量数据库场景。
mycat简介:
它是一个开源的分布式数据库系统,是一个实现了 MySQL 协议的的Server,其核心功能是分表分库,即将一个大表水平分割为 N 个小表,存储在后端 MySQL 服务器里或者其他数据库里,它的后端可以支持 MySQL、SQL Server、Oracle、DB2、PostgreSQL 等主流数据库,也支持 MongoDB 这种新型 NoSQL 方式的存储
一、相同点:
原理基本一致(mycat中基本都包含):
1、都是水平分表,都有逻辑库,逻辑表,分片的概念
2、分片规则基本一致。
在 TDSQL中,数据的切分通常就需要找到一个分表键(shardkey)以确定拆分维度,再采用某个字段求模(HASH)的方案进行分表,而计算 HASH的某个字段就是 shardkey。 HASH算法能够基本保证数据相对均匀地分散在不同的物理设备中。
3、读取数据原理基本一致:
TDSQL:
读取数据(有明确 shardkey值)
1.业务发送 select请求中含有 shardkey时,网关通过对 shardkey进行 hash。
2.不同的 hash值范围对应不同的分片。
3.数据根据分片算法,将数据从对应的分片中取出。
读取数据(无明确 shardkey值)
1.业务发送 select请求没有
shardkey时,将请求发往所有分片。
2.各个分片查询自身内容,发回 Proxy。
mycat:
分片的规则是使用非主键进行分片的,那么在使用主键查询的时候,就
会发送查询语句到所有配置的 DN 上,如果使用该属性配置真实表的主键。难么 MyCat 会缓存主键与具体 DN 的
信息,那么再次使用非主键进行查询的时候就不会进行广播式的查询,就会直接发送语句给具体的 DN,但是尽管
配置该属性,如果缓存并没有命中的话,还是会发送语句给具体的 DN,来获得数据
4、为了join操作,都支持全局表或者小表
TDSQL:
支持建小表(广播表),此时该表在所有 set 中都是全量数据,这个主要方便于跨 set 的 join 操作,同时通过分布
式事务保证修改操作的原子性,使得所有 set 的数据完全一致。
mycat:
Mycat 中通过数据冗余来解决这类表的 join,即所有的分片都有一份数据的拷贝,所有将字典表或者符合字典表特性的一些表定义为全局表。数据冗余是解决跨分片数据 join 的一种很好的思路,也是数据切分规划的另外一条重要规则
二、不同点
扩容:
TDSQL主要是采用自研的自动再均衡技术保证自动化的扩容和稳定。
新增分片扩容和现有分片扩容原理与mycat一致,不同点在于TDSQL新增分片扩容过程中不需要停止服务(通过禁止插入操作,变为只读模式,大概需要花费1到几十秒),而mycat扩容缩容过程中如果有数据更新则需要重启mycat
TDSQL对于建表语句及分片键要求较高
普通的分表创建时,必须在最后面指定 shardkey 的值,该值为表中的一个字段名字,会用于后续 sql 的路由选择
mysql> create table test1 ( a int, b int, c char(20),primary key (a,b),unique key u_1(a,c) ) shardkey=a;
Query OK, 0 rows affected (0.07 sec)
由于在 TDSQL 下,shardkey 对应后端数据库的分区字段,因此必须是主键以及所有唯一索引的一部分,否则无法
创建表:
mysql> create table test1 ( a int, b int, c char(20),primary key (a,b),unique key u_1(a,c),unique key u_
2(b,c) ) shardkey=a;
此时有一个唯一索引 u_2 不包含 shardkey,没法创建表,会报如下错误:
ERROR 1105 (HY000): A UNIQUE INDEX must include all columns in the table's partitioning function
因为主键索引或者 unique key 索引意味着需要全局唯一,而要实现全局唯一索引则必须包含 shardkey 字段。
除上面的限制外,shardkey 字段还有如下要求:
shardkey 字段的类型必须是 int,bigint,smallint/char/varchar。
shardkey 字段的值不应该有中文,网关不会转换字符集,所以不同字符集可能会路由到不同的分区。
不要 update shardkey 字段的值。
shardkey=a 放在 sql 的最后面。