1:分片规则配置文件rule.xml 介绍
PS: 配置文件都沿用上一篇mycat入门配置
1.1 Funcation 标签
- name属性指定算法的名称,在该文件中唯一。
- class属性对应具体的分片算法,需要指定算法的具体类。
- property属性根据算法的要求指定。
<function name="rang-long" class="io.mycat.route.function.AutoPartitionByLong">
<property name="mapFile">autopartition-long.txt</property>
</function>
1.2 tableRule标签
- name 属性指定分片规则的名称,要求唯一
- rule 属性指定分片算法的具体内容,包含columns 和clgorithm 两个属性
- columns 属性指定对应表中用于分片的列名
- algorithm 属性对应function 中指定的算法的名称
<tableRule name="mod-long">
<rule>
<columns>userID</columns>
<algorithm>mod-long</algorithm>
</rule>
</tableRule>
2:分片分类 - 连续分片 和离散分片
两种方式优缺点对比
分片 | 连续分片 | 离散分片 |
---|---|---|
优点 | 扩容无需迁移数据, 范围条件查询消耗资源少 |
并发访问能力增强 范围条件查询性能提升 |
缺点 | 存在数据热点的可能性, 并发访问能力受限于单一或者少量DataNode |
数据扩容比较困难, 涉及到数据迁移问题数据库连接消耗比较多 |
2.1:连续分片
- 自定义数字范围分片
- 按日期分片
- 按单月小时分片
- 按自然月分片
2.1.1: 自定义数字范围分片
字段为数字类型
<schema name="db_user" checkSQLschema="true" sqlMaxLimit="100">
<table name="data_dictionary" type="global" dataNode="db_user_dataNode1,db_user_dataNode2" primaryKey="dataDictionaryID"/>
<table name ="users" dataNode="db_user_dataNode$1-2" primaryKey="userID" rule="auto-sharding-long">
<childTable name="user_address" joinKey="userID" parentKey="userID" primaryKey="addressID" />
</table>
</schema>
rule.xml配置
- rang-long 函数中的mapFile 表示规则配置文件的路径,默认是在conf 目录下
- defaultNode为超过范围后的默认节点。
<tableRule name="auto-sharding-long">
<rule>
<columns>userID</columns>
<algorithm>rang-long</algorithm>
</rule>
</tableRule>
<function name="rang-long"class="io.mycat.route.function.AutoPartitionByLong">
<property name="mapFile">autopartition-long.txt</property>
<property name="defaultNode">0</property>
</function>
配置文件autopartition-long.txt
- ps 注意一下,这里的配置的节点数要小于 schema里的table的dataNode节点个数 ,否则启动mycat 会报错
# range start-end ,data node index
# K=1000,M=10000.
0-500M=0
500M-1000M=1
测试sql:
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('1000', '张1', '13611111111', '31', '2', '2018-10-10 13:39:41', '2018-10-10 13:39:41');
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('2000', '王二', '13622222222', '32', '5', '2018-10-10 13:39:41', '2018-10-10 13:39:41');
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('6000000', '李三', '13633333333', '33', '3', '2018-10-10 13:39:41', '2018-10-10 13:39:41');
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('7000000', '赵四', '13644444444', '34', '1', '2018-10-10 13:39:41', '2018-10-10 13:39:41');
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('20000000', '田五', '13655555555', '35', '3', '2018-10-10 13:39:41', '2018-10-10 13:39:41');
到这里,按范围分片接结束了,查看数据库,会发现已经按照对应的规则插进对应的分片当中了
2.1.2 按日期分片
根据时间类型字段,按月分片
修改schema.xml 文件
<schema name="db_user" checkSQLschema="true" sqlMaxLimit="100">
<table name="data_dictionary" type="global" dataNode="db_user_dataNode1,db_user_dataNode2" primaryKey="dataDictionaryID"/>
<table name ="users" dataNode="db_user_dataNode$1-2" primaryKey="userID" rule="sharding-by-month">
<childTable name="user_address" joinKey="userID" parentKey="userID" primaryKey="addressID" />
</table>
</schema>
修改rule.xml 文件
ps : 如果是按月分片的问题,如果插入的月份超过了节点数,则就会插入报错,而且只能插入规则中指定的同一年,比如规则中开始是2015-01-01 那就不能插入2016年
<function name="partbymonth"
class="io.mycat.route.function.PartitionByMonth">
<property name="dateFormat">yyyy-MM-dd hh:mm:ss</property>
<property name="sBeginDate">2015-01-01 00:00:00</property>
</function>
测试sql
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('1000', '张1', '13611111111', '31', '2', '2015-01-01 13:39:41', '2018-10-10 13:39:41');
INSERT INTO `users`(userID,userName,phoneNum,age,ddID,createTime,lastUpdate) VALUES ('2000', '王二', '13622222222', '32', '5', '2015-2-10 13:39:41', '2018-10-10 13:39:41');
还有按天分片 ,按小时分片,这里我就不在多介绍了,可以百度一下
3:离散分片, 这里只做一致性hash 分片介绍
离散分片规则
- 枚举分片
- 程序制定分区分片
- 十进制求模分片
- 字符串hash解析分片
- 一致性hash分片
3.1 一致性hash分片
一致性hash 有效的解决了分布式数据的扩容问题,优点在于扩容时迁移数据量比较少,前提是分片节点比较多,虚拟节点分配多些。虚拟节点分配的少就会造成数据分布不够均匀。但如果实际分片数据比较少,迁移量也会比较多。