1. 什么是mycat?
2. mycat可以应用在什么场景?
3. 什么样的表需要进行分片?
答:超过1000万的表需要进行分片。
4. mycat的工作原理是什么?
- sql解析
- 分片分析
- 路由分析
- 读写分离分析
- 缓存分析
- sql执行
- 结果合并处理
5. mycat的架构是什么?
6. mycat的核心概念有什么?
7. mycat的配置选项有什么?
可以通过配置子表,来避免跨库查询,会将子表存储在对应的父表ID的库中。
8. mycat如何做读写分离?
答:mycat不负责任何的数据同步,所以需要配置mysql的主从数据同步。
如果配置了多个writeHost,则第一个才会写。
- 第二种配置方式,如果第一个writeHost挂了,则会找第二个。
-
第一种配置方式,如果只有一个writeHost,且挂了,则所有的readHost都不能用。
9. mycat如何分片?
10. 字典表/全局表的意义是什么?
答:例如国家列表,存量小(100w以下的数据表),需要经常和其他表进行join,所以可以用空间换取时间,防止跨库访问,则所有分片上面都放入全局表。
11. 分库分表的原则是什么?
答:分不分库,分哪些库,分不分表,什么规则分,分多少分片。
- 能不分尽量不分,1000万以下的表不用分片,可以通过索引的方式解决问题。如果达到了1000万,大表需要拆分,与其相关的关联中表(即没有达到1000万但是大于100万的表)也需要进行拆分,尽量使用和大表一样的分片规则,如果不行,则需要在java中分步骤查询,先查询大表,根据id再查询小表,或者可以破例使用全局表(如果破例使用全局表,要看这个表是否会多线程更新同一条数据,会造成死锁,如果没有这个问题,可以破例使用全局表)。小于100万的使用全局表。
- 分片尽量少,均匀分布在多个节点上
- 尽量不要在一个事务中跨分片处理
- 分片规则需要谨慎选择,涉及到数据的增长模式,数据的访问模式,分片关联性,分片扩容的问题,最常见的分片规则为范围分片(例如日期或者数字),枚举分片(例如省份),一致性hash分片(就是个环),还有范围取模(先按范围分片,再按照取模来均匀存储),ASCII码之和再取模(针对String类型的),这几种方式都有利于扩容。如果某个表带有明显的时间特点,例如订单和交易记录,则可以以时间作为划分,我们往往关注近期的数据。一般来说分片取决于查询语句中用的最多的where语句。拆分字段是不可修改的,拆分字段只能是一个字段,如果想按照两个字段拆分,则需要建一个新冗余字段,进行拼接。拆分之后的表不要超过1000万。
- 查询条件要优化,尽量避免select *,因为有带宽和CPU损耗。查询结果尽量避免大结果集。尽量利用索引进行性能优化。
12. sql语句如何统计,找到最优的分片?
找出最频繁的sql语句,然后分析之间的关系和ER,以及条件
- 采用特殊的JDBC,拦截所有的sql,进行统计
- 采用mycat的sql拦截机制,写插件拦截
- 分析mysql的日志
13. 库内分表是否是好的习惯?
答:不是。尽管解决了单表过大的问题,但是IO/CPU的竞争还是一样的。mycat建议mycat分库+mysql分区。
14. DataNode的分布应该如何选择?
- 可以全部放在一个节点,但是压力大
- 可以连续分布,前5个放第一个节点,后5个放第二个节点
- 可以均匀分布,使得多个节点的数据接近一致,推荐这种方式。
15. mycat主键如何生成唯一?
答:全局序列。具体五种生成方式参看文档。其中通过数据库的方式,则mycat每次取出100个连续id,等用完了再去取。其中ZK的自增ID比较合适,ID也不大,效率高。
16. mycat最佳实践有哪些?
-
可以去github上面查询官方文档。
-
后端可以根据业务不一样,来进行不同集群的部署
-
加入zookeeper,则可以将配置放在一起,还可以有负载均衡。
17. mycat的dataHost负载均衡有哪些选项?
18. mycat由哪几个部分组成?
答:mycat-server + mycat-web + mycat-mini-monitor。