最近读到了两本很棒的书,一本是《大型网站技术架构》,另一本是《大型网站系统与java中间件》。这两本书都是阿里的工程师写的,主要介绍了一个网站如何从一个小型网站(一台pc充当应用程序服务器+数据库+文件服务器),随着访问的用户越来越多,存储的数据越来越多,一个小型网站如何应对,以及解决这些问题。这两本书大概讲的就是这个问题。
这篇文章主要是记录一下自己看这两本书的收获和读书笔记,用来备忘。
写到后面发现要写的东西可能会多,也比较散碎。所以,我打算以思维导图的方式去写,这样可能比较易于阅读和理解。
每个点,我会写上备注和解释。点击这个标签,就可以查看备注。
这是思维导图的链接(可能陆续还在补充和完善):http://naotu.baidu.com/file/ce3b7d3b65670969b254579d8bca1ad2?token=d3efba7757745e10
关于数据库的部分
(ps:这是刚开始写得第一部分,后面的都放到思维导图上面了)
关于数据库应对高并发的办法:
1.分库分表
2.读写分离,主从复制
1. 分库分表
分库,有两种方式,一个是水平拆分,一个是垂直拆分。 垂直拆分指的是将相同的业务逻辑放到一个数据库上面,水平拆分指的是将不同的业务逻辑放到一个数据库上面。
分表,是对一张表的切分。
这两个概念其实是比较好理解的,但是用多机做数据库需要应对一些新的问题:
- 如何实现跨库join
- 如果一张逻辑上的表,被切分成几个子表,那么如何
2.1排序
2.2函数处理,即使用max,min,sum,count等对多个数据源的值进行函数处理
2.3求平均值
2.4排序后分页(这个很interesting)
答:
Q1:对于跨库join
- 基本上有两个解决办法,方法一:在应用层进行多次查询,现在a库的a-1表上查询,然后将查询的结果放到b库的b-1表上再进行查询。
- 数据冗余的思想,如果这些信息是常用的信息,可以将join过的信息保存一下,这样后面的查询,就相当于是再一张表上操作。
Q2:排序
A:将多个来源的数据查询出来之后,在应用层进行多路归并排序。
Q3:函数处理,求最大值,最小值,求和,计数
A:分别对多个数据源的数据进行操作,然后再将各个数据源统计出来的数据进行一个汇总。
Q4:求平均值
将多个数据源的数据求和,并计数。然后汇总各个数据源的和,和计数。再用各个数据源的和除以计数的和,得到平均值。
Q5:排序后分页(这个有点意思)
这个的实际意义是,当我们在谷歌或百度搜索一个关键字的时候,返回的结果很根据权重排序,然后分页显示出来。这个查询的结果可能是来自很多数据库,那么如果将它们按照一定的顺序显示出来呢?
假如,我要看的是第10页的查询结果(假设每页显示五条),那么应该怎么办?
Q6:在分库分表的情况下,如何保持某一张表的id的自增长和连续?
搞一个独立的服务,在生成id。
A:
(假设有两个数据源,每页显示五条)
- 首先,在各个数据源上面进行各自的排序。
- 那么第一页应该是从每个数据源里面取五条数据,然后把这个10条数据进行归并,然后将前五条返回。
- 那么对于第二页,应该是将每隔数据源的前10(52=10)条数据拿出来,然后归并,取第五条到第十条记录。也就是说,如果要取第100页的数据,那么就要从各个数据源里面取1005=500条数据,然后进行归并,也就是说,越往后代价越大.
后面的写到思维导图上面了,这是思维导图的链接(可能陆续还在补充和完善):http://naotu.baidu.com/file/ce3b7d3b65670969b254579d8bca1ad2?token=d3efba7757745e10