大型网站软件系统特点
- 高并发,大流量
- 高可用
- 海量数据
- 用户分布广泛,网络情况复杂
- 安全环境恶劣
- 需求快速变更,发布频繁
- 渐进式发展
大型网站架构演化发展历程
- 初始阶段的网站架构(单服务器)
小型网站访问量人少, 应用程序,数据库,文件资源都在同一台服务器上。
- 应用服务和数据服务分离
随着用户访问量的增长,需要更多的资源来承载用户量, 因此需要需要将应用和数据分离。
分离后将会用到 三台服务器,应用,文件,数据各一台,每台服务器对应的硬件资源要求各不相同。
应用服务器:需要更快更高配置的cpu来处理大量的业务。
文件服务器:需要更大的磁盘来保存用户上传的文件。
数据服务器:需要更快的硬盘和更大内存来快速检索和数据缓存。
- 缓存提高性能
每次读写都要从数据库获取数据,会做成IO的压力上升,瓶颈会随着业务的发展慢慢出现。
这里可以通过使用缓存来缓解数据的压力(根据二八定理基本80%的业务都集中在20%的数据上)。
缓存:本地缓存和分布式缓存
本地缓存:访问速度快但受到服务器内存的限制
分布式缓存:相对访问速度慢点,但可以通用集群来部署大内存来缓存,理论上不受内存的限制
- 使用集群提高并发处理能力
当单台服务器的运算能力到达瓶颈的时候,不要企图换更强大的服务器,毕竟单服务器的总有瓶颈的,通常做法是通过添加一台服务器来分摊原有服务器的压力。
数据库读写分离(主从模式) 改善数据库负载压力
加速网站响应 主要手段有CDN 和反向代理
CDN 和反向代理:都是使用缓存的技术来加速网站的响应,主要分别:
CDN:部署在网络提供商的机房使用户请求网站服务时可以从距离自己最近的网络提供商机房获取数据。
反向代理:部署在网站的中心机房,用户发起请求是经过反向代理服务器,如果反向代理服务器有缓存直接返回给用户。
- 使用分布式文件系统和分布式数据库
分布式数据库是网站数据库拆分的最后手段,只有在表单十分庞大的时候使用,文件系统也一样。
网站常用的数据拆分手段是业务分库,将不同业务部署在不同的服务器上。
最终网站的业务越来越复杂,对数据的存储和检索的需求也越来越复杂,这时需要使用一些非关系数据库如NoSql和非数据库查询技术如搜索引擎。
NoSql和搜索引擎都是源自互联网的技术手段,对可伸缩性的分布式特性具有更好的支持。应用服务器通过一个统一数据访问模块访问各种数据,减轻应用程序管理诸多数据源的麻烦。
- 业务拆分
大型网站对应负责的业务场景,通过分而治之的手段将整个网站的业务拆分不同的产品线,如大型的购物网站就会有首页,商铺,订单,卖家,买家等不同的业务线,分归不同的团队负责。
也可以将网站分为各个不同的应用程序,每个应用部署到不同的服务器上,然后同个首页的导航和每个应用关联起立,也可以通过消息队列进行数据分发,最多还是通过访问同一个数据存储系统来构成一个关联的完整系统。
- 分布式服务
随着业务的拆分越来越少,存储系统越来越庞大,应用系统的整体复杂度呈指数增长,部署维护越来越困难。由于所有应用都有和数据库系统连接,在数万台服务器规模的网站中,这些连接数数服务器规模的平方,导致数据库连接资源不足,拒绝服务。
既然每一个应用系统都需要执行许多相同的业务操作,比如用户管理,商品管理等,那么可以将这些公用的业务模块单独出来做成一个服务,独立部署。由这些可复用的业务连接数据库,提供共用业务服务,而应用程序只需管理用户界面,通过分布式服务调用公用服务完成具体操作。
参考资料:《大型网站技术架构 核心原理和案例分析》 李智慧