笔者非专业人士,从《淘宝技术这十年》书中整理而来,若有遗漏或错误,望海涵并指正。同时需要注意的是文中所写的很多技术性能仅代表当初,不能等同于现今。
2003年4月,淘宝秘密起始于湖畔花园,购买了一个LAMP(Linux+Apache+MySQL+PHP)架构的网站。
2003年底,MySQL换成Oracle,同时使用一个开源的连接池代理服务SQL Relay。Oracle容量大、稳定、安全、性能高,Oracle的性能和并发访问能力之所以如此强大,有一个关键性设计——连接池,连接池中放的是长连接,任何一个请求只需要从连接池中取得一个链接即可,用完后释放,不需要频繁的创建和断开连接。(2003年时的情况)
2004年,为解决SQL Relay死锁问题,开发语言从PHP换成Jave。原因是当时(04年)Jave是最成熟的网站开发语言,有比较良好的企业开发框架,被世界上主流的大规模网站普遍采用。另外市场上Jave开发人才比较多,后期维护成本较低。
2004-2005(大概是这个时间段),引入IBM小型机、使用EMC存储。
2005年工作:
1、Oracle数据库分库,商品信息和用户信息分库存放,由数据库路由的框架DBRoute统一处理数据的合并、排序、分页等操作;
2、控制层用Spring框架替换EJB;
3、研发基于Berkeley DB的缓存系统,把很多不太变动的只读信息放了进去;
4、加入CDN内容分发网络。
目的:围绕提高容量、提高性能和节约成本。
2007年,参照GFS(Google File System),研发了淘宝图片存储系统TFS(TaoBao File System)。
特点:文件比较小;并发量高;读操作远大于写操作;访问随机;没有文件修改的操作;存储成本低;能容灾、能备份。
TFS已开源:code.taobao.org
2007年,开发分布式缓存系统Tair(TaoBao Pair),由一个中心控制节点和一系列的服务节点组成。
Tair已开源:code.taobao.org
2008年后:
打散树状节点,把品牌、款式、材质等做成类似于标签的概念(属性),建立离散、灵活的数据结构。
拆分底层业务,例如建订单、减库存、修改订单状态等原子级操作,由原子级操作组成模块,大量模块可以复用,每个系统可以单独部署。
开发了高性能服务框架HSF,解决分布式情况下的服务调用问题。
推出消息中间件Notify:把要发出的通知存放在数据库中,如果实时发送失败,再用一个时间程序来周期性地发送这些通知,系统记录下消息的中间状态和时间戳,保证消息一定能发出,也一定能通知到,且通知带有时间顺序,通知甚至可以实现事务性的操作。
数据库分库数量增多后,研发出数据查询的中间件TDDL(分布式数据访问层)
三个主要特性:
1、将针对数据的读写请求发送到最合适的地方;
2、数据的多向非对称复制——一次写入,多点读取;
3、不再受限于单台机器的容量瓶颈与速度瓶颈,平滑迁移。
Tbsession框架,保证分布式集群情况下Session共享的问题。初期Session是存放到用户Cookie,避免了Session复制、硬件负载等问题。流量太庞大之后,采用将Session放到服务器的集中缓存区(前文提到的Tair)来解决用户登录问题。
参考书籍《淘宝技术这十年》