维基百科的高性能架构设计分析

Wikipedia 网站整体架构

Wikepedia 架构图
  1. GeoDNS:基于开源域名服务器软件 BIND(Berkeley Internet Name Domain)的增强版本,可将域名解析到离用户最近的服务器。

  2. LVS:基于 Linux 的开源负载均衡服务器。

  3. Squid:基于 Linux 的开源反向代理服务器。

  4. Lighttpd:开源的应用服务器,较主流的 Apache 服务器更轻量、更快速。实践中,有许多网站使用 Lighttpd 作为图片服务器。

  5. PHP:免费的 Web 应用程序开发语言,最流行的网站建设语言。

  6. Memcached:无中心高性能的开源分布式缓存系统,稳定、可靠、历久弥新,是网站分布式缓存服务必备的。

  7. Lucene:由 Apache 出品,Java 开发的开源全文搜索引擎。

  8. MySQL:开源的关系数据库管理系统。

Wikipedia 前端性能优化

所谓网站前端是指应用服务器(也就是 PHP 服务器)之前的部分,包括 DNS 服务、CDN 服务、反向代理服务、静态资源服务等。对 Wikipedia 而言,80% 以上的用户请求可以通过前端服务返回,请求根本不会达到应用服务器,这也就使得网站最复杂、最有挑战的应用服务端和存储端压力骤减。

Wikipedia 前端架构

Wikipedia 前端架构的核心是反向代理服务器 Squid 集群,大约部署有数十台服务器,请求通过 LVS 负载均衡地分发到每台 Squid 服务器,热点词条缓存在这里,大量请求可直接返回响应,请求无需发送到 Apache 服务器,减轻应用负载压力。Squid 缓存不能命中的请求再通过 LVS 发送到 Apache 应用服务器集群,如果有词条信息更新,应用服务器使用 Invalidation Notification 服务通知 Squid 缓存失效,重新访问应用服务器更新词条。

而在反向代理 Squid 之前,则是被 Wikipedia 技术团队称为"圣杯"的 CDN 服务,CDN服务对于 Wikipedia 性能优化居功至伟。因为用户查询的词条大部分集中在比重很小的热点词条上,将这些词条内容页面缓存在 CDN 返回,响应速度非常快,这些请求甚至根本不会到达 Wikipedia 数据中心的 Squid 服务器,服务器压力减小,节省的资源可以更快地处理其他未被 CDN 缓存的请求。

Wikipedia CDN 缓存的几条准则为:

  • 内容页面不包含动态信息,以免页面内容缓存失效或者包含过时信息。

  • 每个内容页面有唯一的 REST 风格的 URL,以便 CDN 快速查找并避免重复缓存。

  • 在 HTML 响应头写入缓存控制信息,通过应用控制内容是否缓存及缓存有效期等。

Wikipedia 服务端性能优化

服务端主要是 PHP 服务器,这里是网站业务逻辑的核心部分,运行的模块都比较复杂笨重,需要消耗较多的资源,Wikipedia 将最好的服务器部署在这里(和数据库配置一样的服务器),从硬件上改善性能。

除了硬件改善,Wikipedia 还使用许多其他开源组件对应层进行如下优化。

  • 使用 APC,这是一个 PHP 字节码缓存模块,可以加速代码执行减少资源消耗。

  • 使用 Imagemagick 进行图片处理和转化。

  • 使用 Tex 进行文本格式化,特别是将科学公式内容转化成图片格式。

  • 替换 PHP 的字符串查找函数 strtr(),使用更优化的算法重构。

Wikipedia 后端性能优化

包括缓存、存储、数据库等被应用服务器依赖的服务都可以归类为后端服务。后端服务通常是一些有状态的服务,即需要提供数据存储服务,这些服务大多建立在网络通信和磁盘操作基础上,是性能的瓶颈,也是性能优化的重灾区。

后端优化最主要的手段是使用缓存,将热点数据缓存在分布式缓存系统的内存中,加速应用服务器的数据读操作速度,减轻存储和数据库服务器的负载。Wikipedia 的缓存使用策略如下:

  • 热点特别集中的数据直接缓存到应用服务器的本地内存中,因为要占用应用服务器的内存且每台服务器都需要重复缓存这些数据,因此这些数据量很小,但是读取频率极高。

  • 缓存数据的内容尽量是应用服务器可以直接使用的格式,比如 HTML 格式,以减少应用服务器从缓存中获取数据后解析构造数据的代价。

  • 使用缓存服务器存储 session 对象。

  • 相比数据库,Memcached 的持久化连接非常廉价,如有需要就创建一个 Memcached 连接。

作为存储核心资产的 MySQL 数据库,Wikipedia 也做了如下优化:

  • 使用较大的服务器内存。在 Wikipedia 应用场景中,增加内存比增加其他资源更能改善 MySQL 性能。

  • 使用 RAID0 磁盘阵列以加速磁盘访问,RAID0 虽然加速磁盘访问,但是却降低了数据库持久可靠性(一块盘坏了,整个数据库的数据都不完整了)。显然 Wikipedia 认为性能问题迫在眉睫,而数据可靠性问题可以通过其他手段解决(如 MySQL 主从复制,数据一步备份等)。

  • 将数据库事务一致性设置在较低水平,加快系统恢复速度。

  • 如果 Master 数据库死机,立即将应用切换到 Slave 数据库,同时关闭数据写服务,这意味着关闭词条编辑功能。Wikipedia 通过约束业务获得更大的技术方案选择余地,很多时候业务后退一小步,技术就可以前进一大步。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容