隐藏的数据:WhatsApp的数据秘密

WhatsApp作为一款社交软件,几年间从默默无闻到风靡全球,其背后隐藏的数据是如何的庞大,可想而知。今天,就跟随大圣众包威客平台(www.dashengzb.cn)的脚步,一起窥探海量数据中的其中一部分。

一、基础统计

月4.65亿用户;

平均每日接收190亿消息,发送400亿消息,6亿张图片,2亿条语音,1亿段视频;

峰值期间1.47亿的并发连接数——电话连接到系统;

峰值期间每秒23万次登陆操作——手机上线及下线;

峰值期间每秒32.4万信息流入,71.2万流出;

约10个工程师致力于Erlang,他们肩负了开发与运维。

二、节日峰值

平安夜流出达146Gb/s,相当多的带宽用于服务手机;

平安夜视频下载达3.6亿次;

新年夜图片下载约20亿(46k/s);

新年夜图片最高下载次数为3200万次。

三、堆栈概况

Erlang R16B01(打了自己的补丁);

FreeBSD 9.2;

Mnesia(数据库);

Yaws;

使用了SoftLayer云服务和实体服务器。

四、硬件概况

大约550个服务器+备份;

150个左右的Chat服务器(每个服务器处理大约100万的手机、峰值期间1.5亿的连接);

250个左右的多媒体信息服务器;

2x2690v2 Ivy Bridge 10-core(总计40的超线程技术);

数据库节点拥有512GB的内存;

标准计算节点搭载64GB内存;

SSD主要用于可靠性,存储资源不足时还用于存储视频;

Dual-linkGigEx2(公共的面向用户,私有的用于后端系统);

Erlang系统使用的核心超过1.1万个。

五、系统概况

独爱Erlang;

语言非常棒,适合小工程团队;

非常棒的SMP可扩展性,可以运行高配的主机,并且有益于减少节点,运维复杂性只与节点数有关,而不是核心数;

扩展性就像扫雷,总可以在问题爆发之前发现并解决,世界级事件相当于做系统的压力测试;

可以飞快地更新代码。

六、架构概况

手机客户端连接到MMS(多媒体);

Chat连接到瞬态离线存储,用户之间的消息传输通过后端系统控制;

Chat连接到数据库,比如Account、Profile、Push、Group等。

七、多媒体数据库介绍

内存Mnesia数据库使用大约2TB的RAM,跨16个分片存储180亿条记录;

只存储正在发布的消息和多媒体,但是在多媒体发布时,会将信息储存在数据库中;

当下单服务器只运行100万的并发连接。

八、解耦

隔离瓶颈,让之不会存在整个系统中;

紧耦合会导致相继故障;

正在解决问题时,保持尽可能多的吞吐量;

异步处理以最小化吞吐量延时;

当延时不可预知及在不同点存在时,异步可以尽可能地保证吞吐量;

解耦可以让系统运行尽可能的快。

九、避免HOL阻塞

线头阻塞是首位处理会饿死队列中的其他项目;

分离读和写队列,特别是在表格上执行事务,写入方面的延时不会影响读取队列;

分离节点内部队列,只有当消息发送给问题节点时才会做备份,这将允许消息自由地传输,问题被隔离开来,给Mnesia打补丁以保证async_dirty级响应时间,App发送消息后就会被解耦,因此当一个节点发生故障时,不会导致负载问题;

在不确定延时场景下使用FIFO模型。

十、Meta Custering

需要一种方法来控制单集群体积,并允许它跨很长距离;

建立wandist,基于gen_tcp的分布式传输,由许多需要相互通信的节点组成;

1个基于pg2的透明路由层,建立一个单跳路由调度系统。

十一、分割服务

在2到32间进行分割,大部分服务都被分割成32个;

pg2addressing,分布式进程组,用于集群上的分片寻址;

节点进行主从设置,用于容灾;

限制访问单ets或者Mnesia进程的数量到8,这会让锁争用处于控制当中。

十二、优化系统

每条消息都被用户快速地读取,60秒内完成50%;

添加一个回写缓存,这样消息就可以在写入文件系统之前被交付,缓存命中率达98%;

如果IO系统因为负载而阻塞,缓存会对消息交付起到额外的缓冲作用,直到IO系统恢复;

给BEAM(Erlang VM打补丁)以实现异步文件IO来避免线头阻塞问题,在所有异步工作线程上轮训文件系统端口请求,在大型mailbox和缓慢磁盘的情况下可以缓解写入;

使用大量的fragments降低Mnesia表格的访问速度;

账户表格被分割成512份打入“island”,意味着用户和这512个分片间存在一个稀疏映射,大部分的fragments都是空的和空闲的;

哈希模式会导致建立大量的空bucket,有些甚至会非常长,而双线的变化解决了这个问题,并将性能从4提升到1。

十三、补丁略展

mnesia_tm是个非常大的选择循环,因此虽然负载未满,也可能会造成事务的积压,打补丁以收取事务流并且保存以作稍后处理;

添加多个mnesia_tmasync_dirty发送者;

存在许多的跨集群操作,因此Mnesia最好从附近的节点加载;

给异步文件IO加入循环调度;

使用ets哈希开防止w/phash2的同时发生;

优化ets main/name table来应对规模;

不要队列mnesia dump,因为队列中存在太多的dumps时,schema ops将不可行。

日600亿消息,月4.65亿用户,WhatsApp是怎样做到的?答案尽在Erlang。Erlang是一种可以应对大规模并发活动的编程语言和运行环境。在大数据产业日益繁盛的今天,它的地位将越来越重要。

原文地址:http://www.dashengzb.cn/articles/a-234.html

(更多大数据与商业智能领域干货、或电子书,可添加大圣花花个人微信号(dashenghuaer))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容