昨日今日头条宕机与网站可靠性

1月6号,像往常一样,在工作的间隙,我打开手机上的今日头条。点开了其中一个新闻,发现进去后页面提示网络不给力,请稍后重试。前两天我的4G网络上不去,折腾了半天正要打联通客服咒骂,在IVR语音提示时才发现已经欠费了。但现在话费可是本月刚充的啊,何况现在连的是公司的WIFI,难道公司网络有问题?这时通知中心弹出了其他应用的提醒,貌似其他应用是正常的。那么就是被头条的提示的忽悠了,任何错误提示给用户的都是你的网络不给力。

果不其然,稍后其他的新闻看到头条的服务挂了许久的消息。

SRE - Site Reliability Engineering, Google提出的一个概念,综合了Google多年运维大规模服务器集群的经验演变出的一个职位。其目的就是为了最大限度的保障Google服务的可靠性,其演进方向是从运维工程师向开发工程师边界的扩展,要求运维工程师以软件工程的思路解决大规模运维的问题,用工具而不是人力来解决不断扩大的服务器集群对管理的需求。

如何保障网站可靠性,通常是在运维,基础架构,系统管理员的范畴。关注业务开发的软件工程师不关心这个,他们要忙着应付PD的最后期限,让飞速发展的平台支撑上层的业务需求。

在云计算基础设施还没成型时,互联网公司都会有个运维团队负责搞各种各样跟系统有关的活。在企业发展的不同阶段,这只团队可能会忙着提采购需求给财务;评估系统容量,要多少IOPS的SSD硬盘, 多大的内存才能满足应用需求;写各种各样的发布脚本,将开发提供的war包(如果是java应用)批量分发服务器的目录上并启动tomcat;搭LVS为机房入口提供热备的负载均衡设施;用keeplived提供VIP去单点,为后端服务提供故障迁移能力;跑到机房去为机器上架,布设机架网线,甚至配合容灾演练去拔网线测试;还要制定线上应用的发布规范,保证成千上万的应用能按照统一的规范发布,秉着约定优于配置的原则,让整个公司的人可以不加思索的找到应用的启动脚本,log目录;新机器上线需要初始化系统,随着虚拟化大潮物理机都要切分成虚拟机才交付给开发部门;出了个紧急安全漏洞得给系统或应用打补丁;线上生产机的权限要管好,别被黑客提权出了篓子;往往可能还要客串一把网络工程师粗排一下千奇百怪的运营商到IDC网络丢包,缓慢问题。

以上还不是最累的,运维团队还要为线上故障排查负责,软件工程师半夜只会收到自己应用的报警,运维团队是要接受自己管理全部应用的报警的,出了问题往往开发和运维都要一起排查,一个高速发展的公司都会经历那么一段故障频发的苦逼日子,运维成天到晚在忙着救火。

由于运维与开发部门不在一个部门,且各自关注的目标不同,伴随着长期的冲突和博弈。开发只关心功能上线,运维部门关心应用稳定运行。从前,开发可以快乐的自己登录到线上机器上发布代码,scp个本地的war包过去,就跑起来了;自从xxx日出了故障导致网站宕机1小时,错过了促销的黄金时间后,发布就被套上了流程的管控,层层审批,就是为了减少发布的次数,因为理论上发的越多,越容易出问题,一个一年只发布一次的系统,基本没什么可能出问题。

Devops理念是伴着云计算理念出来的,在amazon的云计算成熟后,以上说的传统运维已经可以通过买云服务实现了,不用自己采购机器,买个EC2,数据库服务也可以直接买RDS,对象存储用S3, Load Balancing也可以买。开发人员自助在上面操作一下,部署上自己的应用就可以提供服务了,买个域名将DNS直接A记录指向服务器就行了。可以说是中小公司的福音,互联网创业不用考虑太多的服务器问题了,把有限的人力投入到至关重要的业务功能开发商,其他的服务器运维工作交给专业的云计算公司来做。

网络视频租赁商Netflix就是个知名的例子,其服务都运行在AWS上。由于其多年跑在云上的分布式经验,还在github上开源了不少分布式处理的组件,回馈了社区。其迁移的路程也算长的,从2008年到2015年,7年,完成了全部应用到AWS的迁移。他们认为AWS提供了更可靠的服务。

有迁入也有迁出的,著名的网络存储提供商Dropbox由于嫌AWS太贵,将自家服务重新移到了自家机房运维。

很有意思不是吗?

那么
想体验自己的服务被上亿人使用的感觉吗?
想参与每年双11的技术狂欢吗?
想了解一线大厂的分布式技术如何抗住海量流量吗?

阿里集团客户体验事业群旨在建立更高的客户服务标准,让客户在阿里享受到最“爽”的服务,让“客户第一”成为阿里的百年口碑。

CRM产品技术部作为支撑全网服务的产品技术团队,希望通过我们的产品、数据、技术去提升阿里集团服务几亿客户的能力,提升全网客户体验。这里是最能听到“炮火”的地方,可以通过我们的努力,最直接的看到产品的改善。

在这里可以接触第一手的大数据。

这是一个以用户为中心的多角色无边界团队,一个有梦想的欢乐团队,一个能近距离感受用户温度的团队。无论你是何种角色,只要站在用户的角度思考问题,你的意见都有机会被采纳实施,去产品中落地。

关于用户体验的经验和妙想会得到重视,可以站在集团层面,推动与解决难以落地的用户问题。

如果你来到我们团队,那么你的职责可能包括但不限于:

  1. 负责Alibaba客户服务相关的产品研发
  2. 深入发掘和分析业务需求,撰写技术方案和系统设计
  3. 核心代码编写、指导和培训工程师、不断进行系统优化
  4. 参与或领导跨团队的研发项目

岗位要求:

  1. JAVA基础扎实,理解io、多线程、集合等基础框架,对JVM原理有一定的了解;
  2. 3年及以上使用JAVA开发的经验,对于你用过的开源框架,能了解到它的原理和机制;对Spring,ibatis,struts等开源框架熟悉;
  3. 熟悉分布式系统的设计和应用,熟悉分布式、缓存、消息等机制;能对分布式常用技术进行合理应用,解决问题;
  4. 掌握多线程及高性能的设计与编码及性能调优;有高并发应用开发经验;
  5. 掌握Linux 操作系统和大型数据库(Oracle、MySql);对sql优化有丰富的经验;
  6. 学习能力强,适应能力好;具备耐心/细心的品质;
  7. 喜欢去看及尝试最新的技术,追求编写优雅的代码,从技术趋势和思路上能影响技术团队

简历尽情发送到kunrong.zkr@alibaba-inc.com

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容