编者按:一年一度的系统工程国际盛会 SRECon 于 3 月 13-14 日在美国西岸城市旧金山拉开帷幕,SREcon 是 SRE 领域最专业的大会,由 USENIX 组织,今年的正式名称是 SREcon17 Americas. SREcon 聚集了关注网站可靠性、系统工程、以及复杂分布式系统相关的圈内人员。大会的主旨是批判性思考、技术深度剖析、持续改进以及创新。有包括 Google, Facebook, LinkedIn, Netflix, Pivotal, Pinterest, Uber, Twitter等公司讲师分享精彩议题,小编也在讲师名单中看到了百度的身影。本文是由数人云工程师向阳在旧金山 SRECon 大会现场发来的报道,授权高可用架构发表。
SRECon17 第一天下来的感觉就是高大上, 组织者 USENIX(Advanced Computing Systems Association)高大上,赞助商们(谷歌,LinkedIn,微软,Netflix,Facebook,Twitter,Hulu, Spotify 等)高大上,更高大上就是会议地点旧金山CA ,美的让人乐不思“京霾”了。
——来自SRECon数人云前线工程师
——九曲花街俯视旧金山城
——金门大桥
——集装箱,职业病第一反应是Docker...
——LinkedIn 展位,送T恤喽
——Google 展位
言归正传,我是来参会的...
《So You Want to Be a Wizard》
首先,开场就是来自Stripe一位女性SRE带来的精彩演讲《So You Want to Be a Wizard》,主要讲述自身从 DevOps 向 SRE 转变的愉快心路历程。
必须表扬的就是女生 slides 特殊画风,通篇都是手写和漫画风,像这种:
还有这种:
在分享中 Julia 提到了她是如何通过 tcpdump 和 wireshark 搞定 HTTP 慢请求这样一点儿一点儿地积累技术,以及在设计小项目和参与项目开发的过程中,从自己的体验和别人的反馈中了解到文档重要性等等工程经验。更重要的是 Julia 适应和喜欢去搞定 why 的部分,也慢慢积累信心去参与“创造”的过程,感觉成为 SRE 就有点儿像会了魔法。
最后,分享一下她的“魔法”技能列表:
接下来的会议是三个分会场同时进行的,基本上都是围绕着 SRE 的日常来展开的,包括流量控制,自动 Debug 部署问题,快速发布,运维海量容器,监控报警,线上 Profiling 等各个方面的内容。
《Ten Persistent SRE Antipatterns》
强力推荐来自 Netflix 的 《Ten Persistent SRE Anti-patterns: Pitfalls on the Road to a Successful SRE Program Like Netflix and Google》,
原因是在旧金山听了场精彩绝伦的“相声”,由 Jonah Horowitz(Netflix)和 Blake Bisset 共同完成,不分捧逗。
图上的内容简单翻译一下就是:我怎么看那些显示监控数据的显示器,或者说我应该怎么跟我的老板解释这些钱都白花了?
再比如:
是的,你没看错,就是发哥在烧钱。
这两张是他们讲到可靠性到底应该几个九的时候用的图,大家自己体会下,反正这种黑色幽默我本人是很受用的,感兴趣的一定记得等视频出来。
玩笑归玩笑,这个分享里的确包含了来自国外 SRE 先行者们在一线遇到的很多问题,包括引入容器后带来的 pets vs cattle 甚至像 vs poultry(鸡鸭)这样的运维方式和思路的变化,也提到了 SRE 视角的 7*24 oncall 正确姿势,到底应该 alert 什么,alert 出现 SRE 被半夜叫醒之后的流程和预期到底是什么,还有像雇佣 SRE 的成本考量, 所有这些内容,Boss 们也值得一听。
《I’m an SRE Lead! Now What?》
当然,正统的方法论高手也是有的,那就是来自 IBM Bluemix 的 《I’m an SRE Lead! Now What? How to Bootstrap and Organize Your SRE Team》
典型的 IBM 方式,从管理者开始,讨论如何组建 SRE 团队,如何同开发小组合作,如何平衡 SRE 自身开发和运维的时间分配等等。讲究的是不断明确各个角色的权责,融入敏捷过程,使用各种工具,所有的事件响应设计好各种流程。
站在管理者的角度,如果你正准备落地 SRE,这些内容可能是一种参考。注意这里我的用词,可能是,毕竟这些都是带有强烈 IBM 基因的东西。
回想这一天听到的内容,如果是按照在国内参加各种面向纯开发者的技术会议的标准来说,那可能整体上没有想象中干货。但是,转念一想,毕竟是 SRE 的会议,并不是纯开发者,也不是面向开发者的,所以不能按以往的经验来衡量。
重新调整过预期和标准后再总结这一天,发现其实内容是很丰富同时也是很有收获的。
好了,今天的小结就是这些了,更多精彩内容明天继续,我北京背来的泡面都凉了。对了,我拍到国外工程师发髻线也!很!高!
想更多了解 SREcon 大会介绍的动向与前沿技术。
本文由数人云(微信号: dmesos)授权高可用架构发表,技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。