国内企业智能化运维&DevOps建设和前沿研究

云计算和人工智能的发展不仅改变了普通人日常生活的方式,同时也改变了运维人员的工作模式。智能化运维就是用机器来代替人,在最少的人为干预下保证业务7*24小时的高效稳定运行。2015年被称为是中国互联网智能化运维发展的元年,多家IT大厂相继提出这一思路,并做了一些极具价值的尝试。

2017年10月19日-21日在北京新云南皇冠假日酒店召开的第九届系统架构师大会就洞察到了这一变化,开设了“智能化运维&DevOps”的技术专场,邀请了多家知名企业的技术大咖来和大家分享交流他们的心得。

“DevOps”是最近几年炒得比较火的话题之一,但你真的了解什么是DevOps吗?中国SaltStack用户组发起人赵舜东表示:DevOps绝不是简单的运维开发,也不仅仅是自动化,更不是让开发自己做运维,DevOps强调的是研发、技术运营、质量部门在软件生命周期和服务生命周期的协作,从而来构建一条IT服务供应链,同时也是价值交付链。我们经常提到的敏捷研发,精益管理,持续交付,技术运营都是DevOps的知识体系。

大数据驱动的阿里巴巴国际化基础架构

对于现代人来说,“双十一”不再只是一个普通的日子,也不再只有“光棍节”这层含义,阿里赋予了“双十一”更广为人知的含义——全民购物狂欢节。那在国内购物用淘宝,在国外购物用什么呢?其实淘宝也有海外版本——AliExpress。

AliExpress在全球排名52,如果要在购物App中按下载数量来排名的话,其iOS应用程序在96个国家排在Top 5,Android应用程序在56个国家排在Top 5。本次大会AliExpress技术部架构团队及商家平台团队负责人李彦超(验钞)和我们分享了他们的国际化基础架构。

由于AliExpress面向的是全球化的业务所以其天然的就必须面对长距离访问带来延迟问题,其次AliExpress单日的全球交易量能够达到2000次/秒,并且这个数字还在逐年递增;第三,AliExpress业务没有低谷,提供7*24服务,故障会发生在任何时间。

阿里在全球部署了多个IDC,在淘宝的基础上做到了用户干预,对于用户的访问采取最近原则,在符合政策和合规性的条件下默认性能优先;所有IDC向一个IDC做复制,同时基于合规性做流量路由表,并在所有可能的地方插入路由表,保证全局变更。

基于Kubernetes的持续集成平台建设

相信各位技术人前两天的朋友圈都被“Docker宣布支持Kubernetes”的消息刷屏了,这从侧面证明了Kubernetes正在逐步强大,获得了全球的广泛认可。在“智能化运维&DevOps”技术专场,为胜科技技术总监郭宏泽为我们带来了“基于Kubernetes的持续集成平台建设”的主题演讲。

创业公司往往运维需求变化快,资源相对有限,所以IT基础设施建设要以速度为中心,实现快速响应、降低成本、稳定安全的运维要求。而以DevOps为指导思想,建设一套基于容器的持续集成发布平台就是这些创业公司的首选。

在Kubernetes的使用上郭宏泽也有一些自己的心得,首先Kubernetes每三个月就会发布一个版本,所以大家不要盲目追求最新版本;其次,K8s每个版本将会发布三种功能:Aplpha功能,预览功能,不稳定;Beta功能,测试中的功能,不保证稳定;正式功能,已经经过测试的稳定功能,不保证无BUG;第三,尽可能减少对功能的使用,保持简单;最后,不要轻易升级生产系统。

百度AIOps实践:单机房故障自愈

AIOps是Gartner在2016年提出的概念,其预测到2020年AIOps的采用率将会达到50%。目前国内的IT大厂都有在尝试AIOps,今天百度监控平台技术负责人哈晶晶就为我们分享了百度在AIOps上的实践—单机房故障自愈。

百度运维平台经历了基础运维平台、开放运维平台和智能化运维平台的演变。近年来,我们看到了多起业界单机房故障事件,不仅造成了PV、流水损失,商业赔付,影响用户体验,而且还会给竞品以机会,造成研发成果浪费、用户信任度下降等严重后果。

百度基于AIOps故障自愈的解决思路为:书同文:运维知识库,一致运维“语言”;车同轨:运维开发框架,一致运维“方法”;行同伦:运维策略库,一致运维“模式”。目前,单机房故障自愈已覆盖百度80%的核心业务,止损效率较人工提升60%以上,业务L4故障,服务层能够在2min内完成单机房故障止损。

美团外卖自动化业务运维系统建设

对于现代人来说,外卖绝对是不可或缺的一部分,90后专栏作家李宫俊曾说过“生我者父母,养我者外卖。”虽然天天点外卖,但是你清楚外卖背后的技术支撑吗?本次专场美团外卖业务架构负责人刘宏伟就和我们分享了他们的自动化业务运维系统的建设。

刘宏伟表示:外卖业务后台服务交互复杂,从用户下单à商家接单à骑手接单à发配送à用户收到热乎乎的外卖,我们需要在20多分钟之内完成这一系列流程。而在这背后,整个产品线上还会涉及很多数据分析,统计,结算,合同等各个端的交互,一致性要求高,并发高。

如何将运维人员从繁重的工作中解放出来,应用自动化措施提升业务效率,刘宏伟认为可以从以下方面着手:

? 前期当用户接收到诊断报警后,直接引导用户进入该报警可能会影响的业务大盘,查看业务图表,如果影响到业务直接进入该业务图表对应的核心链路定位最终的问题根本原因,从而判断是否要触发该核心链路上对应的服务保护开关或预案,以达到快速解决问题的目的。

? 用户也可以直接通过诊断报警进入对应的核心链路,查看最终的引起异常的根本原因,引导用户判断是否需要触发相应的服务保护预案。

? 发现问题à诊断问题à解决问题 这个过程每一步都需要不断的提升准确度,通过全链路压测不断的验证这一流程的准确度,当某些场景准确度非常高的时候,可以变为自动化方案。

? 当整个方案可以自动化进行下去之后, 对于用户来说的使用场景就变成了:收到异常报警à收到业务服务恢复通知。

技术前沿发展:系统自动化调优

上面几位嘉宾和我们分享的都是智能化运维的现在,那么智能化运维的未来应该是什么呢?优调科技技术总监朱妤晴给出了答案——《技术前沿紧张:系统自动化调优》。

为了适应不同应用需求,系统在开发时就暴露了大量与部署、应用场景相关的参数,这些参数与系统性能紧密相关,在调优时需要对系统和应用有资深经验的技术人员来进行。而系统自动化调优就是指将这一过程自动化。

系统调优目前面临的难题是:为了适应更多的部署环境和应用场景,系统参数个数越来越多;为了满足不同的应用负载需求,涉及的系统越来越多;参数设置与系统、应用紧密相关,性能曲线复杂多变。

而系统自动化调优好处多多:仅调整系统参数值,即可使性能最大提升11倍;节省人力开销;减少硬件开销;更公平地测试和比较系统性能;确定系统瓶颈。目前,系统自动化调优的前沿研究成果有两个,一个是卡耐基梅隆大学数据库团队研发的OtterTune,另一个是由中科院计算所先进计算机系统研究中心研发的BestConfig。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容