如何优雅发布

优雅发布的概念

DevOps、敏捷作为CI/CD思想的延伸已经成为研发的基本共识和文化基础,今天谈到的优雅发布和和CD中的Deployment是同一个单词但是侧重点却不同,CI/CD的过程讲究的是如何将开发、测试和部署的过程串起来达到一气呵成的效果,所以有持续集成(CI)和持续部署(CD)的概念,也有Pipeline的概念,基于敏捷的研发理念迭代速度很快,在流水线上的每一个角色,甚至包括产品经理都像是在流水线旁等待任务一样,PRD一旦发布,这个流水线就开始运转了,争分夺秒地上线去抢夺用户和流量。尤其是上线前的Dev、QA和Staging阶段流水线的特性更是被严重依赖,优雅发布这个时候并不是重点,没有人会在乎短暂的停机,而且很多非生产环境都是单机的,无论如何都无法避免发布造成的服务停止。但是到了真正的上线阶段,特别是有了一定的用户群和流量的时候,拉新客和留老客的重要度就是同等重要的了。而面向C端用户的产品迭代又非常快,CI/CD的理念下,到了真正的发布的时候如果不能做到优雅发布即通常也称为不停机发布(Zero-Downtime-Deployment),用户的流失的锅就会由研发团队来背,进而转嫁给由运维来背(想象一下用户注册环节恰巧在流水线发布,一批用户注册失败了)。而由于概念的不清晰,研发团队经常被挑战的就是:不都已经敏捷研发了,流水线部署了嘛,怎么还不能随时上线?

传统应用如何优雅发布

开始主题之前让我们先看看传统意义上的“不停机发布”是如何进行的,首先看下图,这是一个最简单的典型的由负载均衡来代理,假设场景是我们要发布App2,从图中我们可以看到App2有3个节点,一般我们选择在非高峰时间段,2B应用通常在晚上就可以进行发布,2C应用可能会选择在凌晨2点左右。发布的步骤就是通过Pipeline逐步的对192.168.10.21 ~ 23进行逐个发布,这样的发布看似总有两个节点在提供服务,用户是没有感知的,但是细究之下有很多推敲之处:一般负载均衡的心跳检测都有一定的时间,从60S到180S不等,所以在进行具体一个节点发布的时候,由于心跳检测还没有来的及检测出来当前的节点已经不能提供服务了,而这种情况实际有两种细分场景:一个场景实际就是应用服务端口已经不提供服务了(tomcat的8080端口响应超时),所以一部分请求就被转发到当前节点,但是应用服务器不能响应,一般也就是超时响应,此时的表现就是用户在白屏等待直至超时。另外一个场景是尽管应用服务端口已经启动,但是启动应用是需要一定的时间的,在初始化过程中被转发过来的请求就没有办法响应了,而此时端口实际是work的,但是不能处理正常的业务,这种情况下用户得到的是立即响应的服务器错500错误,如果没有针对性的错误处理,这是一般就会报出来tomcat的500错误。因此这样的发布实际上有很长的一段错误发生率,是完全无法达到优雅发布的标准的。

Figure-1-典型应用负载均衡

那么这种情况下,我们该如何避免发布过程中的服务超时和服务器内部错误500的情况发生呢,简单一点的做法就是结合负载均衡的配置,但是这样的做法对运维有一定要求,而且要熟悉所有服务的upstream配置,下面让我们先看看如何操作。

1、临时修改负载均衡的配置,将要发布的节点从upstream中摘除

upstream app2_backends {

        server 192.168.10.21:8080;

        server 192.168.10.22:8080;

        server 192.168.10.23:8080;

}

2、重启Nginx

nginx -s reload

3、观察一下192.168.10.21的日志,看看是不是有新的流量打入(这里暂时不考虑定时任务等其他因素)

4、在没有新流量打入,且原有流量处理完成的前提下进行正常发布

5、确认192.168.10.21的服务正常启动后(日志或者/status都可以)

6、修改负载均衡的配置,将192.168.10.21上线,192.168.10.22从upstream中摘除

upstream app2_backends {   

    server 192.168.10.21:8080;       

    server 192.168.10.22:8080;       

    server 192.168.10.23:8080;

}

7、重启Nginx

重复上述步骤直至将所有节点发布完毕,但是这样这样的发布实在太多繁琐,而且中间涉及大量的负载均衡的配置修改、反复重启、app应用日志的确认等,很难将发布下放至一线运维人员,所以很难推行。那么有没有更简单的操作呢?当然是有的,我们来回顾一下上述发布过程,中间涉及反复的配置修改和重启命令,都是重复性劳动,而且容易出错,主要就是每次修改了配置必须要重启Nginx,如果加载后不用重启了是不是就简化了很多步骤?嗯,所以动态加载就是答案,实现动态加载有如下两种方式:

基于OpenResty的lua-upstream-nginx-module(https://github.com/openresty/lua-upstream-nginx-module) ,提供了细粒度的upstream管理方式,可以对某一个服务IP进行管理,其中提供的set_peer_down方法,可以对upstream中的某个ip进行上下线。

因为nginx-1.9.0以上支持zone的概念,而ngx_dynamic_upstream是需要zone的,所以可以使用ngx_dynamic_upstream(https://github.com/cubicdaiya/ngx_dynamic_upstream)来进行upstream中的某个ip进行上下线

我们以ngx_dynamic_stream为例来看如何简化操作

1、修改conf配置,这里注意看粗体的/dynamic部分,后面会用到

upstream app2_backends {

    zone zone_for_app2_backends 1m;

    server 192.168.10.21:8080;           

    server 192.168.10.22:8080;         

    server 192.168.10.23:8080;

}

server {

        listen 80;

        location /dynamic {

        allow 127.0.0.1;

            deny all;

                dynamic_upstream;

        }

        location / {

            proxy_pass http://app2_backends;

        }

}

2、下线192.168.10.21节点

$ curl "http://127.0.0.1/dynamic?upstream=zone_for_app2_backends&server=192.168.10.21:8080&down="

server 192.168.10.218080  down;

server 192.168.10.228080 ;

server 192.168.10.23:8080 ;

$

3、观察一下192.168.10.21的日志,看看是不是有新的流量打入

4、在没有新流量打入,且原有流量处理完成的前提下进行正常发布192.168.10.21节点

5、确认192.168.10.21的服务正常启动后(日志或者/status都可以)

6、上线192.168.10.21节点

$ curl "http://127.0.0.1/dynamic?upstream= zone_for_app2_backends &server= 192.168.10.21 :8080&up="

server 192.168.10.21 8080  ;

server 192.168.10.22 8080 ;

server 192.168.10.23 :8080 ;

$

7、重复2-6步骤发布另外两个节点

到这里为止,大家可以看到从概念上的“不停机发布”到真正的不停机发布,我们做了一个深入的实际的可参考案例,那么够不够优雅呢?这个我们暂时不表,后面我们再进一步阐述。我们接下来看一下面向微服务的优雅发布如何操作,又有哪些细节等我们来探究?

微服务应用如何优雅发布

进入这一章节,第一印象是啥?都微服务集群了,天然都支持不停机发布了!这是大量的解决方案提供商跟我说解决方案的时候的一个答案,好像这个问题就不应该问,潜台词是,你懂不懂微服务?实际真的是这样么?

首先要声明的就是在微服务应用中负载均衡更加复杂,既涉及到客户端又涉及到服务端,在上述章节传统单体应用还主要以服务端的负载均衡为主,因此并没有对客户端负载均衡进行展开,而本章节我们就不赘述服务端的负载均衡,微服务的两大阵营Dubbo和Spring Cloud我们不会全部展开,今天仅以Spring Cloud为例进行简单剖析。

我们知道通过Ribbon配置服务提供者地址后,Ribbon就可以基于某种负载均衡算法,自动帮助服务消费者去请求。Ribbon默认为我们提供了很多负载均衡算法,例如轮询、随机等。当然,我们也可为Ribbon实现自定义的负载均衡算法。在Spring Cloud中,当Ribbon与Eureka配合使用时,Ribbon可自动从Eureka Server获取服务提供者地址列表,并基于负载均衡算法,请求其中一个服务提供者实例。下图展示了Ribbon与注册中心(Eureka/Nacos均可)、微服务网关(Zuul/Spring Cloud Gateway)的负载均衡关系。稍加解释一下:

S1线是从入口负载均衡到达微服务网关实例1(服务消费者),然后通过网关的Ribbon负载到服务2(服务提供者/服务消费者)实例1,再负载到服务1(服务提供者)实例2

S2线是从入口负载均衡到达服务网关实例3(服务消费者),然后通过网关的Ribbon负载到服务1(服务提供者)实例3

Figure-2-Ribbon在微服务系统中的负载均衡应用

那么是不是通过这样的一个架构就可以说是能提供不停机发布了呢?答案是否定的。这个原理同上一章节中是一致的,就是说负载均衡算法都是有心跳时间的,换句话说,都是通过被动的检测服务提供方的状态来决定是否剔除不健康的节点,因此虽然在微服务中都提供了健康检查的接口,因为是被动的,所以总会有失效状态和失效时间。因为微服务的负载均衡既要考虑到服务端的负载又要考虑到客户端的负载,实际上,更需要提前摘除不健康节点。这里我们可以看下阿里云提供的EDAS服务是如何做的,具体参考无损下线 Spring Cloud 应用。那么我这里就简单通过一张图来解释一下,EDAS如何做的,如果没有EDAS我们又如何做?

Figure-3-微服务优雅发布

请大家注意这张图与上图的变化:

1、运维发布的时候主动注销某一服务的实例(服务1的实例1)

2、确认待发布的节点(服务1的实例1)下线之后进行真正的发布

3、此时同样是上述的S1和S2两个请求,从注册中心中就无法查到待发布节点(服务1的实例1),将仅负载到剩余的两个实例上

运行在EDAS上的微服务,通过主动监听事件,捕获到进程注销事件后,增加了一个prestop阶段,向注册中心推送注销服务实例的消息,主动下线,确认服务节点摘除之后再进行真正的注销。

那么如果我们不跑在EDAS上要如何进行做呢?从原理上来讲,我们手工就可以做到,只是比较繁琐,下面由我来以Eureka为例进行拆解一下,大致做法如下:通过/eurekaUnregister或者/offline来通知注册中心下线,多解释一点,收到下线通知之后并不会马上通知所有的注册客户端,而是等到下一次心跳的时候再通知,这样处理的好处:首先不会增加注册中心的消息处理逻辑,其次是所有的服务调用都是在同一心跳的时候被通知不会因为立即通知下线而产生服务终端从而产生失败。

补充一点,有一些操作是可以通过DELETE操作/eureka/apps/{application.name}/{instance.id}来主动从Eureka摘除节点,但是这样的做法无法从根本上将该节点摘除,下一次心跳续约后,Eureka因为检测到该节点处于online状态,会继续把该节点加入Eureka注册中心。

Figure-4-主动通知注册中心下线

如果不通过上述两种方式进行下线,还有一种更简单的,直接调用Eureka的Restful API即可。

PUT /eureka/apps {application.name}/{instance.id} /status?value=OUT_OF_SERVICE

总结

本文通过简单的两个场景来阐述优雅发布在传统应用和微服务集群中如何做,从而真正减少由于版本更新迭代而带来的服务不可用时间,尤其是随着微服务集群的规模越来越大,如果不能提供这种不宕机发布服务,是很难协调出来一个窗口来进行更快的业务迭代,所以我们可以看到像BATJ这类型的业务你很难见到有停止服务的运营公告,但是在企业内部,甚至一些伪互联网公司的服务,提供的都是缩水的发布服务,而在用户和流量成本越来越高的时代,显然这是不可接受的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352