服务端稳定性测试的理论篇

当前我司业务发展蒸蒸日上,业务需求像洪水一样袭来。系统服务的稳定性重要作用不言而喻。本文主要就服务端的稳定性测试工作浅谈一下。

Alt pic

稳定性测试背景及目标

稳定性测试主要测试系统的长时间稳定运行能力,通过对用户实际使用场景的负载及应用场景分析,模拟真实的用户使用场景,并进行长时间的稳定运行,以保证产品在长时间运行方面可能存在的潜在问题的及时发现和有效解决。

稳定性测试引入必要性分析

首先,部分问题,如内存泄露、句柄泄露、死锁等,在常规功能测试中难以发现,需要通过压力的注入以及系统的运行达到一定的时间后,才能触发问题的产生,所以引入稳定性测试,可以有利于该类问题的及时发现和提前解决;同时,在系统正常上线之前,通过对真实环境的长时间模拟测试,也可以有效的验证系统在正式上线以后的稳定运行能力,为产品上线后的稳定性和鲁棒性提供一定的数据参考。

Alt pic

稳定性测试执行策略及方法

具体执行策略

  • 测试时间:最好保证系统持续稳定性运行724小时,最小稳定运行时间为324小时。
  • 测试场景:参考业务的实际使用场景构建压力模型,模拟实际的场景运行(实际负载和并发量等),并且在测试中模拟实际日常的用户操作,操作中需要考虑并发因素,包括单操作并发和不同操作并发两种场景。
  • 测试负载选择策略:一般和线上的实际场景保持一致,如果没有线上数据的时候,采取梯度加压的方法来进行变化。
  • 稳定性测试是概率性的测试,就是说即使稳定性测试通过,也不能保证系统实际运行的时候不出问题。所以要尽可能的提高测试的可靠性。可以通过多次测试,延长测试时间,增大测试压力来提高测试的可靠性。
  • 稳定性测试的测试时间和压力存在一定的关系。在测试时间不能保证的情况下,可以通过增强压力以及增大测试对象数量来达到快速验证的目的,但是建议最小测试时间不要小于3*24小时。
Alt pic

稳定性测试用例设计考虑维度

  • 时间
  • 大流量
  • 并发
  • 使用环境
  • 使用方法
  • 极端情况

时间,产品能持续长时间工作吗?可能会导致的问题:内存泄漏,队列堆积,存储等慢速设备持续跟不上,Cache,Buffer累积性问题,内存溢出等。

大流量,产品能处理这么大流量吗?可能导致的问题:系统崩溃,性能严重下降,资源耗尽,DB或磁盘空间满,触发系统的一些行为(流量控制等),依赖系统的一些异常等。

并发,在一定并发量的情况下系统有无异常?可能导致的问题与上面两种类似。并发包括平均并发量;峰值并发量;均值为主,特定时间加入峰值;加压,使系统资源达到特定值,维持压力,持续运行等情形。

使用环境:不同平台,网络,基础架构等。一般来说此为客户端稳定性测试需要考虑的验证点。

使用方法:客户对相关应用的使用方式。具体到服务端来说,有被依赖方调用底层接口使用姿势等问题。

极端情况:极端情况下,应用可以crash,但是不能丢数据等情形的验证。

Alt pic

测试关注点

  • 观察系统在有负载的情况下业务运行是否正常,是否存在内存泄露、句柄泄露、数据一致性等问题导致系统出现崩溃、异常重启。
  • 是否存在系统长时间运行下,系统性能下降明显,响应时间快速增长,可用内存是否在减少,CPU利用率是否在上升等等都可以说明系统是否存在问题。
  • 其他项:包括CPU,MEM,disk i/o,网络,应用的日志,数据库状态,请求准确率,响应时间,吞吐量等。

常用测试工具介绍

压力工具方面,根据压力维度的不同主要分为CPU、内存、网络IO以及磁盘IO的压力工具,各种维度中的常用工具请参考如下内容。

Alt pic

典型服务端稳定性bug举例与分析

Bug:系统在长时间连续运行3天以后,虚拟机出现异常重启现象。
分析:典型稳定性测试问题,该类问题一般需要在长时间的连续运行情况下才会触发,该问题主要由于系统中存在内存泄露现象导致,在连续运行3天以后,泄露达到了问题的触发点,导致虚拟机异常重启,一般该类问题的出现时间还与系统的负载有一定的关系,在系统负载很高的情况下,问题的触发几率会增大,同时发生的时间间隔也可能出现一定的缩短。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 1.测试与软件模型 软件开发生命周期模型指的是软件开发全过程、活动和任务的结构性框架。软件项目的开发包括:需求、设...
    Mr希灵阅读 21,957评论 7 278
  • 1.测试与软件模型 软件开发生命周期模型指的是软件开发全过程、活动和任务的结构性框架。软件项目的开发包括:需求、设...
    宇文臭臭阅读 6,723评论 5 100
  • 文章来自:http://blog.csdn.net/mj813/article/details/52451355 ...
    好大一只鹏阅读 9,191评论 2 126
  • 《老人与海》是海明威的一部作品,也因着它使海明威获得了诺贝尔文学奖,可见这部作品对人类、对每个读者产生巨大的影响。...
    夜空闪亮之星阅读 556评论 0 1
  • “你在干嘛呢?” “我在泡温泉,昨天朋友过生日,酒喝多了,被他们稀里糊涂带到这里的!” “还不如出来我给你开个房间...
    谷子地阅读 375评论 0 2