大数据项目测试4大原则

每次执笔想写一些简洁扼要的文字来分享自己的测试经验时,总会因笔墨淡浅戛然而止。
谈到大数据项目测试经验分享,我想给大家分享4条指导原则。

第一条最高原则、提早预防、尽早测试。

“提早预防、尽早测试” 这一条是所有项目的测试最高指导原则。
世界著名的质量管理专家戴明博士(W.Edwards.Deming)曾说过 :不能通过检验(测试)来改变产品的质量,产品开发好了,质量就在那里。
换句说话,我们不能依靠大批量的检验来达到质量标准,检验出来已经太迟,次品已定,成本高且效益低。
接下来,回想一下整个开发过程,思考缺陷检出阶段与所耗费的成本的关系,见下图:


图1. 缺陷修复成本曲线

由上图可见,要想达到高质量标准,正确的做法应该是改良生产过程,质量内建。即,提早预防、尽早测试。

  • 预防缺陷、削除解决缺陷成本
  • 尽早测试、 及时反馈、降低成本
  • 回归测试以时为单位,而不是以天或周为单位

细节这里不多赘述了,人人都知道的理论原则,重点是QA要在项目上引导团队好好贯彻落实,参见一幅旧图:QA实践,感兴趣的移步原文浏览。(来自《机器学习平台测试篇)。

图2. QA实践

第二条原则、分步、分解、再分层

“分解、分步、再分层”这一条是大数据项目特色原则。
做大数据项目的朋友都知道,大数据的处理通道比较长,经过一系列的处理加工,最终呈现给用户。由此,在测试过程中,不能再像普通项目那样,直接端对端看结果测试,否则,反馈周期长、成本高、问题定位难。正确的是在数据的每个阶段介入测试,每个阶段复杂的处理过程进行分解检验,检验的时候要从底层到顶层逐层验证。

  • 分步
    大数据有很多个阶段,最常见的:数据收集、数据集构建、数据预处理、数据特征工程、数据训练、数据预测、数据业务逻辑计算、数据展示。每步都要尽早参与验证,及早反馈。
  • 分解
    每个阶段的数据处理可能较为复杂多样,此时,建议复杂问题简单化后再进行测试。比如,在下图的FLOW中,数据集处理较为复杂,分支较多。此时,建议先对FLOW进行分解,一条条分支分别检验,一步步处理逻辑逐个验证。
图3. 复杂的数据Flow
  • 分层
    大数据项目中,数据集通常都是海量数据,原始数据会存储在集群中,如:Hadoop的HDFS;数据集的元数据信息、以及样例数据通常存放于其它数据库表当中;最后,才会展示于界面。
    数据处理过程的测试要分层检验,从底层到顶层,逐层验证:
    1)底层文件存储数据验证
    2)中间元数据以及样例数据验证
    3)顶层的界面展示验证。

第三条原则、先精准、后全量

大数据项目,实际当中,处理的都是大数据量。但在处理逻辑测试过程中,建议先用最小数据量进行精准测试;然后,再用贴近实际当中的全量数据进行验证。

  • 精准测试
    这里强调用最小数据覆盖验证更多Case,精准测试每一条逻辑。目的就是最少的数据量来验证正确性,准确测试、快速反馈。
    原本认为这条不必讲,大家都是这么做。但在实际工作中,本人参与过三个大数据项目测试、也给几个数据项目做过测试远程咨询,了解到至少70%的人都是直接拿一份已有数据表或文件直接验证。
    这样测试的弊端就在于:数据多反馈慢、定位慢、不直观、不简洁清淅。甚至,有时都不清楚这份数据量中的Case样本是否全面。更有人在自动化测试中也用的这样的数据, 这样导致自动化用时变长。
    因此,这里再次强调,逻辑正确性测试,请用最小数据量精准测试,尽可能减少多余数据干扰。
  • 全量验证
    经过最小数据集的逻辑正确性验证后,再拿大数据量进行验证,目的在于发现数据量变大时引发的功能或性能问题。有真实脱敏数据最好,用真实数据实际性检验,进一步质量保障。

第四条、真实场景、尽早上线试测

大数据项目,线上的数据五花八门,会有我们预想不到的情况,风险很高。一但数据有问题,通常直接导致主流程跑不通,致命的缺陷,上线宣告失败。因此,强烈建议在正式开放给用户之前,进行提前上线测试或预上线打通验证,越早上线实验成本越低。
而且大数据项目,往往QA环境与生产环境资源相差甚大,线上数据量非常大,远比QA环境能处理的量级高几倍。比如,QA环境测到几十G的数据量时就资源不足,但生产环境有几百甚至更大量级的数据。所以,无论从数据的复杂性还是环境的差异来看,尽早上线试测非常关键。

图4. 利弊权衡
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 很多同事问我,数据项目在做什么?怎么做的?数据项目的测试和非数据类的有什么不同? 接下来,本文从数据项目的业务、架...
    李春辉阅读 1,868评论 1 5
  • 一、 软件测试基本概念 1 bug的概念 bug类型:defect、fault、problem、error… pr...
    三口一个瓜阅读 3,631评论 0 12
  • 在机器学习平台这样的项目上,质量如何保证,测什么、怎么测、QA如何实践?在回答这些问题之前,先简单回顾一下机器学习...
    李春辉阅读 2,356评论 0 1
  • 掌握测试过程中的测试级别 掌握回归测试的概念与策略 掌握测试过程模型 了解测试过程规范 测试阶段划分 单元测试(U...
    沪漂老男人阅读 643评论 0 2
  • 3月总是一个对自己审问的月份,在吉安的3月是雨天,一个月的雨,让我的19岁末甚是伤感,我处在了一个迷失自己的阶段,...
    Hyacinthxu阅读 208评论 0 0