大数据测试要点

一.功能性测试

大数据功能主要涉及系统实现面向大数据分析应用的POSIXAPI,包括文件读取与访问控制,元数据操作,锁操作等功能; 大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点; 功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。 在多个节点上处理大数据的过程中,存在由于‘无用数据’和数据质量问题带来的各种问题。功能测试主要用以识别由于编码错误或节点配置错误带来的数据问题。

其包括以下几个阶段:

a.数据导入/预处理验证阶段

 根据具体的应用背景和业务需求,各种数据源如网络日志,物联网,社会网络及互联网文本和文件等被按需加载到HDFS中待处理。在这个过程可能会由于不正确或不复制,存储而导致的错误数据,对于这种情况,可采用以下方式进行测试: 1.输入文件与源文件进行比对,保证数据的一致性; 2.根据数据需求来保证获取数据的准确性; 3.验证文件被正确的加载进HDFS,且被分割,复制到不同的数据节点中。

b.MapReduce数据输出验证阶段

当数据加载进行HDFS后,mapreduce开始对来自不同数据源的数据进行处理。在这个过程中可能会出现mapreduce处理过程中的编码问题,如在单一节点上运行正确,在多个节点上运行不正确的问题,包括不正确的聚合,节点配置,输出格式等。对于这个阶段的问题,可采用以下验证手段: 1.验证梳理数据处理正常完成,输出文件正常得到; 2.在单个节点上验证大数据的业务逻辑,进 而在多节点上进行相同验证; 3.验证mapreduce处理过程的key/value对是否正确生产; 4.在reduce过程结束后验证数据的聚集合并是否正确; 5.通过源文件验证输出数据来保证数据处理正确完成; 6.按照大数据业务所需,验证输出数据文件格式是否符合要求。

c.验证大数据ETL到数据仓库

当mapreduce过程结束后,产生的数据输出文件将被按需移至数据仓库或其它的事务型系统.在此过程中,可能会由于不正确地应用转换规则,从HDFS中提取的数据不完全而带来问题。针对于这个阶段的问题可采用以下方法: 1.验证转换规则是否正确应用; 2.通过比较目标表数据和HDFS文件数据来验证是否有数据损坏; 3.验证目标系统数据加载是否成功; 4.验证目标系统的数据完整性。

Java初高级一起学习分享,共同学习才是最明智的选择,喜欢的话可以我的学习群64弍46衣3凌9,或加资料群69似64陆0吧3

d.验证分析报告 从数据仓库或者Hive中得到的数据,可通过报表工具得到分析报告;这个过程可能会产生报表定义不能达到要求的报表数据问题;在这个过程中可通过查询来验证报表是否满足业务要求。

二.非功能性测试

由于大数据面向具体行业的应用,除了功能性测试,在整个大数据处理框架下需要进行非功能性测试,以下几种:

a.性能测试 性能是评估一个大数据分析系统的最为关键的维度,大数据系统性能主要包括吞吐量,任务完工时间,内存利用率等多个指标,可反应大数据分析平台的处理能力,资源利用能力等性能。可通过Hadoop性能监控器来监测运行状态性能指标和瓶颈问题,性能测试采用自动化化方式进行,测试系统在不同负载情况下的性能.

b.容错性测试 可从部分失效中自动恢复,而且不会验证的影响整体性能,特别地,当故障发生时,大数据分析系统应该在进行恢复的同时继续以可接受的方式进行操作,在发生错误时某种程度上可以继续操作,需根据应用场景来设计解决方案和具体部署,然后手动测试。

c.可用性测试 高可用性已是大数据分析不可或缺的特性之一,从而保证数据应用业务的连续性.大数据高可用性对很多应用非常关键,需要严格进行测试和验证,以手动测试为主。

d.扩展性测试 弹性扩展能力对于大数据时代的文件系统尤其重要,文件系统扩展性测试主要包括测试系统弹性扩展能力(扩展/回缩)及扩展系统带来的性能影响,验证是否具有线性扩展能力,以手动测试为主。

e.稳定性测试 大数据分析系统通常是不间断长期运行,稳定性的重要性不言而喻,稳定测试主要验证系统在长时间(7/30/180/365*24)允许下,系统是否仍然能够正常运行,功能是否正常.稳定性测试通常采用自动化方式进行,LTP,10ZONE,POSTMARK,FIO等工具对测试系统产生负载,同时需要验证功能。

f.部署方式测试 大数据具备scale-out的特点,能够构建大规模,高性能的文件系统集群。针对不同应用和解决方案,文件系统部署方式会有显著不同; 部署方式测试需要测试不同场景下的系统部署方式,包括自动安装配置,集群规模,硬件配置(服务器,存储,网络),自动负载均衡等,这部分测试不大可能进行自动化测试,需要根据应用场景来设计解决方案和具体部署,再进行手动测试.

g.数据一致性测试 这里的数据一致性是指文件系统中的数据与从外部写入前的数据保持一致,即写入数据与读出数据始终是一致的.数据一致性能够表明文件系统可保证数据的完整性,不会导致数据丢失或数据错误,这是文件系统最基本的功能,测试可用diff,md5sum编写脚本自动化测试,LTP也提供了数据一致性的测试工具。

h.压力测试 大数据分析系统的负载能力是存在上限的,系统过载时,系统就可能存在性能下降,功能异常,拒绝访问等问题。压力测试是验证系统造大压力下,包括数据多客户端,高OPS压力,高IOPS/吞吐量压力,系统是否仍然能够正常运行,功能是否正常,系统资源消耗情况,从而为大数据运营提供依据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容