MMCC微软恶意软件分类挑战数据集

原文链接:Microsoft Malware Classification Challenge

作者:Royi Ronen等人

单位:Microsoft,CrowdStrike,Microsoft Research,Northeastern University

发表时间: 2018/2/22

摘要

Microsoft恶意软件分类挑战赛(Microsoft Malware Classification Challenge)于2015年宣布,同时发布了将近0.5 TB的巨大数据集,其中包括超过2万个恶意软件样本的反汇编和字节码。 除了在Kaggle竞赛中提供服务外,数据集已成为研究恶意软件行为建模的标准基准。 迄今为止,该数据集已被50多个研究论文引用。 在这里,我们提供引用该数据集的出版物的高级比较。 通过比较,可以简化在该领域的潜在研究方向以及对数据集的未来性能评估。

1简介

近年来,恶意软件行业已成为一个庞大且组织良好的市场[45]。资金雄厚,由多个参与者组成的联合组织会大量投资于为逃避传统保护而构建的技术和功能,要求反恶意软件厂商开发反机制以发现和停用它们。同时,它们对计算机系统的用户造成严重的财务损失。如今,反恶意软件所面临的主要挑战之一是需要评估大量数据的潜在恶意意图。例如,微软的实时反恶意软件检测产品可在全球超过6亿台计算机上运行[36]。这将产生数千万的每日数据点,以分析为潜在的恶意软件。大量不同文件的主要原因之一是,为了逃避检测,恶意软件作者将多态性引入了恶意组件。这意味着使用各种策略不断修改和/或混淆属于相同恶意软件“家族”且具有相同形式恶意行为的恶意文件,从而使它们看起来像是许多不同的文件。

对如此大量的文件进行有效的分析和分类的第一步是将它们分组并确定它们各自的家族。此外,可以将此类分组标准应用于计算机上遇到的新文件,以将其检测为恶意软件并属于某个家庭。为了促进该领域的研究,特别是在将恶意软件文件的变种分组到其各自家族中的有效技术的开发中,Microsoft为数据科学和安全社区提供了前所未有的规模的恶意软件数据集。在这里,我们总结了迄今为止发布的该数据集的许多用途。

2数据集


数据集中的恶意软件家族

未压缩时,恶意软件数据集几乎为1 TB的一半。它由一组代表9个不同家族的已知恶意软件文件组成。每个恶意软件文件都有一个标识符,一个20个字符的哈希值(唯一地标识该文件)和一个类标签,该标签是代表该恶意软件可能属于的9个家族名称之一的整数(请参见表1)。对于每个文件,原始数据均包含文件二进制内容的十六进制表示形式,不包含标题(以确保无菌)。数据集还包括一个元数据清单,该清单是一个日志,其中包含从二进制文件中提取的各种元数据信息,例如函数调用,字符串等。这是使用IDA反汇编程序工具生成的。给参与者的最初问题是将恶意软件分类为9个类别之一。数据集可以从Competition下载。

3 引文

比较自2015年4月竞赛结束以来,已有50余篇研究论文和论文引用了竞赛和数据集。在引文中,有几篇论文不是用英语撰写的,因而无法阅读[9,33,6,35]。其余文章可分为两个主要类别。第一类论文提到了执行抽象比较的挑战,或者强调了机器学习对于数据量巨大的行业中恶意软件分类的重要性[43,19,28, 47、18、38、49、44、25、53、46、21、4、57、16、17、39、50]。第二类论文对数据集进行了部分或完整评估,以验证其针对各种任务所提出的方法的有效性和/或效率。我们在表2中列出了按发表日期排序的第二类论文。此外,我们总结了每篇论文的主要贡献或重点,以形成更高层次的集群。特征工程,特征选择/融合,可扩展,健壮,恶意软件作者归属,检测概念漂移,执行测量,相似性哈希,分类技术和深度学习是本文的主要贡献。贡献的多样性使数据集可以完成各种任务,帮助研究人员提供评估和比较的标准。

4结论和未来方向

在本文中,我们简要描述了Microsoft恶意软件分类挑战数据集的特征。 该数据集正成为标准的数据集,已有50多篇论文被引用。 我们尽可能地列举了这些参考文献,并比较了它们对数据集的主要贡献。 比较有助于理解现有的贡献以及潜在的研究方向。作者旨在保持参考表的更新。 我们鼓励社区在使用数据集时引用此论文,并向我们更新此类工作,以便可以将其添加到本文中。


在MMCC数据集上进行了部分或者完整的评估的研究论文比较
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容