原文链接:Microsoft Malware Classification Challenge
作者:Royi Ronen等人
单位:Microsoft,CrowdStrike,Microsoft Research,Northeastern University
发表时间: 2018/2/22
摘要
Microsoft恶意软件分类挑战赛(Microsoft Malware Classification Challenge)于2015年宣布,同时发布了将近0.5 TB的巨大数据集,其中包括超过2万个恶意软件样本的反汇编和字节码。 除了在Kaggle竞赛中提供服务外,数据集已成为研究恶意软件行为建模的标准基准。 迄今为止,该数据集已被50多个研究论文引用。 在这里,我们提供引用该数据集的出版物的高级比较。 通过比较,可以简化在该领域的潜在研究方向以及对数据集的未来性能评估。
1简介
近年来,恶意软件行业已成为一个庞大且组织良好的市场[45]。资金雄厚,由多个参与者组成的联合组织会大量投资于为逃避传统保护而构建的技术和功能,要求反恶意软件厂商开发反机制以发现和停用它们。同时,它们对计算机系统的用户造成严重的财务损失。如今,反恶意软件所面临的主要挑战之一是需要评估大量数据的潜在恶意意图。例如,微软的实时反恶意软件检测产品可在全球超过6亿台计算机上运行[36]。这将产生数千万的每日数据点,以分析为潜在的恶意软件。大量不同文件的主要原因之一是,为了逃避检测,恶意软件作者将多态性引入了恶意组件。这意味着使用各种策略不断修改和/或混淆属于相同恶意软件“家族”且具有相同形式恶意行为的恶意文件,从而使它们看起来像是许多不同的文件。
对如此大量的文件进行有效的分析和分类的第一步是将它们分组并确定它们各自的家族。此外,可以将此类分组标准应用于计算机上遇到的新文件,以将其检测为恶意软件并属于某个家庭。为了促进该领域的研究,特别是在将恶意软件文件的变种分组到其各自家族中的有效技术的开发中,Microsoft为数据科学和安全社区提供了前所未有的规模的恶意软件数据集。在这里,我们总结了迄今为止发布的该数据集的许多用途。
2数据集
未压缩时,恶意软件数据集几乎为1 TB的一半。它由一组代表9个不同家族的已知恶意软件文件组成。每个恶意软件文件都有一个标识符,一个20个字符的哈希值(唯一地标识该文件)和一个类标签,该标签是代表该恶意软件可能属于的9个家族名称之一的整数(请参见表1)。对于每个文件,原始数据均包含文件二进制内容的十六进制表示形式,不包含标题(以确保无菌)。数据集还包括一个元数据清单,该清单是一个日志,其中包含从二进制文件中提取的各种元数据信息,例如函数调用,字符串等。这是使用IDA反汇编程序工具生成的。给参与者的最初问题是将恶意软件分类为9个类别之一。数据集可以从Competition下载。
3 引文
比较自2015年4月竞赛结束以来,已有50余篇研究论文和论文引用了竞赛和数据集。在引文中,有几篇论文不是用英语撰写的,因而无法阅读[9,33,6,35]。其余文章可分为两个主要类别。第一类论文提到了执行抽象比较的挑战,或者强调了机器学习对于数据量巨大的行业中恶意软件分类的重要性[43,19,28, 47、18、38、49、44、25、53、46、21、4、57、16、17、39、50]。第二类论文对数据集进行了部分或完整评估,以验证其针对各种任务所提出的方法的有效性和/或效率。我们在表2中列出了按发表日期排序的第二类论文。此外,我们总结了每篇论文的主要贡献或重点,以形成更高层次的集群。特征工程,特征选择/融合,可扩展,健壮,恶意软件作者归属,检测概念漂移,执行测量,相似性哈希,分类技术和深度学习是本文的主要贡献。贡献的多样性使数据集可以完成各种任务,帮助研究人员提供评估和比较的标准。
4结论和未来方向
在本文中,我们简要描述了Microsoft恶意软件分类挑战数据集的特征。 该数据集正成为标准的数据集,已有50多篇论文被引用。 我们尽可能地列举了这些参考文献,并比较了它们对数据集的主要贡献。 比较有助于理解现有的贡献以及潜在的研究方向。作者旨在保持参考表的更新。 我们鼓励社区在使用数据集时引用此论文,并向我们更新此类工作,以便可以将其添加到本文中。