深卷积恶意软件分类器可以仅从原始可执行程序和标签中学习

来源：DEEP CONVOLUTIONAL MALWARE CLASSIFIERS CAN LEARN FROM RAW EXECUTABLES AND LABELS ONLY（2018），Workshop track - ICLR 2018，Marek Krcˇal ´，Czech Academy of Sciences

摘要：我们提出并评估一个简单的卷积深层神经网络体系结构，通过只学习它们的原始字节序列和标签来检测恶意可执行文件(Windows可执行文件)，也就是说，不需要任何领域特定的特征提取或预处理。这种端到端方法的性能几乎可以与基于Avast手工设计的特性的传统机器学习管道媲美。

一背景

现代深度网络的基石之一是端到端学习的方法（end-to-end learning），或等效的自动特征提取方法，即只将标签和原始数据呈现给网络，而不提供手工特征，而且几乎不进行预处理。

端到端方法尚未在恶意软件检测领域占据主导地位，这一领域的重要性和市场价值都在不断增长的恶意软件(恶意软件)开发中不断增长。尽管我们在下面提到了一些有趣的结果，但是我们还没有发现在工业界，使用干净和恶意文件数据集训练端到端神经网络分类器的尝试。在本文中，我们介绍了在2000万个Windows可执行文件(所谓的可执行文件)上训练和评估的简单但成功的卷积网络，这些文件以简单的字节序列表示。这项工作探索了标准（基线）体系结构所能达到的下限：一个嵌入层，然后是四个卷积层，中间是最大池化层，全局平均池和四个完全连接的层。有关我们的设计选择的详细信息和附加讨论，请参见第2节，这些设计选择将体系结构调整为非常小的假阳性率。我们的方法是所谓的静态恶意软件分析的端到端版本：网络只提供可执行文件所包含的字节序列。尽管如此，我们期望类似的体系结构能够在动态恶意软件分析的端到端变体上产生良好的结果，在这种情况下，网络将被赋予机器代码或其他底层表示，模拟器或沙箱将可移植可执行文件打开。Huang和Stokes(2016)在这个方向上的结果结合了沙箱模拟的一些一般特征提取和深入的表现学习。

可移植的可执行文件—用于深度学习的非传统数据类型。可移植性可执行文件是一种复杂的格式，只有本地顺序性(1-D结构)，其字节符号的含义非常多样，并且依赖于上下文。在header上下文中，在各种类型、资源或重定位表的部分中。因此，人们自然会问，已经建立良好的深度学习体系结构能在多大程度上从这种原始输入中学习。此外，我们还选择了便携式可执行文件，因为它们是迄今为止PC上安全威胁最严重的通道。我们认为，在这样一个相关且未被充分研究的数据领域进行大规模实验，可能会引起整个深度学习研究领域的关注。

数据集。在Avast的PE文件存储库中，我们选择了最近16个月收集的所有大小在12到512千字节之间的文件，不包括带有一些模糊处理方法的文件，如检测到的压缩或加密。训练、验证和测试集分别由前12个月、后2个月和最后2个月组成，这样我们就可以衡量模型如何推广到未来。为了简单起见，我们只使用二进制标签clean和恶意软件，并在整个数据集中大致平衡。

阻碍公共研究学习恶意软件分类器(尤其是深层网络分类器)的一个巨大障碍是缺乏工业规模的公共可用数据集。这导致了研究的碎片化，在那里不同的结果是直接不可比较的，如果完全可以重复的话。我们的长远目标是将我们的一些数据以某种形式和数量提供给深度学习社区。

二体系结构

我们的网络方案如图1所示;以下是几点备注:

固定的嵌入。输入序列的每个字节首先被嵌入到表单的8维向量（±1 /16;.......;±1 /16)根据其二进制表示常数1 = 16经验被发现。我们发现可学嵌入和不可学嵌入之间没有性能差异。

带步幅（stride）的卷积减少计算负载。为了减轻计算负担，我们分别在第一个和第二个卷积块上使用实验调优的4和8步长。我们已经验证了在不同的顺序中使用3、5、7和9的步长(非2的幂)会导致我们测量的所有指标的相对下降大约6-10个百分点。

训练的细节。我们根据Glorot和Bengio(2010)从均匀分布中抽取随机值初始化卷积层，根据Klambauer et al.(2017)对全连通层进行初始化。训练损失是通常的交叉熵，每一个干净样本造成的损失是每一个恶意样本的7倍。我们将可执行文件分组到128个类似大小的文件中，这些文件都是在末尾的0(右填充)中填充的。该网络由Adam优化器(Kingma和Ba(2014))使用默认参数进行训练。根据验证集上的分数，我们在第三个周期（epoch）后不久就停止了训练。

由零假阳性目标驱动的选择。恶意软件探测器被调到较低的假阳性率，这样它们就不会让用户被真实分布下的假恶意软件检测所淹没，而这些恶意软件在干净的文件中占据着巨大的主导地位。我们将目标分数形式化为受测者曲线下的面积，限制在区间[0，0.001]假阳性率。为了方便起见，该区域以最大可能的百分比报告——0:001。我们将把这样的分数作为限制AUC。下面我们列出了我们的体系结构可能发生的变化以及相应的受限AUC分数的估计下降。另一方面，每一种变化都提高了交叉熵和/或准确度:

1、全局最大值（Global Max）而不是全局平均值（Global Average）:-20%相对下降。

2、同等权重的干净和恶意软件文件:-10%相对下降。

3、ReLU而不是SELU在全连通层:-4%相对下降。

相关的工作基线。Raff等人(2017)最近开发了一种叫做MalConv的复杂架构，用于同样的任务，但使用的是比我们小的数据集排序。所提出的体系结构已经完全独立开发，我们发现使用MalConv的元素没有任何改进。相反，我们通过使用两步法的步幅（stride）、SELU激活和删除DeCov正则化，稍微提高了MalConv在数据集上的性能，见图2。尽管如此，考虑到用于开发的有限数据集，MalConv的性能非常好，请参见表1。

三、评估

学会的和手工制作的表征。我们将学到的卷积特性与Avast的恶意软件分析人员针对快速特征原型设计的机器学习系统中的538个静态特性进行了比较。为此，我们训练和评估使用形状为538–512–256–192–168–128–2 且带SELU的前馈网络(FNN)。最后，为了衡量学习到的表示与手工设计的表示之间的互补性，我们将我们的convet输出的192位特征添加到手工构造的特征中，形成富特征，然后再运行前馈神经网络。结果见表1。集成方法的最佳结果表明，从原始可执行文件中学习是一个有价值的新特性工程过程。值得注意的是，从原始可执行文件和手工设计的特性中共同学习可能会产生更好的结果。

集成方法的最佳结果表明，从原始可执行文件中学习是一个有价值的新特性工程过程。值得注意的是，从原始可执行文件和手工设计的特性中共同学习可能会产生更好的结果。

使用grad-CAM定位。我们使用梯度加权类激活映射(grad-CAM) (Selvaraju等人(2017))来查找文件中对卷积网络恶意软件预测贡献最大的块。我们让恶意软件分析人员判断在几个选定的可执行文件中突出显示的块的相关性。并非总是如此，但他们经常发现一些可疑的东西:可移植可执行文件的头嵌在可移植可执行文件中，或者“版本信息”部分，在Xindl病毒中带有假供应商和软件名称，或者在ransomware Locky中非常不常见的导入API函数列表。

结论。一方面，对原始可执行文件和标签的端到端学习仍然只略微落后于引用ML管道，即使是在为卷积网络选择的数据集上也是如此。另一方面，从深度学习模型在计算机视觉、机器翻译或语音识别等领域的长期改进速度来看，我们预计新体系结构以及从更大、更精细的数据集中学习可以显著提高性能。在为深入的表示学习留出空间的同时，插入一些领域知识有一个面向生产的正交方向:使用恶意软件家族作为细化的标签(Huang和Stokes(2016)))，通过熵速率(Saxe和Berlin(2015)))等其他信号丰富字节序列，或者针对可移植可执行文件调整体系结构。加速训练将是进一步改进和生产适用性的重要催化剂:在这里，诸如Chollet(2017)的深度可分离卷积或Shazeer等人(2017)的稀疏门控混合专家可能会有所帮助。最后，但同样重要的是，我们相信深度学习最终会通过观察和锁定恶意软件和干净文件中的不为人所见的模式来对其人类有益。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 225,271评论 6赞 524
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,533评论 3赞 405
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 172,580评论 0赞 370
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 61,203评论 1赞 303
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,204评论 6赞 401
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,664评论 1赞 316
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,014评论 3赞 431
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,991评论 0赞 280
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,536评论 1赞 326
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,558评论 3赞 347
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,678评论 1赞 355
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,267评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,997评论 3赞 341
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,429评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,580评论 1赞 277
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,259评论 3赞 382
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,744评论 2赞 366

深卷积恶意软件分类器可以仅从原始可执行程序和标签中学习

推荐阅读更多精彩内容