Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscati...

S&P 2019 ｜原文链接｜论文PPT

1 Abstract

实用的二进制代码克隆搜索引擎依赖于汇编代码的强大矢量表示形式。但是，现有的代码克隆搜索方法依赖于手动的特征工程过程来为汇编函数形成特征向量，但却不考虑特征之间的关系，同时无法识别那些可以通过统计来区分汇编函数的独特模式。

为了解决这个问题，论文提出将汇编程序的词汇语义关系和汇编函数的向量表示结合起来。论文研究出了了汇编代码表示学习模型Asm2Vec。它只需要汇编代码作为输入，不需要任何先验知识如汇编函数之间的正确映射。它可以在汇编代码的token之间找到并合并丰富的语义关系。

论文表明，学习的表示形式更鲁棒，并且相对于混淆和优化所引入的变化，其性能明显优于现有方法。

2 Introduction

设计一个代码克隆搜索引擎的困难在于：编译器优化和代码混淆让两个逻辑上相似的汇编函数看起来不同。编译器优化和代码混淆会破坏控制流图和基本块，从而导致汇编函数语义上相似但是结构上不同。

开发一个克隆搜索引擎需要一个强大的汇编代码矢量表示，通过它可以测量查询和索引函数之间的相似性。基于手动设计的功能，可以将相关研究分为静态或动态方法。<u>动态方法</u>通过动态分析汇编代码的I / O行为对语义相似性进行建模；<u>静态方法</u>通过在汇编代码之间就语法或描述性统计数据，来寻找静态差异来对它们之间的相似性进行建模。

创新点

该论文的创新性主要两点：

将词汇语义的关联添加进模型；
已存在的静态方法的特征权重是一样的，或者需要一个等价的集合函数的映射来学习权重。该论文通过训练许多汇编代码的数据，让该模型识别出将一个功能与其他功能区分开来的最佳表示。

贡献

论文提出了一种用于汇编代码克隆检测的新方法。这是利用表示学习来为汇编代码构造特征向量的第一项工作，同时能够减轻人工工作；
论文开发了一个用于汇编代码语法和控制流图的表示学习模型，即Asm2Vec。该模型学习token之间的潜在词法语义，并将汇编函数表示为相互加权的集合语义的混合。学习过程不需要任何关于汇编代码的先验知识，比如编译器优化设置或汇编函数之间的正确映射。它只需要汇编代码函数作为输入。
论文证明，与最新的静态功能和动态方法相比，Asm2Vec在代码混淆和编译器优化方面更具弹性。实验涵盖了编译器的不同配置以及强大的混淆器，该混淆器可替代指令，拆分基本块，添加伪逻辑并完全破坏原始控制流程图。论文还对公开的漏洞数据集进行了漏洞搜索案例研究，其中Asm2Vec的误报率为零，召回率为100％。它优于动态的最新漏洞搜索方法。

3 Overall Workflow

在这里插入图片描述

通过汇编函数数据集构造一个神经网络模型
模型为每一个库函数构造一个向量
利用模型预测目标函数Ft的表示向量
用余弦相似度来比较Ft和其他在库中的向量来得到top-k候选向量

4 Assembly Code Representation Learning（汇编代码表示学习）

PV-DM模型

首先，通过原始的PV-DM神经网络学习文本段落的矢量化表示。
然后，制定Asm2Vec模型，并描述如何针对给定函数在指令序列上对其进行训练。
之后，阐述如何将控制流程图建模为多个序列。

原始的PV-DM模型

PV-DM模型设计用于文本数据。它是原始word2vec模型的扩展。它可以共同学习每个单词和每个段落的矢量表示。

Asm2Vec模型

本部分对应于图3中的步骤1和2。训练表示模型，并为每个存储库函数fs∈RP生成数值向量。

在这里插入图片描述

首先，将每个存储库函数 $f_s$ 映射到一个向量 $\vec{\theta_{f_{s}}} \in R^{2\times{d}}$ 。将汇编代码中的操作数和运算视为token，将每一个token t映射到两个数值向量 $\vec{v_{t}} \in R^d$ 和 $\vec{v^{'}_t}\in R^2d$ ， $\vec{v_t}$ 用于tokens之间的关系的向量表示， $\vec{v^{'}_t}$ 用于token的预测。 $\vec{\theta_{f_{s}}}$ 和 $\vec{v_t}$ 初始化为小随机数， $\vec{v^{'}_t}$ 被初始化为0。

[图片上传失败...(image-6fe8d9-1604201082988)]

在这里插入图片描述

对每一个函数 $f_s \in RP$ ，它有许多的指令序列 $S(f_s) = seq[1:i]$ ，一个指令序列中有许多指令 $I(seq_i)=in[1:j]$ ，一个指令 $in_j$ 包含操作数 $A(in_j)$ 和操作符 $P(in_j)$ 。token $T(in_j) = P(in_j) \parallel A(in_j)$ 。

对于函数 $f_s$ 中的每个序列 $seq_i$ ，神经网络从一开始就遍历所有指令。获得当前指令 $in_j$ ，上一条指令 $in_{j -1}$ 和下一条指令 $in_{j +1}$ 。忽略了边界的指令。通过PV-DM模型最大化目标函数：
[图片上传失败...(image-10b0b3-1604201082988)]](https://img-blog.csdnimg.cn/20200905144029945.png#pic_center)

通过当前函数的向量和邻居指令来预测当前指令。邻居指令提供的向量捕获了语法上的语义关系，当前函数的向量会记住在上下文中无法预测的内容，它对区分当前功能和其他功能的指令进行建模。

给定一个函数 $f_s$ ，通过先前构建的字典查找它的向量表示 $\vec{\theta_{f_{s}}}$ 。为了将邻居指令建模为 $CT(in) \in R^{2×d}$ ，对它的操作数（∈Rd）的向量表示取平均，并将平均向量（∈Rd）与操作符的向量表示进行连接。
它可以表示为：
[图片上传失败...(image-960656-1604201082988)]

通过用 $CT(in_j − 1)$ 和 $CT(in_j + 1)$ 对 $f_s$ 求平均值， $\delta(in,f_s)$ 对邻居指令的联合记忆进行建模：

[图片上传失败...(image-3c0f7f-1604201082988)]

给定 $\delta(in,f_s)$ ，公式2中的概率项可以重写如下:

[图片上传失败...(image-c7f35a-1604201082988)]

之前说过，将每一个token映射成两个向量 $\vec{v}$ 和 $\vec{v^{'}}$ ， $\vec{v^{'}}$ 被用来进行预测。公式5中的概率可以建模为softmax多类回归问题：

[图片上传失败...(image-ee6694-1604201082988)]

D表示根据库RP构建的整个词汇表。 Uh(·)表示应用于向量的每个值的Sigmod函数。|D|对于softmax分类太大。所以使用k个负采样方法将对数概率近似为：

[图片上传失败...(image-263062-1604201082988)]

[[·]]函数：如果此函数内部的表达式的计算结果为true，则输出1；否则，结果为0。负采样算法通过随机选择的k个负样本 ${td \vert td\neq tc}$ 来区分正确的猜测tc。 $E_{t_{d}~P_{n}(tc)}$ 是采样函数，根据噪声分布 $P_{n}(tc)$ 从词汇表D中提取一个token $t_d$ 。通过分别取 $\Vec{v_t}$ 和 $\Vec{\theta_{f_s}}$ 的导数，可以如下计算梯度：