VDiscover 分析

0x00 VDiscover介绍

VDiscover是G.Grieco开发出的利用机器学习进行二进制漏洞挖掘的轻量级Python项目，他们从大量程序中提取出静态特征和动态特征，训练出漏洞预测模型，预测二进制程序漏洞。
这里是他们的技术文档Toward large-scale vulnerability discovery using Machine Learning，这是项目的GitHub地址VDiscover。

0x01 VDiscover安装

在Ubuntu下进行安装，首先安装python-numpy python-matplotlib python-setuptools python-scipy依赖，然后执行以下命令进行安装：

sudo apt-get install python-numpy python-matplotlib python-setuptools python-scipy
git clone https://github.com/CIFASIS/VDiscover.git
cd VDiscover
python setup.py install –user

0x11 设置环境变量

sudo nano .zshrc  #我用的是zsh

加入以下两行

#for yyyyyyyyt
export PATH=$PATH:~/.local/bin

执行脚本内容，更改立即生效

source .zshrc

0x12 VDiscover测试

执行以下命令，提取gzip程序的动态特征：

fextractor --dynamic examples/testcases/gzip

0x02 静态特征提取

0x21 基本思路

将程序代码映射到表中，存储指令序号、地址、关键操作码/None、关键操作码后跟的地址(即跳转或者函数调用的地址)/None。这样不需要执行程序就可以模拟程序执行流程，提取程序执行时的函数调用流。
在模拟运行时首先会随机选取一个库函数调用指令，然后从那条指令开始“执行”，由于没有真正运行程序，在遇到条件跳转的时候会随机选择跳或者不跳，其它流程都可以正常模拟，直到遇到exit函数或者ret指令等结束，然后按顺序记录下函数调用流。
静态特征提取会得到大量的这种函数调用流。

fextractor --static examples/testcases/gzip

运行fextractor脚本可以进行特征提取，--static选项可指定提取静态特征，上面这行代码可将gzip程序的静态特征提取出来，并输出到shell

静态特征提取

0x22 提取步骤

1、从ELF中提取PLT、GOT表

2、将程序的汇编代码（线性搜索-objdump）提取出来，做成一个列表和一个字典，列表useful_inss_list的格式为[序列号，指令地址，关键操作码/None，关键操作码后跟的地址/None]，以指令地址作为关键字再组建一个字典useful_inss_dict，并且将所有的plt调用写入libc_calls列表中。注：关键操作码包括条件跳转和非条件跳转

关键操作码

关键处理

3、从libc_calls中随机选择一个库函数，从该函数调用开始顺序记录执行的函数名，直到程序结束。就是从随机的一处调用起走一遍程序的执行流程，遇到跳转就直接走到目标地址，遇到条件跳转就随机选择一条路径往下走，记录沿途调用的函数。可以定义随机跟踪函数调用的次数，得到用”.”号隔开的N个函数调用流。

跟踪系统函数调用流

0x23 静态特征提取中存在的问题：

1、一个主要的问题是很多地方没有考虑到10进制数字和16进制字符串的转换，使得一些逻辑流程存在问题，应该记录的库函数调用没有记录下来
2、一开始会从plt表中筛选出存在于specs中的函数，但是specs中的函数又不全，会导致本应该添加到函数调用流的函数没有添加进去。如果被筛掉的函数是一个exit类函数，会有陷入死循环的可能
3、有些条件跳转指令没有加上，比如说"jne"，严重的话可导致在某些地方产生死循环

修改RandomWalk.py
下面尽可能修复了这三处问题，关于第一个问题只需要在进行plt表比对前将数据转换为10进制数，然后再进行比对；解决第二个问题直接用原先的plt表，不要筛掉里面的任何函数；解决第三个问题只能暂时在条件跳转列表里加上“jne”，如果以后发现有遗漏再继续添加。

***第43-47行***
注释掉

***第49行***
elf.plt = elf.addr2name #至少要把所有的外部函数函数都收集起来吧

***第55行***
在cond_control_flow_ins列表中加上"jne"

***第58行***
ncond_control_flow_ins = ["ret", "jmp", "call", "retq", "jmpq", "callq"] 

***第156行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt:
    r = r + " " + elf.plt[ins_jaddr_plt]
    if elf.plt[ins_jaddr_plt] in ["exit", "_exit"]:
        break

***第182行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt:  # call equivalent using jmp
    r = r + " " + elf.plt[ins_jaddr_plt]

***第191行***原190行
注释掉，否则10进制无法匹配16进制

0x03 动态特征提取

0x31 基本思路

将程序路径及其参数用指定的格式进行存储，在脚本启动后会创建一个子进程来运行该程序且参数可以变异（模糊测试）。使用ptrace对程序进行监控，在入口点下断点，然后在所有包含在specs字典中且在程序plt表中的函数的调用处下断点，运行程序每当在库函数停下时，检测其参数（读取参数并细分其类型），最后按照某一格式存储起来。

0x32 提取步骤

1、获取程序运行参数，提取动态特征需要真实运行程序，因此需要指定程序运行时的参数，典型的测试用例文件夹具有以下结构：一个path.txt文件和inputs文件夹，所谓参数获取正是从下列文件中提取出要执行的程序及其运行参数。
PS：如果要添加新的样例，也要按照下面格式添加程序的路径和参数等信息

program      
 path.txt          #包含要被分析的二进制程序的完整绝对路径
 inputs
   argv_1.symb     #指定第一个参数
   argv_2.symb     #指定第二个参数
   ...
   file_filename1.ext.symb
   file_filename2.ext.symb
   ...

2、同样需要从程序中提取出plt表和got表，也是筛选plt表中的函数，如果该函数也在specs中，就在其plt表处下一个断点，并用binfo字典来存储断点信息。