0x00 VDiscover介绍
VDiscover是G.Grieco开发出的利用机器学习进行二进制漏洞挖掘的轻量级Python项目,他们从大量程序中提取出静态特征和动态特征,训练出漏洞预测模型,预测二进制程序漏洞。
这里是他们的技术文档Toward large-scale vulnerability discovery using Machine Learning,这是项目的GitHub地址VDiscover。
0x01 VDiscover安装
在Ubuntu下进行安装,首先安装python-numpy python-matplotlib python-setuptools python-scipy依赖,然后执行以下命令进行安装:
sudo apt-get install python-numpy python-matplotlib python-setuptools python-scipy
git clone https://github.com/CIFASIS/VDiscover.git
cd VDiscover
python setup.py install –user
0x11 设置环境变量
sudo nano .zshrc #我用的是zsh
加入以下两行
#for yyyyyyyyt
export PATH=$PATH:~/.local/bin
执行脚本内容,更改立即生效
source .zshrc
0x12 VDiscover测试
执行以下命令,提取gzip程序的动态特征:
fextractor --dynamic examples/testcases/gzip
0x02 静态特征提取
0x21 基本思路
将程序代码映射到表中,存储指令序号、地址、关键操作码/None、关键操作码后跟的地址(即跳转或者函数调用的地址)/None。这样不需要执行程序就可以模拟程序执行流程,提取程序执行时的函数调用流。
在模拟运行时首先会随机选取一个库函数调用指令,然后从那条指令开始“执行”,由于没有真正运行程序,在遇到条件跳转的时候会随机选择跳或者不跳,其它流程都可以正常模拟,直到遇到exit函数或者ret指令等结束,然后按顺序记录下函数调用流。
静态特征提取会得到大量的这种函数调用流。
fextractor --static examples/testcases/gzip
运行fextractor脚本可以进行特征提取,--static选项可指定提取静态特征,上面这行代码可将gzip程序的静态特征提取出来,并输出到shell
0x22 提取步骤
1、从ELF中提取PLT、GOT表
2、将程序的汇编代码(线性搜索-objdump)提取出来,做成一个列表和一个字典,列表useful_inss_list的格式为[序列号,指令地址,关键操作码/None,关键操作码后跟的地址/None],以指令地址作为关键字再组建一个字典useful_inss_dict,并且将所有的plt调用写入libc_calls列表中。注:关键操作码包括条件跳转和非条件跳转
3、从libc_calls中随机选择一个库函数,从该函数调用开始顺序记录执行的函数名,直到程序结束。就是从随机的一处调用起走一遍程序的执行流程,遇到跳转就直接走到目标地址,遇到条件跳转就随机选择一条路径往下走,记录沿途调用的函数。可以定义随机跟踪函数调用的次数,得到用”.”号隔开的N个函数调用流。
0x23 静态特征提取中存在的问题:
1、一个主要的问题是很多地方没有考虑到10进制数字和16进制字符串的转换,使得一些逻辑流程存在问题,应该记录的库函数调用没有记录下来
2、一开始会从plt表中筛选出存在于specs中的函数,但是specs中的函数又不全,会导致本应该添加到函数调用流的函数没有添加进去。如果被筛掉的函数是一个exit类函数,会有陷入死循环的可能
3、有些条件跳转指令没有加上,比如说"jne",严重的话可导致在某些地方产生死循环
修改RandomWalk.py
下面尽可能修复了这三处问题,关于第一个问题只需要在进行plt表比对前将数据转换为10进制数,然后再进行比对;解决第二个问题直接用原先的plt表,不要筛掉里面的任何函数;解决第三个问题只能暂时在条件跳转列表里加上“jne”,如果以后发现有遗漏再继续添加。
***第43-47行***
注释掉
***第49行***
elf.plt = elf.addr2name #至少要把所有的外部函数函数都收集起来吧
***第55行***
在cond_control_flow_ins列表中加上"jne"
***第58行***
ncond_control_flow_ins = ["ret", "jmp", "call", "retq", "jmpq", "callq"]
***第156行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt:
r = r + " " + elf.plt[ins_jaddr_plt]
if elf.plt[ins_jaddr_plt] in ["exit", "_exit"]:
break
***第182行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt: # call equivalent using jmp
r = r + " " + elf.plt[ins_jaddr_plt]
***第191行***原190行
注释掉,否则10进制无法匹配16进制
0x03 动态特征提取
0x31 基本思路
将程序路径及其参数用指定的格式进行存储,在脚本启动后会创建一个子进程来运行该程序且参数可以变异(模糊测试)。使用ptrace对程序进行监控,在入口点下断点,然后在所有包含在specs字典中且在程序plt表中的函数的调用处下断点,运行程序每当在库函数停下时,检测其参数(读取参数并细分其类型),最后按照某一格式存储起来。
0x32 提取步骤
1、获取程序运行参数,提取动态特征需要真实运行程序,因此需要指定程序运行时的参数,典型的测试用例文件夹具有以下结构:一个path.txt文件和inputs文件夹,所谓参数获取正是从下列文件中提取出要执行的程序及其运行参数。
PS:如果要添加新的样例,也要按照下面格式添加程序的路径和参数等信息
program
path.txt #包含要被分析的二进制程序的完整绝对路径
inputs
argv_1.symb #指定第一个参数
argv_2.symb #指定第二个参数
...
file_filename1.ext.symb
file_filename2.ext.symb
...
2、同样需要从程序中提取出plt表和got表,也是筛选plt表中的函数,如果该函数也在specs中,就在其plt表处下一个断点,并用binfo字典来存储断点信息。
字典specs中存储了大量库函数的名字、返回值类型和参数类型,是从VDiscover/vdiscover/data文件夹下的prototypes.conf文件中提取的信息(下图左侧),应该尽可能让里面的内容覆盖要提取特征的程序的plt表,可以自己加上需要用到的函数信息
3、在捕获到断点之后,会检测当前函数的参数类型,将它们细分为不同的类型(具体见技术文档),比如如果程序是64位的,它会从相应寄存器中找出函数的各个参数,然后判断参数的类型,如果是指针,就会通过内存映射信息来细分它是哪种指针。
4、最后将收集到的信息存储下来,也可以打印到shell,格式为“函数名:参数号=参数类型”
PS:执行结果上面都给出了,这里不重复了(见0x12)