VDiscover 分析

0x00 VDiscover介绍

VDiscover是G.Grieco开发出的利用机器学习进行二进制漏洞挖掘的轻量级Python项目,他们从大量程序中提取出静态特征和动态特征,训练出漏洞预测模型,预测二进制程序漏洞。
这里是他们的技术文档Toward large-scale vulnerability discovery using Machine Learning,这是项目的GitHub地址VDiscover

0x01 VDiscover安装

在Ubuntu下进行安装,首先安装python-numpy python-matplotlib python-setuptools python-scipy依赖,然后执行以下命令进行安装:

sudo apt-get install python-numpy python-matplotlib python-setuptools python-scipy
git clone https://github.com/CIFASIS/VDiscover.git
cd VDiscover
python setup.py install –user
0x11 设置环境变量
sudo nano .zshrc  #我用的是zsh

加入以下两行

#for yyyyyyyyt
export PATH=$PATH:~/.local/bin

执行脚本内容,更改立即生效

source .zshrc 
0x12 VDiscover测试

执行以下命令,提取gzip程序的动态特征:

fextractor --dynamic examples/testcases/gzip

0x02 静态特征提取

0x21 基本思路

将程序代码映射到表中,存储指令序号、地址、关键操作码/None、关键操作码后跟的地址(即跳转或者函数调用的地址)/None。这样不需要执行程序就可以模拟程序执行流程,提取程序执行时的函数调用流。
在模拟运行时首先会随机选取一个库函数调用指令,然后从那条指令开始“执行”,由于没有真正运行程序,在遇到条件跳转的时候会随机选择跳或者不跳,其它流程都可以正常模拟,直到遇到exit函数或者ret指令等结束,然后按顺序记录下函数调用流。
静态特征提取会得到大量的这种函数调用流。

fextractor --static examples/testcases/gzip

运行fextractor脚本可以进行特征提取,--static选项可指定提取静态特征,上面这行代码可将gzip程序的静态特征提取出来,并输出到shell


静态特征提取
0x22 提取步骤

1、从ELF中提取PLT、GOT表


2、将程序的汇编代码(线性搜索-objdump)提取出来,做成一个列表和一个字典,列表useful_inss_list的格式为[序列号,指令地址,关键操作码/None,关键操作码后跟的地址/None],以指令地址作为关键字再组建一个字典useful_inss_dict,并且将所有的plt调用写入libc_calls列表中。注:关键操作码包括条件跳转和非条件跳转


关键操作码

关键处理

3、从libc_calls中随机选择一个库函数,从该函数调用开始顺序记录执行的函数名,直到程序结束。就是从随机的一处调用起走一遍程序的执行流程,遇到跳转就直接走到目标地址,遇到条件跳转就随机选择一条路径往下走,记录沿途调用的函数。可以定义随机跟踪函数调用的次数,得到用”.”号隔开的N个函数调用流。


跟踪系统函数调用流
0x23 静态特征提取中存在的问题:

1、一个主要的问题是很多地方没有考虑到10进制数字和16进制字符串的转换,使得一些逻辑流程存在问题,应该记录的库函数调用没有记录下来
2、一开始会从plt表中筛选出存在于specs中的函数,但是specs中的函数又不全,会导致本应该添加到函数调用流的函数没有添加进去。如果被筛掉的函数是一个exit类函数,会有陷入死循环的可能
3、有些条件跳转指令没有加上,比如说"jne",严重的话可导致在某些地方产生死循环

修改RandomWalk.py
下面尽可能修复了这三处问题,关于第一个问题只需要在进行plt表比对前将数据转换为10进制数,然后再进行比对;解决第二个问题直接用原先的plt表,不要筛掉里面的任何函数;解决第三个问题只能暂时在条件跳转列表里加上“jne”,如果以后发现有遗漏再继续添加。

***第43-47行***
注释掉

***第49行***
elf.plt = elf.addr2name #至少要把所有的外部函数函数都收集起来吧

***第55行***
在cond_control_flow_ins列表中加上"jne"

***第58行***
ncond_control_flow_ins = ["ret", "jmp", "call", "retq", "jmpq", "callq"] 

***第156行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt:
    r = r + " " + elf.plt[ins_jaddr_plt]
    if elf.plt[ins_jaddr_plt] in ["exit", "_exit"]:
        break

***第182行***
ins_jaddr_plt = int(ins_jaddr, 16)
if ins_jaddr_plt in elf.plt:  # call equivalent using jmp
    r = r + " " + elf.plt[ins_jaddr_plt]

***第191行***原190行
注释掉,否则10进制无法匹配16进制

0x03 动态特征提取

0x31 基本思路

将程序路径及其参数用指定的格式进行存储,在脚本启动后会创建一个子进程来运行该程序且参数可以变异(模糊测试)。使用ptrace对程序进行监控,在入口点下断点,然后在所有包含在specs字典中且在程序plt表中的函数的调用处下断点,运行程序每当在库函数停下时,检测其参数(读取参数并细分其类型),最后按照某一格式存储起来。

0x32 提取步骤

1、获取程序运行参数,提取动态特征需要真实运行程序,因此需要指定程序运行时的参数,典型的测试用例文件夹具有以下结构:一个path.txt文件和inputs文件夹,所谓参数获取正是从下列文件中提取出要执行的程序及其运行参数。
PS:如果要添加新的样例,也要按照下面格式添加程序的路径和参数等信息

program      
 path.txt          #包含要被分析的二进制程序的完整绝对路径
 inputs
   argv_1.symb     #指定第一个参数
   argv_2.symb     #指定第二个参数
   ...
   file_filename1.ext.symb
   file_filename2.ext.symb
   ...

2、同样需要从程序中提取出plt表和got表,也是筛选plt表中的函数,如果该函数也在specs中,就在其plt表处下一个断点,并用binfo字典来存储断点信息。



字典specs中存储了大量库函数的名字、返回值类型和参数类型,是从VDiscover/vdiscover/data文件夹下的prototypes.conf文件中提取的信息(下图左侧),应该尽可能让里面的内容覆盖要提取特征的程序的plt表,可以自己加上需要用到的函数信息



3、在捕获到断点之后,会检测当前函数的参数类型,将它们细分为不同的类型(具体见技术文档),比如如果程序是64位的,它会从相应寄存器中找出函数的各个参数,然后判断参数的类型,如果是指针,就会通过内存映射信息来细分它是哪种指针。
取参数

判定指针类型

4、最后将收集到的信息存储下来,也可以打印到shell,格式为“函数名:参数号=参数类型”
PS:执行结果上面都给出了,这里不重复了(见0x12)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • 一、温故而知新 1. 内存不够怎么办 内存简单分配策略的问题地址空间不隔离内存使用效率低程序运行的地址不确定 关于...
    SeanCST阅读 7,774评论 0 27
  • shell脚本利用shell功能写的纯文本文件,将shell语法和命令写在里面,搭配正则表达式、管道命令与数据流重...
    Mz楓阅读 211评论 0 0
  • 摘要:说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。 弗雷斯特调研公司...
    JACKbayue阅读 292评论 0 1
  • 平时说“努力”,一般情况下都是激励的词语,至于如何去努力,自己认为只要用心去做就可以了,通过学习本篇章知道了,“努...
    笑笑_a436阅读 253评论 0 0
  • 买了一本2019年生命故事手帐, 记录每天的点滴, 一年下来回顾势必很精彩, 很多时候我们的选择性记忆储存的非常彻...
    傲兔心里有感阅读 350评论 0 1