比束手无策更安全:对抗性方法改善社交机器人检测Better Safe Than Sorry: an Adversarial Approach to improve Social Bot Dete...

摘要

最近随着对抗性方法的传播,一种新型的时间方法正在出现:专门操纵样本来得到更健壮的检测模型。我们提出来一个基于遗传算法的检测账号的方法。结果表明,生成出的机器人真的可以逃避当前的检测技术。

介绍

对抗性学习方法的出现,使得能够提前揭示方法的脆弱性,同时测试算法技术,从而产生更加鲁棒性的学习方法。本文的核心目标是操纵目标检测样本,来产生更强的检测模型。本文的目标就是解答三个关键性,没有被探索的问题

  • 能不能开发一个分析框架来模拟机器人进化
  • 能不能使用这个框架来生成新一代机器人,并且这些生成的进化机器人能否规避当前先进方法的检测。
  • 能不能用主动性和对抗性的思路的研究来改善当前的检测技术。

本文的方法

使用来数字DNA检测技术来回答上述3个问题,数字dna建模技术详情请见:DNA社交指纹这篇文章。自定义的遗传算法迭代的选择最好的进化子代,从而使种群向与人类账户更加相似的行为进化。

本文贡献

  • 提出来GENBOT,为社交机器人检测而设计的新奇的遗传算法。通过设计一个损失函数来量化一代机器人和一组正常账号的差异性。GENBOt能够产生与人类账号在时间线上的行为相似的DNA序列。
  • 讨论设计一个分析框架同时应用DNA建模和遗传算法来模拟社交机器人可能的进化方向,使用本框架进行实验并目标产生一些对抗性样本
  • 我们使用三个先进的检测算法来评估我们的方案
  • 通过学习这些对抗性样本产生的机器人的行为,分析还可以如何赶紧我们的检测方法。

方法的延展

虽然本文的方法使用DNA对时间线行为进行建模,并且也用DNA分析解决方案来实现对抗性方法思路的一种,也可以考虑其他的方法来实现这种思路。

背景和符号定义

数字DNA建模和数字DNA序列的相似性

详情请见DNA社交指纹这篇文章。

距离度量

LCS曲线可以代表一组用户的行为相似性,同时可以用LCS曲线下面积来计算整组之间的相似性。并且可以用下面公式进行计算。


LCS曲线下面积计算公式

遗传算法

本文与标准遗传算法不同的是,本文指的一代种群中的个体是一组用户,一个种群里由不同的用户组成。

本文符号如下:

符号解释

新奇的模拟机器人进化的算法

适应度,变异,交叉的定义

适应度

本文的场景中的适应度就是,一组用户,也就是本文中代指的个体与一组人类账户的行为及其相符。目标就是最小化两组用户LCS曲线的距离。同时使用KL散度来计算两个LCS曲线的具体,(KL散度请见KL散度),本文使用的变体公式如下:

KL散度公式

变体公式

Px(x)是从人类账户中观察到到分布。另一个是用来代替到机器人分布。

变异

由于人类账户中更倾向于发推特,所以A(tweet)->C或C的概率小,反过来概率更大,输入是一代个体,输出是变异后的一代个体。


变异算法

交叉

并且本文中定义来三种交叉。本文中的个体是一组用户账号,所以组交叉就是将两组用户进行混合,产生下一代个体。


组交叉操作

用户级交叉操作就是将两个用户的DNA序列进行交换。同时还有一个逆用户级交叉操作,就是先逆排序一个父亲序列,然后在进行用户级交叉操作,这个能大大提升变异效果。


用户记交叉操作

用户级交叉操作算法

GENBot算法

每轮迭代都是利用变异和交叉操作来获取新一代的机器人账户。首先对种群应用变异操作。然后对种群中的个体运用组交叉操作。然后再对个体中的固定数目的账户进行逆用户级交叉操作,最后在进行用户级交叉操作。再进行下一轮迭代。


genbot算法

实验设置

数据集

数据集由3474个人类账户组成,并且每个用户都简单都回答了问题。

实验设置

使用C++实现都代码,并且使用GLCR工具实现最长通用子串问题。DNA序列长度是2000。每一代有30个个体,迭代20000轮。第一代的个体,前1000位置都用A填充,其他500各用C和T填充。变异概率为0.0002。逆用户交叉操作数目是2,用户交叉操作是12。

结果

实验结果图

与已有的技术进行对比,发现以前的方法在LCS头部的位置拟合的不是很好,本方法在尾部拟合的不是很好,原来的方法是由于重采样造成来一部分这种效果。如图5,并且也用AUC评价指标进行来对比,如表1。

规避检测

同时我们感兴趣当前最新的检测检测技术能不能检测进化的机器人。所以将进化机器人与人类用户混合,对比混合组与只有人类组的LCS曲线如图6,发现拟合的比较不错,从而能够逃避表4中提到的检测方法了。

通用性检测

将人类账户分成两组每组都只有原来的50%,然后进化生成机器人,然后在进行分析,发现分别生成的机器人也能分别拟合不同用户组的行为,同时也对比了评价指标。并且计算了人类账号分布和机器人账号分布的KL散度如表5,说明通用性也是有的。

如何改变当前的检测技术

不同序列的香农熵

虽然生成的机器人的DNA序列一定程度上能规避原有方法的检测,但是对序列进行熵检测,发现机器人序列的熵要更大一些,因为机器人序列更加无序,而人类序列是有一部分规律,以及有一定的无序的。从而可以在规律检测上面增加我们方法的检测,提高鲁棒性。

讨论

回答问题一

能够将建模行为的DNA序列喂入GENBOt方法,来产生进化的机器人

回答问题二

通过实验,确实证明了,能够通过Genbot方法生成一些与人类账号建模的DNA相似的机器人从而规避了检测。

回答问题三

可以通过一些其他的行为分析,来增强检测系统的稳定性。比如机器人序列的熵更大等等角度。

总结自--Cresci等, 《Better Safe Than Sorry》.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容