十年——社交机器人检测(A Decade of Social Bot Detection)

摘要

从2016年特朗普当先美国的总统,人们开始关注社交机器人在社交网络上对于人们的影响,以及开始关注社交机器人对我们的社会影响如何。同时这也引出了一个问题,我们应该采取什么样的方法来阻止社交机器人的广泛传播。截止到2020年的美国大选,这个问题变得比以前更加严峻。通过系统的分析,我们讨论与社交机器人对抗的相关研究趋势,并希望能够为检测和其他的相关努力提供一些信息。

社交机器人的大流行

科学家和工程师们喜欢在技术层面定义社交机器人,主要聚焦于活动层级,完整或者部分自动化使用算法和AI。而社会科学家更聚焦于使用机器人造成的社会或者政治影响。在2017年中预测推特中有15%的活跃账号是机器人,facebook在2019年有11% 的账号是机器人。在2019年提到美国股市趋势的账号有71% 的比例是机器人。并且在2020年的新冠病毒中也呈现这样的趋势。这些机器人的大流行部分于开源代码有关,2016年github库中有4000个代码库中包含了如何部署机器人,而大批2018年已经超过了40000个代码库。可以看出社交机器人是操纵和欺骗人们的首选方式。


image.png

在分类。检测和预测机器人检测的新研究以跟高的速率在增长,如果保持这个增长势头,在2021年平均每天都会有一篇与社交机器人检测相关的论文产出。但是所有这些努力都会导致什么?为了回答这个问题,我们回顾到社交机器人的早期。

社交机器人检测的曙光

第一个用于在线上社交网络检测自动账户的工作要追溯到2010年,早期的工作有以下几个特点:
1.都基于监督学习。
2.否是分析独立的账号。


image.png

如图 3,早期的工作就像左图A,假设人类和机器人能够清晰的被检测分类,检测机器人的方法还围绕在已有的,通用型的分类算法来对账户进行分类,并且使用有效的机器人学习用的特征来对账号进行分类。其他的检测系统充分利用大量的机器学习特征来进行机器人检测。botometer利用账号中的1200个特征对账号进行检测,主要基于账号资料,社交网络结构,产生的内容,和语义表达,以及他们动作的时间信息。然而其他的系统仅仅关注于网络结构,分享信息的文本内容,或者资料信息。这些系统很容易被欺骗,因为只分析了机器人复杂行为的一部分。
早期的这些方法有一系列的缺点。首先是开发一个监督检测器需要大量带有标注的数据集。并且人类自己已经不太能分辨出最近比较复杂的机器人了,只有24%的机器人在最近的实验中能够被正确的标签。并且很多时候,混合着人类行为和自动行为的账号已经不能够被简单的被二分类了。

机器人进化的问题

image.png

初期的社交机器人检测方法使得机器人开发使用更复杂的方法,从而躲避检测,开发更复杂的社交机器人被称为机器人进化。早期的社交机器人只有很少的社交连接和发送的内容,能够清晰的分辨出自动化的特征。第二代机器人开始变的更加可信一点,有大量的社交连接,不再重复的发送垃圾邮件。16年后的第三代社交机器人越来越南被检测,新的社交机器人比久的机器人更像人类。更像人类的行为是由于认为的操作和自动化的混合程度的增加,模糊了机器人和人的界限。

基于组的方法的兴起

2012年之后,有的研究团队提出新的社交机器人系统使用不同的技术和实现方法,但是有着相同的目的。对应的新型检测的系统将一组账号作为一个整体来检测。因此发明检测大规模协同行为的机器人检测方法比检测单一机器人产生的结果要好。许多组检测方法主要基于无监督和半监督方法,主要是克服监督学习方法的泛化性不足的缺陷。


image.png

通过对230份论文的调研,通过两个维度对这些检测方法进行分类:

  • 检测器是以单一目标还是群组为检测目标。
  • 检测方法是启发式,众包,监督学习,无监督学习,对抗性方法。

一瞥虚假检测的未来

单独的账号检测和基于组的机器人账号检测都有一种反应模式,学界和社交网络始终落后于虚假账号开发者一步。社交机器人都依赖与相关假设:静态假设。但是实际上社交机器人是在不断迭代的,因此10年来在研究中效果比较不错的方法,在实际应用的效果很有限。新型的对抗性学习方法,可能对于检测来说有所效果。所有有关在线检测,操作,自动化都是对抗性的,他们代表了对抗性学习的有利应用领域。2019年之后开始开发对抗性方法进行机器人检测。但目前生成对抗的方法仍然落后于传统方法,但是这个方向应该是未来比较好的一个思路。

翻译自--Cresci, 《A Decade of Social Bot Detection》.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容