摘要
从2016年特朗普当先美国的总统,人们开始关注社交机器人在社交网络上对于人们的影响,以及开始关注社交机器人对我们的社会影响如何。同时这也引出了一个问题,我们应该采取什么样的方法来阻止社交机器人的广泛传播。截止到2020年的美国大选,这个问题变得比以前更加严峻。通过系统的分析,我们讨论与社交机器人对抗的相关研究趋势,并希望能够为检测和其他的相关努力提供一些信息。
社交机器人的大流行
科学家和工程师们喜欢在技术层面定义社交机器人,主要聚焦于活动层级,完整或者部分自动化使用算法和AI。而社会科学家更聚焦于使用机器人造成的社会或者政治影响。在2017年中预测推特中有15%的活跃账号是机器人,facebook在2019年有11% 的账号是机器人。在2019年提到美国股市趋势的账号有71% 的比例是机器人。并且在2020年的新冠病毒中也呈现这样的趋势。这些机器人的大流行部分于开源代码有关,2016年github库中有4000个代码库中包含了如何部署机器人,而大批2018年已经超过了40000个代码库。可以看出社交机器人是操纵和欺骗人们的首选方式。
在分类。检测和预测机器人检测的新研究以跟高的速率在增长,如果保持这个增长势头,在2021年平均每天都会有一篇与社交机器人检测相关的论文产出。但是所有这些努力都会导致什么?为了回答这个问题,我们回顾到社交机器人的早期。
社交机器人检测的曙光
第一个用于在线上社交网络检测自动账户的工作要追溯到2010年,早期的工作有以下几个特点:
1.都基于监督学习。
2.否是分析独立的账号。
如图 3,早期的工作就像左图A,假设人类和机器人能够清晰的被检测分类,检测机器人的方法还围绕在已有的,通用型的分类算法来对账户进行分类,并且使用有效的机器人学习用的特征来对账号进行分类。其他的检测系统充分利用大量的机器学习特征来进行机器人检测。botometer利用账号中的1200个特征对账号进行检测,主要基于账号资料,社交网络结构,产生的内容,和语义表达,以及他们动作的时间信息。然而其他的系统仅仅关注于网络结构,分享信息的文本内容,或者资料信息。这些系统很容易被欺骗,因为只分析了机器人复杂行为的一部分。
早期的这些方法有一系列的缺点。首先是开发一个监督检测器需要大量带有标注的数据集。并且人类自己已经不太能分辨出最近比较复杂的机器人了,只有24%的机器人在最近的实验中能够被正确的标签。并且很多时候,混合着人类行为和自动行为的账号已经不能够被简单的被二分类了。
机器人进化的问题
初期的社交机器人检测方法使得机器人开发使用更复杂的方法,从而躲避检测,开发更复杂的社交机器人被称为机器人进化。早期的社交机器人只有很少的社交连接和发送的内容,能够清晰的分辨出自动化的特征。第二代机器人开始变的更加可信一点,有大量的社交连接,不再重复的发送垃圾邮件。16年后的第三代社交机器人越来越南被检测,新的社交机器人比久的机器人更像人类。更像人类的行为是由于认为的操作和自动化的混合程度的增加,模糊了机器人和人的界限。
基于组的方法的兴起
2012年之后,有的研究团队提出新的社交机器人系统使用不同的技术和实现方法,但是有着相同的目的。对应的新型检测的系统将一组账号作为一个整体来检测。因此发明检测大规模协同行为的机器人检测方法比检测单一机器人产生的结果要好。许多组检测方法主要基于无监督和半监督方法,主要是克服监督学习方法的泛化性不足的缺陷。
通过对230份论文的调研,通过两个维度对这些检测方法进行分类:
- 检测器是以单一目标还是群组为检测目标。
- 检测方法是启发式,众包,监督学习,无监督学习,对抗性方法。
一瞥虚假检测的未来
单独的账号检测和基于组的机器人账号检测都有一种反应模式,学界和社交网络始终落后于虚假账号开发者一步。社交机器人都依赖与相关假设:静态假设。但是实际上社交机器人是在不断迭代的,因此10年来在研究中效果比较不错的方法,在实际应用的效果很有限。新型的对抗性学习方法,可能对于检测来说有所效果。所有有关在线检测,操作,自动化都是对抗性的,他们代表了对抗性学习的有利应用领域。2019年之后开始开发对抗性方法进行机器人检测。但目前生成对抗的方法仍然落后于传统方法,但是这个方向应该是未来比较好的一个思路。
翻译自--Cresci, 《A Decade of Social Bot Detection》.