摘要
社交网络(OSN)中模仿人类的机器人账户有所增加,本文回顾了最近识别人类和机器人账户的相关检测技术。晋限于分析推特社交平台的检测,调研了各种当前在用的检测方案,分类器,数据集和使用的特征。
数据集和预处理
各种检测机器人的方法主要被分为三种技术:基于图的,基于众包,和机器学习的。一旦手机好了数据,下一步就是为选择的分类器准备数据,或者手动标注数据。不同的检测方法所使用的数据如下表:
社交机器人检测方法
- 基于图的检测方法
社交网络图通常被用作理解和识别在社交网络平台中人们的关系。分别有三种基于图的方法来识别虚假账号,第一种方法基于信任传播,基于两个图中的对象的可信关系较强或者较弱。第二种方法是图形聚类,讲一个社交图中的相关节点聚类,基于类似用户距离来进行分组。第三种方法涉及到有研究图形指标和属性,例如可能性分布,图形结构和中心度量指标。
SylibWalk提出了在无向社交图中随机游走,给真实用户好分数,机器人差分数,将用户分成两类。作者假设图满足同质属性,两个项链节点有同样的标签。并且使用了AUC来评估实验,得到来0.96的相关分数。
Metrotra等人提出来一种与图中中心节点相关性的方法,使用社交图特征检测虚假追随者,用了五个数据集,使用基于图的置信度的六种特征来进行分类,用了神经网络决策树和随机森林模型。TrueTop是另一个检测系统运用来基于图的方法来测试Sybil账号。使用了四种数据集。提出了一个Sybil(社交机器人账号)攻击的强度,代表着无虚假账号区域和有虚假账号区域的权重的比值。假设最差的场景中,真实账号和虚假账号形成的区域没有交互。、 - 众包的检测方法
【27】【33】是两篇运用了众包的技术实现虚假检测的方法 -
机器学习的检测方法
机器学习技术检测的目标是解决有大量变量的大量数据的问题,使用机器学习技术能够检测用户账号的行为模式,来判断是机器人还是人类。机器学习的相关检测技术如下表
数据集使用的特征
社交机器人检测基于分类选择的特征来判断是真实账号还是社交机器人账号,使用的特征好汉来文本分析,情感,单机的流行为等等,20个通用特征如下表:
总结
很多研究者更喜欢运用机器学习的方法,这些论文主要用了基于树的方法和基于贝叶斯的方法,随机森林的方法最常被运用,这个分类器的好处就是低复杂性,高精度。然而树的复杂性会造成过拟合。本耶斯方法和随机森里方法广泛用于学术中,贝叶斯方法作为一个统计方法在训练和预测时间上较快。在特征较少时,该方法有更好的性能。支持向量机依赖于核函数的选择和参数。另外这个方法依赖于大量的数据集。神经网络也依赖于数据集的大小。
翻译自--Alothali等, 《Detecting Social Bots on Twitter》.