摘要
社交实体有很强的医院滥用社交网络来获得权利或者提高影响力或者对明确的攻击目标进行攻击
恶意使用机器人包括模仿人类行为制造虚假的基层政治支持,宣传恐怖主义,操纵股票和广告市场,以及散布谣言和阴谋论。
社交机器人检测
已有的对社交机器人的检测主要分为三个方向,整体分析(holistic),成组分析( pairwise), 以个人为中心的分析(egocentric analysis).
- 整体的分析方法
该方法具有更好的准确性和表现,因为提取来更多的账号和交互信息,然而只有社交平台的拥有者才能对数据有整体的把握。整体分析的方法侧重于用户的行为模式的聚类和使用监督技术对账号进行分类。
本方法的有点就是完整的数据可用性。对数据有完整的了解,但是需要对系统中的海量数据进行分析。新型的深度学习和强化学习可能能缓解这个方面的压力 - 成对账号对比
有成组的用户在时间上或者内容模式上呈现出显著的相似性。通过枚举账号的各种特征来检测账号之间的相似性。能够用相似性矩阵通过监督或者无监督学习框架中进行对比。但是大型的网络平台进行这种分析成本较高 - 以自我为中心的分析
用户提取单一账号在指定时间段的信息,使用用户的限制信息的子集,能够减少计算复杂性。
在线检测框架和特征提取
botormeter系统从给定推特账号的一组推文中提取了1150个特征,通过网页端和API调用,在发布后的前几个月就服务了3000w次请求使用了以自我为中心的分析
- 基于用户的特征
利用从用户元数据中提取的特征,计算用户昵称和用户名中数字的长度。用户也有自己的个性签名,计算这个的长度。用户的活动和连接性也能够提供分类信号,通过提取朋友和追随者的数量特征以及不同类型的活动例如推文、转推、提及、和回复等等 - 基于朋友的特征
考虑了四种与朋友的链接,转推,提及,被转推,和被提及。将推特进行分组,每组进行单独提取特征。为每组中的账户提取用户元数据的分布。计算的分布有,朋友,追随者,推文,资料长度,网龄,时间便宜的分布,对于每一个分布计算平均,最大,最小,中间值,偏斜,峰度和熵。 - 网络特征
通过转推、提及和#号,将用户作为节点。提及或者转推作为边。频率作为权重。最直接的特征就是节点和边的数量以及网络的密度。 - 内容和语言特征
内容和语言特征中通过使用词的个数和文本熵作为最简单的内容特征。还有语言中不同词的词性反应了不同语言的风格。 - 情绪特征
对于一段文本或者整个对话的情感进行分析。分别使用词典来量化文本的幸福感,极化和强度 将句子标示为极性或者中性,来消除极性的表达歧义。表情符号用来识别与文本是正相关还是负相关。上述这些可以用词典分析也可以用机器学习模型来抽取情感特征。 - 时间特征
时间特征对于分析内容的生产者和消费者来分析在线营销和在线讨论比较有用,基础的时间特征表示一个活跃账号有多么频繁,真实的人不会每天上百条推文。
特征分析
特征的数量过多,有的特征是相互冗余的,所以需要特征分析来降低特征的维数。可以作图显示不同特征的相关性大小。
特征选择
建立了流水线使用scikit-learn中提供的模型算法对两个数据集中的数据来进行特征分析,都是使用模型对单一大维度进行测试。来识别不同特征的差异性
发现最好的特征是通过用户元数据获得的,而随机森林产生的结果至少和其他方法一样好。还使用几个特征选择的方法如CIFE,FCBF,MRMR,发现了几乎用20个特征就能达到很好的精确性
总结
特征工程中的特征选择对于机器人检测系统的性能至关重要。一些机器学习方法例如随机森林能够继承弱学习者。使用少于20个特征就能达到很好的效果。深度学习能够为特征提取提供一些拓展,深度神经网络能够抽取重要的模式作为特征。DNN的进展加速假角色的生成,对话社交机器人的生成。以及生成对抗网络用来同时生成社交机器人的模型以及如何欺骗检测系统。Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, and Rebecca Passonneau. Sentiment analysis of Twitter data. In Proc. of the Workshop on Languages in Social Media, pages 30–38. ACL, 2011 中给出了数据集。
翻译自:Varol等, 《Feature Engineering for Social Bot Detection》.