摘要
软件机器人已经存在很久了,一个例子就是聊天机器人,用来跟人类聊天。
今天,社交媒体生态系统中充斥着成千上万的被设计出来模仿人类行为的机器人。机器人通过模仿社交网络,时序活动,传播方式以及情感表达。自动生产跟人类类似的内容试着跟人类进行交互。
社交机器人的种类
有些是对人类有益的,通过对各种资源的汇集来帮助人类。虽然设计的初衷是给人类提供有用的服务,但是有时会造成损害,例如传播未经证实的信息。
本文的三个主旨内容
- 社交系统中充斥着对人类有用的机器人,但是有时通过欺骗和操纵对用户造成损害
- 社交机器人已经用来操纵股票市场,传播政治立场,盗取个人信息,以及传播不实信息。检测机器人是一个重要的研究
- 识别不同类别机器人的系统基于网络技术,众包策略和基于特征的监督学习和混合检测系统
社交机器人分类系统
计算机社区正在设计高级的检测方法来识别社交机器人。或者对人类与机器人进行区分。我当前的分类分成以下三个类别:基于社交网络信息的机器人检测系统,基于人类智慧和众包的检测系统,以及基于机器学习的用多维度特征分类的机器学习。还有一些混合系统。
基于社交网络图的社交网络机器人检测
facebook提出一种策略依靠检测社交图结构来检测虚假账号。sybirank假设很多账号需要跟一些真实账号链接,而不是大部分链接其他假账号,但是有很多机器人可以模仿这个模式来规避检测。
还有假设与真实账号进行交互的就是真实账号。但是这个假设也是不成立的,因为有20%的用户不加选择的添加其他好友。
众包社交机器人检测
有研究认为识别机器人对于人类是一个简单的任务。人类能够通过带有讽刺等语言来识别机器人。通过雇佣大批人力来查看机器人的识别率。坐着观察到雇佣的人的准确率会下降,但是由于少数服从多数的投票。依然能够保持很好的正确率。但是众包的解决方案并不划算。很多小平台并不能负担这个开销,并且会有暴露隐私的问题。
基于特征的社交机器人检测
行为模式的特征能够轻易的编码成特征并采取机器学习的方法来学习分类人类的还是机器的行为特征。不同类别的特征用来抓去用户的行为特征如表:
Bot or Not在2014年发布出的检测借口来提高人们对机器人的认识。该方法通过高可预测性特征抓取行为特征并且很好的将人类和机器人分开。通过交叉验证和ROC曲线验证,精确度高达95%。
但是机器人持续的更改行为特征。使用用户元数据是一个较高可预测性的特征能够将人类和机器人分别出来,但是当前这种方法还不能够识别那些人类和机器人特征混合的账号比如被黑客hacked的账号目前还没办法检测。
多方法检测
Alvisi等人的方法首先意识到采用补充检测技术来有效的解决社交网络的社交机器人攻击。还有研究通过检测多位的用户行为例如活动或者时间信息来检测。真实的点击数据表示真实用户会花费更多的时间发送和查看其他人的内容。直觉上来说,机器人的行为更加简单。倾向于传播相似的内容。所以Renren网的方法联合了基于最优网络和基于行为的社交机器人检测(Sybil)
机器人领袖
如果社交机器人是一个提线木偶,寻找木偶的主人就是一个十分困难的事情。有的实体能够利用社交机器人实现利益。
通过进行逆向工程,来识别目标是谁,如何生成内容,什么时候产生动作,以及讨论的话题,使用系统外推法能够有可能识别傀儡的主人。有研究表明即使简单的产生内容以及增加追随者就能成功的增加社会影响力。
所以基于以上内容,在未来充满社交机器人的社会中区分人类和机器人十分重要。
翻译自--(Ferrara E, Varol O, Davis C, et al. The rise of social bots[J]. Communications of the ACM, 2016, 59(7): 96-104.)