机器人检测的特征工程(Feature Engineering for Social Bot Detection)

摘要

社交实体有很强的医院滥用社交网络来获得权利或者提高影响力或者对明确的攻击目标进行攻击
恶意使用机器人包括模仿人类行为制造虚假的基层政治支持,宣传恐怖主义,操纵股票和广告市场,以及散布谣言和阴谋论。

社交机器人检测

已有的对社交机器人的检测主要分为三个方向,整体分析(holistic),成组分析( pairwise), 以个人为中心的分析(egocentric analysis).

  • 整体的分析方法
    该方法具有更好的准确性和表现,因为提取来更多的账号和交互信息,然而只有社交平台的拥有者才能对数据有整体的把握。整体分析的方法侧重于用户的行为模式的聚类和使用监督技术对账号进行分类。
    本方法的有点就是完整的数据可用性。对数据有完整的了解,但是需要对系统中的海量数据进行分析。新型的深度学习和强化学习可能能缓解这个方面的压力
  • 成对账号对比
    有成组的用户在时间上或者内容模式上呈现出显著的相似性。通过枚举账号的各种特征来检测账号之间的相似性。能够用相似性矩阵通过监督或者无监督学习框架中进行对比。但是大型的网络平台进行这种分析成本较高
  • 以自我为中心的分析
    用户提取单一账号在指定时间段的信息,使用用户的限制信息的子集,能够减少计算复杂性。

在线检测框架和特征提取

botormeter系统从给定推特账号的一组推文中提取了1150个特征,通过网页端和API调用,在发布后的前几个月就服务了3000w次请求使用了以自我为中心的分析

  • 基于用户的特征
    利用从用户元数据中提取的特征,计算用户昵称和用户名中数字的长度。用户也有自己的个性签名,计算这个的长度。用户的活动和连接性也能够提供分类信号,通过提取朋友和追随者的数量特征以及不同类型的活动例如推文、转推、提及、和回复等等
  • 基于朋友的特征
    考虑了四种与朋友的链接,转推,提及,被转推,和被提及。将推特进行分组,每组进行单独提取特征。为每组中的账户提取用户元数据的分布。计算的分布有,朋友,追随者,推文,资料长度,网龄,时间便宜的分布,对于每一个分布计算平均,最大,最小,中间值,偏斜,峰度和熵。
  • 网络特征
    通过转推、提及和#号,将用户作为节点。提及或者转推作为边。频率作为权重。最直接的特征就是节点和边的数量以及网络的密度。
  • 内容和语言特征
    内容和语言特征中通过使用词的个数和文本熵作为最简单的内容特征。还有语言中不同词的词性反应了不同语言的风格。
  • 情绪特征
    对于一段文本或者整个对话的情感进行分析。分别使用词典来量化文本的幸福感,极化和强度 将句子标示为极性或者中性,来消除极性的表达歧义。表情符号用来识别与文本是正相关还是负相关。上述这些可以用词典分析也可以用机器学习模型来抽取情感特征。
  • 时间特征
    时间特征对于分析内容的生产者和消费者来分析在线营销和在线讨论比较有用,基础的时间特征表示一个活跃账号有多么频繁,真实的人不会每天上百条推文。

特征分析

特征的数量过多,有的特征是相互冗余的,所以需要特征分析来降低特征的维数。可以作图显示不同特征的相关性大小。

特征选择

建立了流水线使用scikit-learn中提供的模型算法对两个数据集中的数据来进行特征分析,都是使用模型对单一大维度进行测试。来识别不同特征的差异性

image.png

发现最好的特征是通过用户元数据获得的,而随机森林产生的结果至少和其他方法一样好。还使用几个特征选择的方法如CIFEFCBFMRMR,发现了几乎用20个特征就能达到很好的精确性
image.png

总结

特征工程中的特征选择对于机器人检测系统的性能至关重要。一些机器学习方法例如随机森林能够继承弱学习者。使用少于20个特征就能达到很好的效果。深度学习能够为特征提取提供一些拓展,深度神经网络能够抽取重要的模式作为特征。DNN的进展加速假角色的生成,对话社交机器人的生成。以及生成对抗网络用来同时生成社交机器人的模型以及如何欺骗检测系统。Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, and Rebecca Passonneau. Sentiment analysis of Twitter data. In Proc. of the Workshop on Languages in Social Media, pages 30–38. ACL, 2011 中给出了数据集。
翻译自:Varol等, 《Feature Engineering for Social Bot Detection》.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容