通过数据选择得到的测量速度快,泛化性高的机器人检测系统(Scalable and Generalizable Social Bot Detection through Data Selection)

摘要

尽管机器人检测系统快速发展,但是与时俱进的检测模型仍然勉励这通用性,和检测速度的挑战,限制了应用的发展。在本文中提出了一个使用来自用户元数据的少量的特征得到的框架,使得检测速度能够满足推特上所有新的推文的检测。
并且最重要的是,我们发现从训练数据集中策略的选择一个子集就能够产生准确度和通用性比在所有数据上训练得到的模型更好的模型。

介绍

很多使用机器学习检测机器人的框架都面临着检测速度和通用性的难题。本文针对的就是这两个关键性问题,检测速度是能够通过有限的资源分析流式数据,即检测速度要大过内容产生的速度。通用性是指能够检测出不同数据集中不同的机器人。通过仅仅关注用户的账户信息能够轻松实现较快的检测速度。令人惊奇的是,通过仔细挑选训练数据中的子集,而不是混合所有数据,能够实现更好的通用性。

特征工程

image.png

本文为了检测速度,抛弃了大量其他特征,只依赖于上表中的20个特征。
user_age是指创建时间和检测时间的小时差。用来计算很多rate特征。screen_name_likelihood特征是受到(Beskow and Carley 2019)年工作的启发,用的信息检索中n-gram方法估计分布主要是2-gram。

数据集

image.png

上图是本论文中的数据集,上图中下面三个是本论文创建的三个数据集。

数据分析

image.png

首先使用PCA主成分分析技术,将数据都降维到2维平面,看这些数据的可分离性,左面五个数据的可分离性较好,其他的不是特别好。可能因为有些数据集中机器人已经表现出复杂的特征,使人不容易区分真人和机器人了。


image.png

接着对模型的通用性进行了分析,横着看是从一个数据集上训练在其他数据集上测试,表明了在单一数据集上训练是否有较好的通用性,竖着是用其他数据集训练,在单一数据集上测试,表示这个数据集是否很容易可分。

模型选择

image.png

使用上表中的八个数据集不同组合来训练247个带100棵子树的随机森林模型,查看不同模型的准确性。结果如下:


image.png

发现m196的模型精度最好,然后又拿这个模型在不同没见过的测试集上随机抽取账号进行测试,得到的AUC分布图如图3。以及五折交叉验证得到的结果如图3(e)。可以看出在gilani-17上和midterm-18上的结果不是特别好,然后单独在这两个数据集上训练测试能够分别得到0.84和0.87说明泛化性在这两个数据集上解决起来有些困难。

模型可解释性

使用SHAP技术来分析每一个特征对于分类结果的可解释性:


image.png

总结

代替在所有可用数据上训练模型,有策略的选择一些训练数据的子集即可产生较好的效果。并且只使用用户账户抽取的20个特征即可产生不错的效果。

总结自--Yang等, 《Scalable and Generalizable Social Bot Detection through Data Selection》.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容