刚考上sysu研究生,这可能是我正式读的第一篇英文文献,尝试写一个读书笔记吧。
感觉简书这个平台好像不错,感觉比博客园界面好看多了。
【Fake News Detection on Social Media:A Data Mining Perspective】
【社交媒体上的假新闻检测:一个数据挖掘的视角】
本文是2017年发布在ACM
SIGKDD上的一篇文章,谷歌学术中引用量为134。
假新闻检测应该是当前一个比较热门的应用领域,我在看这篇文章之前先搜索了一下目前是否有假新闻检测方面的应用,发现谷歌和微软都在自己的搜索引擎上引入了假新闻检测的的辅助插件PolitFact和Snopes。我没有找到他们的工作机制,不过目前大多是通过人工去判断一些内容的真假构成一个丰富的数据库,这些应用再根据搜索的内容去关联到这些数据库去进行分析新闻的真假。而本篇文章想做的从数据挖掘的角度构建一个更加全面、自动化的假新闻检测机制。
【摘要ABSTRACT】
本文研究如何用数据挖掘的方法来进行假新闻检测。首先提出了新的观点,社交媒体上的假新闻有不同于传统新闻媒体的特点,因此传统的基于内容和语义的检测方法并不适用,我们可能需要更多的辅助性信息比如社交环境特征social context来帮助我们进行假新闻检测的研究。这篇论文作者对社交媒体上的假新闻检测进行了全面的回顾,包括了心理学和社会学理论,并且提出了一些数据挖掘方面的算法进行特征提取和模型构建,并根据大量数据集制定了一些评价指标。最后讨论了一些相关领域的工作,开放性问题及未来的进一步的研究方向。
【介绍INTRODUCTION】
人们越来越多的接触社交媒体上的新闻,而不是传统媒介上的新闻,因此对社交媒体上假新闻的研究是有意义的。假新闻大多数是抱有经济利益或政治利益的,这严重破坏了新闻生态系统的真实性,因此作者想开发一款自动检测社交媒体上假新闻的方法。
假新闻具有刻意误导性,作者认为仅基于文本分析textual features的方法没办法去证伪一个引用了真实证据来支持错误观点的做法。应该利用一些辅助信息,比如说知识库knowledge base和社交用户的参与。但是用户产生的社交数据是巨大的,不完整的,无结构的unstructured,嘈杂的noisy,如何对这些数据进行有效的处理和提取是一个挑战。
来自Wiki的定义:A knowledgebase (KB) is a technology used to store complex structured and unstructuredinformation used by a computer system. The initial use of theterm was in connection with expert systems whichwere the first knowledge-basedsystems.比如之前提到的PolitFact和Snopes各自的网站应该就算是一个知识库。
【假新闻表征FAKE NEWS CHARACTERIZATION】
假新闻定义Definitions of Fake News
对假新闻下了一个定义。假新闻是指故意且可核实为虚假的新闻文章。
这个定义有两个关键特征:故意就是指假新闻是刻意制造出来的,是为了某种经济利益或者政治利益,而不是无意间造成的。可核实为假是为了避免二义性,难以证真伪的阴谋论不属于作者认同的假新闻范畴。
传统媒体上的假新闻Fake News on Traditional News Media
分别探讨了传统媒体和社交媒体上的假新闻的不同特点。传统媒体上的假新闻主要是基于心理学psychology foundations和社会学social foundations进行分析。而社交媒体上的假新闻不仅具有以上两种特点,还有两种新的特点。分别是恶意账号malicious accounts在社交媒体上进行宣传和回音室效应echo chamber。
社交媒体上的假新闻Fake News on Social Media
恶意账号是指虽然社交媒体上的用户是合法的,但是社交媒体用户可能是恶意的。在某些情况下,设置社交用户并不是真人,而是社交机器人social bots,半机器人cyborg users和故意发布假新闻的人trolls。研究表明大约有1900万个机器人账户在推特上支持特朗普,很大程度上扭转了2016年美国大选在线讨论。Trolls是真人用户,比如说与美国较有敌意的俄罗斯人可以在网络上散发一些恶意的诋毁性的假新闻来达成政治目的。这些社交媒体上高度活跃且带有党派色彩的恶意账户成为了假新闻的强大来源。
回音室效应在媒体上是指在一个相对封闭的环境上,一些意见相近的声音不断重复,令处于相对封闭环境中的大多数人认为这些扭曲的故事就是事实的全部。在这个群里中的人往往会对自己的观点进行两极化,从而产生了回音室效应,加大了消除上述假新闻的挑战。
作者在本文中主要分为两大块进行叙述,分别是假新闻表征characterization和假新闻检测dection。在做假新闻检测之前我们必须先对假新闻做一个定义,才能有的放矢,因此我们先分析了假新闻的心理基础,社会基础,恶意账户和回声室效应。接着再从检测方面分为新闻内容news content和社交环境social context两方面进行论述。探讨了基于知识knowledge-based,基于样式style-based,基于立场stance-based和基于传播propagation-based四种检测方式。
【假新闻检测FAKE NEWS DETECTION】
问题定义Problem Definition
再用数学符号比较严谨地定义这个问题。
假设是一篇新闻,这篇文章包含了两个主要成分,发布人publisher和内容content。发布人包含了许多特征,比如姓名、年龄。内容也包含了一些代表文章的属性,比如标题,文本,图像等。
把社交媒体参与度social news engagements定义成一个元组,来代表新闻如何随着时间而传播的过程。在n个用户的集合和他们在社交媒体上关于文章的相关帖子post集合。每一次参与代表了一个用户在某个时间通过帖子传播文章。
再下一个新的定义,这篇文章在n个用户之间的社交媒体参与度,假新闻检测的目的就是预测新闻是否是假新闻,给出一个映射关系,如果是假新闻值为1,如果不是假新闻值为0。即定义的值是一个二元分类问题。
这段基本属于直接翻译,作者重点在于明确了每一篇文章都包括社交媒体参与度,而社交媒体参与度与用户,帖子和时间有关。并把假新闻检测划分为一个二元分类问题。
特征提取Feature Extraction
特征提取主要分为基于新闻内容的特征提取和基于社交环境的特征提取。
新闻内容特征News Content Features
新闻内容的特征比如来源,标题,正文,图像,视频等。基于这些原始内容属性,可以构建不同类型的特征表示。
基于语言的特征linguistic-based:假新闻不是为了报道客观的主张,往往带有固执己见和煽动性的语言。可以根据一些单词数,虚词短语频率等来判断标题与文本内容是否相符合。
基于视觉的特征visual-based:基于视觉往往依靠耸人听闻甚至是虚假的图片来激起消费者的愤怒或其他情感反应,近年来,各种视觉和统计特征被提取出来用于新闻验证。
社交环境特征SocialContext Features
社交环境特征的主要有三个方面,用户user,帖子generated post和网络networks。
基于用户user-based的特征:可以判断是否是社交机器人、半机器人或者trolls。可以通过提取个人特征,如注册年龄、关注者/被关注者数量、用户撰写的tweet数量来验证每个用户的可信度和可靠性。也可以提取聚合特征,如验证用户百分比,平均关注者数量等。
基于帖子post-based的特征,人们通过社交媒体上的帖子来表达自己对假新闻的情绪或看法,如怀疑的观点、耸人听闻的反应等。因此可以通过提取帖子中公众的反应来帮助发现潜在的假新闻。代表公众社会反应的帖子有其独特的特点,比如立场stance、主题topic和可信度credibility。立场特征表示用户对新闻的看法,如支持、否认等。并提供了一些前人的方法。
直观来看,我觉得立场分析不是很可靠,只能算是一种辅助方法,因为大多数人怀疑的新闻不一定是假新闻,大多数人耸人听闻的新闻也不一定是假新闻,微博上那么多热搜也没人知道是真是假,大部分只是一些营销手段,抱有经济利益。
新闻社交媒体上大多数人处于信息不对称的地位,真理掌握在少数人手上,社交用户大多是被动接收方,更多的还是还是需要权威方面进行论证辟谣。
基于立场分析,无法在前期假新闻诞生的时候及时发现,那么在后期大多数人已经认同这是假新闻后,再由系统自动识别,反倒不如微信公众号的一个举报机制+辟谣机制更有效。
基于网络network-based的特征,用户在社交媒体上容易形成不同的兴趣、话题和关系网络。假新闻传播过程往往形成一个回音室循环。可以构建不同的网络模型辅助假新闻进行检测,比如立场网络stance network,共现网络cooccurrence network,友谊网络friendship network。
立场网络的点表示所有与新闻相关的tweets,边表示立场相似度的权重。
共现网络表示是否发表了同一篇相关的文章,我毕业设计的论文主要做的是类似citespcae的学术论文关系挖掘,其中一篇文章多个作者构成的就称为作者共现网络,一篇文章同时被多篇文章引用,引用的文章之间就组成了被引共现网络。
友谊网络节点代表用户,边代表用户之间的信息扩散路径。
社交环境特征是作者认为的一个创新点。作者认为仅基于文本分析是不够的,一定需要加上这些辅助信息才能够帮助进行假新闻的检测,其实我觉得这个出发点是对的,但是如今网络爆炸的时代,文章数量非常多,要加上辅助信息检测势必会导致处理速度变慢,而且目前这些信息还是处理一个比较理想的情况,NLP技术还不能真正做到了解人类想要表达的语义情感,因此真正操作时难度较大。
模型构建Model Construction
模型构建分为新闻内容模型和社交环境模型。
新闻内容模型News Content Models
新闻内容模型分为基于知识的模型和基于文体风格的模型。
基于知识的knowledge-based模型:指直接检测新闻文章中重大主张的真实性,即利用外部资源对新闻内容进行事实核查。现有的事实核查方法可以分为面向专家的expert-oriented、面向众包crowdsourcing-oriented的和面向计算的computational-oriented。
面向专家的方法比较费时,限制了高效率和可拓展性scalability。面向众包的方法利用集体智慧,让普通人对新闻内容进行注解,然后聚合这些注释以生成对新闻真实性的总体评估。面向计算的方法目的是做出一个自动可扩展的判别系统。主要是将新闻内容中的主张提取出来,利用外部知识图比如DBpedia从已有的事实中推断得出结论。
基于文体风格style-based的模型:指假新闻往往具有特定的写作风格,可以通过捕捉新闻内容风格来检测假新闻。主要分为欺骗性检测方法Deception-oriented和客观性检测方法Objectivity-oriented
欺骗性方法从新闻内容中捕捉欺骗性的陈述或主张。目前主要从句法和修辞结构两个方面进行研究。客观性方法的某些风格比如超党派风格可能表明新闻内容的客观性下降,从而误导消费者。
社交环境模型Social Context Models
社交媒体的本质在于为研究人员提供补充和增强新闻内容模型的额外资源。主要分为基于立场的模型和基于传播的模型。
基于立场的Stance-based模型:从用户的内容表达中提炼出观点立场,从而判断原始新闻的真实性。显式立场比如Facebook上的“大拇指朝上”和“大拇指朝下”的反应。隐式立场通过一些立场检测的相关算法进行分析。
基于传播Propagation-based的模型:新闻事件的可信度与相关社交媒体帖子的可信度高度相关。可以通过建立同构homogeneous或异质heterogeneous的网络进行检测。
【评估检测效果ASSESSING DETECTION EFFICACY】
数据集Datasets
由于数据收集难度较高,因此对于假新闻检测问题,目前还没有统一的基准数据集。
我们将采用BuzzFeedNews、LIAR、BS Detector、CREDBANK四个数据集进行分析,但他们不能都包括作者所需要的所有数据。
针对假新闻检测数据集不足,我们打算开发一个可用的数据集FakeNewsNet用于社交媒体上的假新闻检测。
找到了一个关于假新闻检测的竞赛http://www.fakenewschallenge.org/里面有数据集。
评价指标EvaluationMetrics
现有的评价假新闻的方法是判断一篇文章是否假的分类问题。因此采用应用范围最广的评价指标TN/TP/FN/FP/precision/recall/F1/accuracy,并绘制ROC曲线。
最常用的二分类问题的度量指标。
TN: True Negative (真负),被模型预测为负的样本,模型预测对了。
TP: True Positive (真正),被模型预测为正的样本,模型预测对了。
FN: False Negative (假负),被模型预测为负的样本,模型预测错了。
FP: False Positive (假正),被模型预测为正的样本,模型预测错了。
准确率accuracy = (TN+TP)/(TP+TN+FP+FN)当分类问题是平衡的时候,准确率可以较好地反映模型的优劣程度。
精度precision = TP/(TP+FP),你认为应该为正的样本中预测正确的比例。
召回率 recall = TP/(TP+FN),你认为应该为正且预测正确的样本在所有实际正确中的比例。
【相关领域RELATED AREAS】
谣言分类Rumor Classification
谣言和假新闻不同。假新闻有确认真假,而谣言真实性价值可以是真、假或未经验证unverified。谣言分析方法侧重于四个子任务:谣言检测、谣言跟踪、立场分类stance classification和真实性分类veracity classification。其中谣言的真实性分类是假新闻检测中最重要的任务。
真理发现Truth Discovery
可以对不同新闻媒体的可信度进行建模,从而推断出所报道新闻的真实性。
钓鱼检测Clickbait Detection
钓鱼文章的正文通常是缺乏理性的。研究人员利用这种差异来识别标题和新闻内容之间的不一致性,试图发现假新闻。虽然并不是所有的假新闻都包含“钓鱼”标题,但是特定的““钓鱼”标题可以作为一个重要的指标。
垃圾邮件和机器人检测Spammer and Bot Detection
现有的社交垃圾邮件检测方法主要依赖于从用户活动和社交网络信息中提取特征。社交机器人检测方法都是基于社交网络信息、众包和判别特征。因此,垃圾邮件和社交机器人都可以提供有关可用于假新闻检测的特定恶意社交媒体账户的信息。
【开放性问题及未来研究 OPEN ISSUES AND FUTURE RESEARCH】
作者提出了假新闻检测中存在的一些问题以及未来的研究方向,将研究方向分为四类:面向数据的Data-oriented方向、面向特性的Feature-oriented方向、面向模型Model-oriented方向的和面向应用的Application-oriented方向。
面向数据的假新闻研究侧重于研究不同类型的数据特征,如:数据集、时间特征temporal和心理特征psychological。目前的数据集不够准确,比较有前途的方向是创建一个全面和大规模的假新闻数据集,以供后续的研究。从时间特征来看,社交媒体上的虚假新闻传播呈现出与真实新闻不同的独特时间模式,如何进行建模分析是一个难点。目前心理学角度的研究也比较有限,明白了回音室效应,但如何捕捉回音室效应,如何利用这种模式在社交媒体中进行检测,还较少有相关的研究。
面向特征的假新闻研究旨在确定从多个数据源检测假新闻的有效特征,主要有新闻内容和社交环境。从新闻内容来看,单词嵌入word embedding和深度神经网络在文本特征提取中受到了越来越多的关注,但是尚未有运用到假新闻检测方面的研究。新兴的基于深度网络的图像特征提取方面的研究也比较有限。从社交环境来看,现有的基于用户的特征主要聚焦于一般的用户资料general user profiles,而不是分别区分账户类型和提取特定用户特性。基于帖子的特征可以用CNN等来更好地捕捉人们对假新闻的看法和反应。基于网络的特征中不同类型的网络是如何构建的,还有待完善。
面向模型的假新闻研究主要是为了构建更有效、更实用的假新闻检测模型。前面提到的方法集中在提取各种特征,将这些特征纳入有监督分类模型然后选择性能最高的分类器。作者认为以下几个方向对模型构建有研究价值。首先,对特征权重进行优化。其次,预测假新闻的可能性比产生一个二元值更有意义。第三,每一项特征都有局限性,可以构建多个弱分类器的联合模型。此外,是否存在某些场景可以运用半监督或者无监督模型进行假新闻的预测也是研究的方向。
面向应用的假新闻研究包括假新闻检测之外的其他领域的研究,比如假新闻传播diffusion和虚假新闻干预intervention。假新闻在社交媒体中的传播有其自身的特点,需要进一步研究,如社会维度social dimensions、生命周期life cycle、传播者识别spreader identification等。假新闻干预方面分为假新闻传播范围最小化的主动干预方法或在虚假新闻传播后的反应性干预方法来降低虚假新闻的影响,这两种方法都有待完善。
这一段关于未来的研究方向我感觉是文章的比较核心的东西,我后面在谷歌学术上查阅了一些引用这篇文章的一些论文,发现作者在这篇文章的基础上对此作了很多后续研究,很多方面就是在这个的基础上进行拓展。而且这些开放性的研究也可以给其他研究者一个研究的方向。
【总结CONCLUSION】
社交媒体被用来传播假新闻对个人和社会产生了负面影响。本文通过对已有文献的梳理,将假新闻问题分为特征和检测两个阶段。在特征方面,介绍了传统媒体和社交媒体中假新闻的基本概念和原理。在检测方面,从数据挖掘的角度回顾了现有的假新闻检测方法,包括特征提取和模型构建。我们还进一步讨论了假新闻检测研究的数据集、评价指标以及未来的发展方向。
【心得体会】
这篇文章其实没有提出多少新的方法,大部分内容是对假新闻检测方面的研究进行了梳理。条理清晰,归纳了一些可以用于假新闻检测的前人的工作成果,并提出了今后的研究方向。
比较大的一个创新点就在于其他人的假新闻检测都是基于内容的,而作者认为假新闻检测不仅需要考虑内容,还需要考虑社交环境特征。而且作者详细地为这些社交环境分类细述,但我觉得作者考虑的太过周全了,但是事实上每一个小点都有许多困难需要攻克,想要真正完善论文中所叙述的内容要花费挺长的时间。
我浏览了一下这个作者的学术论文,发现他果然关于这个问题继续进一步深入研究,发表了许多篇关于假新闻检测的新进展,比如论文[1] 中主要深入探讨了社交媒体上的用户资料user
profiles与假新闻之间的相关性。这也就是本文重点论述的特征提取部分的social context feature中比较重要的基于用户user-based的一个方面的研究,也是在开放性问题研究中面向特征方向中明确提出的一个研究方向。本文中这部分只是一笔带过,而在新论文中作者构造了真实的假新闻并选择能识别真假新闻的用户和倾向于相信假新闻的用户。对这些用户之间的显式explicit用户特征(比如关注数量,注册时间,发帖数)和隐式implicit用户特征进行了比较,揭示了两种揭示了它们区分假新闻的不同潜力,而不是总是使用一般性的用户画像,为今后的假新闻自动检测研究奠定了基础。但是作者其实也只是完成了他自己定下的一小部分目标,他还可以结合之前提到过的比较成熟的社交机器人检测技术,将机器人与普通用户区分开,更好地进行假新闻检测。
在第二篇论文[2]中,作者主要研究特征提取中的网络特性及模型构建中的网络模型。作者认为网络中存在有包括回音室效应,恶意账户,过滤气泡等性质。作者在文中说明了如何构建同构homogeneous和异构heterogeneous网络。比如说本文中提到或者未提到的友谊网络friendship network, 扩散网络diffusion network和可信网络credibility network是属于同构网络,而知识网络knowledge
network,立场网络 stance network, and互动网络 interaction network属于异构网络。也具体描述了比如互动网络包括发布人,新闻片段和用户,如何通过将不同的实体嵌入到相同的平面中,利用新生成的特征来进行假新闻检测。这部分内容也属于开放性问题中面向特征中的网络部分的内容,这篇新论文中明确地将这篇文章中提出的关于网络方面的构想解决了。
作者在最新的一篇文章[3]中提到了本文中自己整理的数据集FakeNewsNet,并成功将模型运用到了数据分析中,实验结果在基线之上。作者关于这方面的研究还有很多篇文章,说明作者还处在假新闻检测研究的第一线,但是由于时间原因我也仅粗略看了其中几篇,有些模型有点晦涩难懂,还是需要一些时间才能消化。
[1] Shu,Kai,Suhang Wang, and Huan Liu. "Understanding user profiles on socialmediafor fake news detection."2018 IEEE Conference on Multimedia InformationProcessing and Retrieval (MIPR). IEEE, 2018.
[2] Shu, Kai,H.Russell Bernard, and Huan Liu. "Studying fake news via networkanalysis:detection and mitigation."Emerging Research Challenges and Opportunitiesin Computational Social Network Analysis and Mining.Springer, Cham, 2019.43-65.
[3] Shu,Kai,Suhang Wang, and Huan Liu. "Beyond News Contents: The Role ofSocialContext for Fake News Detection."Proceedings of the Twelfth ACM InternationalConference on Web Search and Data Mining. ACM, 2019.