论文笔记| AAAI'24 一种使用图掩码自编码器的无监督虚假新闻检测方法

论文标题:GAMC: An Unsupervised Method for Fake News Detection using Graph Autoencoder with Masking
论文链接:https://arxiv.org/abs/2312.05739
论文来源:AAAI2024
作者单位:西北工业大学

摘要

  这篇论文介绍了一种使用图掩码自编码器和对比学习的无监督假新闻检测技术GAMC。通过利用新闻传播的内容和上下文作为自监督信号,本文的方法消除了对有标注数据集的需求。通过增强原始的新闻传播图,用图编码器进行编码,并使用图解码器进行重构。本文设计了一个独特的复合损失函数,包括重构误差和对比损失。本文方法的贡献包括引入自监督学习到假新闻检测中,提出了一个整合两个不同损失的图自编码器,并通过实际数据集实验证明了我们方法的有效性。

方法

数据增强

  1. 节点特征掩盖。具体过程和GraphMAE一致(略)。
  2. 连边丢弃。具体过程和GraphCL一致(略)。
    每一种数据增强策略做两次。最终形成两个增强图\widehat{G}_{1}=\left(V, \widehat{A}_{1}, \widehat{X}_{1}\right) \text { and } \widehat{G}_{2}=\left(V, \widehat{A}_{2}, \widehat{X}_{2}\right)

图编码器

  选取了一个两层的GIN,对两个增强图进行编码得到节点隐层表示{H}_{1}{H}_{2}h_{i}^{(l)}=M L P\left(\left(1+\epsilon^{(l)}\right) \cdot h_{i}^{(l-1)}+\sum_{j \in \mathcal{N}(i)}\left(h_{j}^{(l-1)}\right)\right)
  由图编码器得到的表示经过池化之后可以直接进行假新闻的分类。公式上看用的是Sum池化:
F=\sum_{i=1}^{n} h_{i}
  最终得到图的全局表示。

图解码器

  解码器之前重掩码:
\widehat{h}_{i}=\left\{\begin{array}{ll} h_{[M A S K]}, & \text { if } h_{i} \in V_{m} \\ h_{i}, & \text { if } h_{i} \notin V_{m} \end{array}\right.
  将重掩码之后的节点表示\widehat{H}_{1}\widehat{H}_{2}输入到图解码器,得到重构表示X_{1}^{\prime}X_{2}^{\prime}
  不能说和GraphMAE相似了,只能说是一模一样~

损失函数

  损失函数的设计既希望重构损失最小,也希望对比损失最小。

  • 重构损失:用的是MSE均方误差:
    \mathcal{L} r e c=\frac{1}{n} \sum_{i=1}^{n}\left(\left|X_{1}-X_{1}^{\prime}\right|_{2}^{2}+\left|X_{2}-X_{2}^{\prime}\right|_{2}^{2}\right)
      
    疑问:这里为什么不用GraphMAE的放缩余弦误差SCE而用MSE了?)
  • 对比损失:最小化来自相同传播图产生的两个重构图之间的差异:
    \mathcal{L} \operatorname{con}=\frac{X_{1}^{\prime} \cdot X_{2}^{\prime}}{\left\|X_{1}^{\prime}\right\|\left\|X_{2}^{\prime}\right\|}
    疑问:这里为什么用重构图X_{1}^{\prime}X_{2}^{\prime}计算对比损失而不是用{H}_{1}{H}_{2}?)
  • 总损失:
    \mathcal{L}=\mathcal{L} r e c-\alpha \mathcal{L} c o n
    疑问:两个损失都是要最小化,中间为什么用相减而不是相加?)

在自监督训练完成后,图编码器得到的表示,使用支持向量机SVM预测最终标签。

数据集

实验

PolitiFact数据集的无监督结果
Gossip数据集的无监督结果
有监督方法的结果
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容