长文档需要学到复杂的结构信息。作者将长文档的信息分为了局部信息和全局信息。为了获取这些信息,作者建立了基于关键词相关性图的图自动编码器模型。通过重构的方式学到的隐藏表示,能够整合关键字作为节点的节点信息和融合了多种局部信息和全局信息的边信息。
聚类结果与特征表示息息相关。现有的表示方式集中在以tfidf为代表的词袋模型和方便Bert处理的可变长度单位序列(sequences of variable-length units)。但他们因为高维性和神经网络的高额计算有沉重的计算成本。为了获取更好地文档表示方法,作者提出了KCG模型。作者分析:句子级别的聚类依赖局部的、句子内部的信息。文章级别的聚类依赖全局的、句子间的聚类。如果在能同时获取文章的局部信息和全局信息,就能构建更好的文章表示。
KCG模型将一篇文档表示成一个图,关键词作为节点信息。节点之间的边表示相关性程度。相关性程度是由对应的句子得到的。将KCG得到的节点和边的信息送入图神经进行编码,编码之后的信息进行聚类。
关键词是全文的关键词(全局信息);句子是与关键词相关的句子,由句子的相似度得出节点之间的边(局部信息)
作者们认为贡献有:
1. 探索到了长文本的句子和词之间的信息。
2. 提出了新的图结构聚类模型
3. 第一次使用图神经考虑长文本聚类的全局和局部信息。(但就目前而言,只考虑了句子和词的相关性信息没有考虑文档和文档之间的相关性)
模型:
3.1 KCG Construction
1. 对每篇文档,使用非负矩阵分解的方法选出50个关键词;
2. 每篇文档的句子匹配到相关的关键词节点中去。因此,每个节点都有其相关的句子集;
3. 对句子集中的每个句子进行编码,作为节点信息;
4. 通过句子集的相关性计算节点之间的边;
Node Feature:用句子集编码的平均值代表关键词节点;
Word co-occurrence edge:(词共现边)作者通过前任研究到的,相似的关键词出现在相似文本中这一原则,认为关键词出现的频率相似,那么这些关键词是有相关性的。因此通过关键词出现的频率来寻找相似的关键词;
Sentence similarity edge:为了测量关键词的全局相似度信息,作者计算了两个节点中句子集编码中的平均相似度信息(用cosine算的)。句子集编码的相似度越高,关键词的相似度越高,两者之间的边的权重越大。
Sentence position edge:作者认为关键词句子集中句子出现的位置也和关键词的相似度有关(不敢苟同)。比如,两个关键词的句子集中句子都有在第一句中出现,就认为两者相关。
3.2 Graph Autoencoders (GAEs)
KCG获取了是某一篇文档的局部和全局信息,将KCG送入多种GAE中进行表示学习。得到的新的表示是通过图神经重构结构表示和节点信息得到的关于每一篇文章的表示。
3.3 Clustering Algorithm
得到embedding后,先处理成维度相同的数据,在用谱聚类聚类。