1 Disambiguated Node Classification with Graph Neural Networks
(待续)
2 LABEL-FREE NODE CLASSIFICATION ON GRAPHS
WITH LARGE LANGUAGE MODELS (LLMS)(ICLR 2024)
本文通过结合LLMs和GNNs的优势,为图上无标签节点分类任务提供了一种高效且成本效益高的解决方案。LLM-GNN不仅提高了节点分类的准确性,还降低了对大量高质量标签的依赖,从而在实际应用中具有更广泛的适用性。
GNN训练需要大量真实标注,而LLMs虽然不需要标注,在处理图结构和大规模数据集时存在局限性。本文中通过研究利用LLMs的零样本学习能力来缓解GNNs对大量训练数据的需求,其中面临的挑战是,在利用LLMs进行标注时对于产生噪声标签的处理。对于这一挑战,本文提出以下策略:设计合适的prompt和选择高质量的训练节点。与传统的图主动节点选择方法不同,LLM-GNN考虑了LLMs对节点标注的难度,从而主动选择节点。然后,它利用LLMs生成带有置信度感知的标注,并利用置信度分数作为后过滤步骤来进一步提高标注的质量。
2.1 方法
- 难度感知的节点选择:除了考虑节点的多样性和代表性,LLM-GNN还考虑了标注质量,引入了一种难度感知的启发式方法,关联了标注质量和特征密度。
- 置信度感知的标注:选出节点集合之后,LLM-GNN利用LLMs强大的零样本能力对这些节点进行带有置信度的标注。置信度分有助于识别标注质量,从噪声中筛选出高质量标签。
-
可选的后过滤阶段:为LLM-GNN所特有,目标是过滤掉低质量的标注。
工作流程整体示意图
2.1.1 难度感知的节点选择
通过对LLM标注的初步调查发现,LLMs标注的准确性与节点的聚类密度密切相关。
从整个数据集中抽取1000个节点,为了将它们送入大模型进行标注。这些节点根据它们最近的聚类中心被分为了等大的10组。距离聚类中心越近,预示着标注质量越高,也就是标注难度越低。接下来,利用这个距离来近似标注的可靠性,并称之为C-Density:
其中,为任意节点,它的聚类中心为
,
表示节点
的特征。传统的图主动学习方法用
表示分数,为了将其与难度感知联合起来,我们将其表示为由高到低排名的形式
,将难度感知得分也表示为排名
,然后计算联合分数:
最后,联合分数高的节点将被选出送入大模型。
2.1.2 置信度与可靠性方法
本文研究了以下几种策略:
- 直接询问置信度,记为“Vanilla(零样本)”。
- 基于推理的提示来生成标注,包括思维链(chain-of-thought)和多步推理(multi-step)。
- TopK提示,让LLMs生成K个可能的答案,选择最可能的一个作为答案。
- 基于一致性的提示,多次查询大模型,选择最常见的输出作为答案,记为“最多投票”。
- 混合提示,结合了TopK提示和基于一致性的提示。
结论:
- 大模型在所有数据集上都表现出良好的零样本预测性能,这表明大模型可能是潜在的优秀标注器。
- 与零样本提示相比,带有少量样本演示的提示可以略微提高性能,但成本加倍。
-
零样本混合策略是提取高质量注解的最有效方法,因为置信度可以很好地指示注解的质量。因此,我们在后续研究中采用了零样本混合提示。
置信度与可靠性研究实验结果
2.1.3 后过滤(Post-Filtering)
直接过滤掉低置信度节点可能导致标签分布偏移,降低所选节点的多样性,从而影响后续训练模型的性能。为了衡量某个节点对多样性的影响,我们提出了熵变化(COE)方法。假定目前选择的节点集合为,那么COE可以通过下式计算:
其中H()是Shannon熵函数,
表示LLMs生成的注释。
的值可能为正或负,较小的值表明移除该节点可能对所选集的多样性产生不利影响,可能损害训练模型的性能。
另外一个评价指标是综合过滤分数,它基于下式计算: