阅读论文—Pair-Based Joint Encoding with Relational Graph Convolutional Networks for Emotion-Cause Pai...

发表：Conference on Empirical Methods in Natural Language Processing 2022 CCF-B
引用：Junlong Liu, Xichen Shang, Qianli Ma: Pair-Based Joint Encoding with Relational Graph Convolutional Networks for Emotion-Cause Pair Extraction. EMNLP 2022: 5339-5351
论文地址：https://export.arxiv.org/pdf/2212.01844v1.pdf
代码地址：https://github.com/tutuDoki/PBJE-ECPE

1 背景与问题

Xia 和 Ding (2019) 提出了一个称为情感-原因对提取 (ECPE) 的新任务。给定一个文档作为输入，ECPE 提取表达情绪的子句及其对应的表达原因子句（如图 1 所示）。

Figure 1

对于ECPE，Xia和Ding (2019)首先提出了一种两阶段方法。然而，两阶段方法可能会导致错误传播的问题。为了解决这个问题，之前的工作使用端到端的方法（Ding et al., 2020b; Chen et al., 2020d; Singh et al., 2018）。它们中的大多数使用顺序编码（sequential encoding），其中它们的特定任务特征以预定义的顺序学习。
然而，顺序编码只考虑对或子句内的内部关系，而忽略了它们之间的相互关系。
在顺序编码中，信息只能从情感/原因子句编码器流向对编码器（pair encoder），反之亦然，导致将不同数量的信息暴露于对编码器和子句编码器。在顺序编码中，信息只能从情感/原因子句编码器流向对编码器，反之亦然，导致将不同数量的信息暴露于对编码器和子句编码器（Yan 等人，2021；Wang 等人，2022）。

联合编码方式（joint encoding manner）不仅可以平衡情感子句、原因子句和对之间的信息流，以处理我们上面提到的顺序编码问题，还可以考虑ECPE中子句之间的因果关系(Chen et al.， 2020b)。

鉴于此，本文提出了一种新的基于对的联合编码（Pair-Based Joint Encoding (PBJE) method）方法，该方法以联合特征编码的方式同时生成对和子句特征。

2 相关研究

2.1 Sequential Encoding

Xia and Ding (2019) 提出了ECPE任务和两个辅助任务（EE和CE）。
Wei et al. (2020) 提出了一个统一的框架，该框架使用图卷积网络对相同表示中的情绪和原因子句进行编码。
Ding et al. (2020a,b) and Chen et al. (2020d) 分别为对和子句构建编码器，对子句进行建模，然后将它们连接为对。
然而，这些典型的顺序编码模式以预定义的顺序对特征进行编码，这导致了任务间特征交互的不平衡。由于子句和对之间的交互是单向的，并且对中的特征不能流到子句。

2.2 Implicit Joint Encoding

一些工作使用隐式联合编码器（implicit joint encoding）来解决ECPE，例如序列标记方法。我们称它们为“隐式”，因为这些方法对子句和对进行联合编码，但它们在模型中没有明显的对特征。这些基于序列标记的隐式联合编码方法缺乏子句和对之间的显式交互。

3 任务

给定 N 个从句的文档 $D= (c_1，c_2，…，c_N)$ 和 M 个单词的第i个从句 $c_i= ( w^i_{1}，w^i_2，…，w^i_M)$ ，ECPE任务旨在提取 D : $P =\{…，(c_i，c_j)，…\} (1≤i，j≤N)$ 中的所有情绪-原因对，其中 $c_i$ 和 $c_j$ 成对地表示情绪从句和相应的原因从句。

4 方法

该方法同时编码对和从句，并从关系图卷积网络（RGCN）中的从句中对因果关系进行建模。PBJE的结构如图 2 所示。

Figure 2

4.1 Pair Generator

给定由 N 个子句组成的文档 $D = (c_1，c_2，…，c_N)$ ，本文将 D 输入到预先训练的BERT中。具体来说，在每个子句的开头添加一个标记 [CLS]，在末尾添加一个标记 [SEP]，并将所有子句连接在一起作为输入。最后，我们使用除每个子句中的 [CLS] 和 [SEP] 之外的 representations of tokens 的 average pooling 作为子句的表示。因此，具有 N 个子句的文档可以表示为：
$H = {h_1，h_2，…，h_N}$
其中 $h_i∈R^d$ ，d是BERT的隐藏大小。
为了获得对的表示，本文使用对生成器（PG）。具体来说，我们将相应的两个子句连接起来，并用 learnable relative position embedding 来投影它们：
$p_{ij} = W_p[h_i，h_j] + b_p + r_{i−j}$
其中 $p_{ij}∈R^d$ 表示使用 $c_i$ 作为情感子句的对， $c_j$ 作为原因子句， $W_p∈R^{d*2d}$ 和 $b_p∈R^d$ 是可学习的参数， $r_{i−j} ∈ R^d$ 是相对位置嵌入，[，]表示连接操作。此外，本文将超参数 λ 设置为局部窗口（|i−j|≤λ），以限制对数。

4.2 Pair-Based Joint Encoder

为了平衡对和子句之间的相互作用，并捕捉成对的因果关系，我们构造了一个异构无向图。该图有四种节点： emotion clause nodes, cause clause nodes, pair nodes, 和 a document node。
作用如下：

从句中的情感信息和原因信息包含在不同的词中。
为了直接与从句交互，并捕捉相应的情感从句和原因从句之间的因果关系，在图中添加了对节点。子句和对的同时编码平衡了它们之间的信息流。
在图中添加了一个文档节点，它可以为其他节点提供一些全局信息（例如主题），并像 pivot 一样与其他节点交互。

Five kinds of internode edges in our graph:

Clause-Clause Edge：从句（情绪）-从句（情感）和从句（原因）-从句。所有情感/原因子句节点都与它们自己的边完全相连。
Clause-Pair Edge：两种子句对边，包括子句（情感）-对和子句（原因）-对。所有对节点都连接到它们对应的情感从句节点和具有这两种边的原因从句节点。
Document-Others Edge：文档节点连接到具有此边的所有其他节点。它可以将文档中的全局信息传输到其他节点。

接下来，将关系图卷积网络（RGCN）（Schlichtkrull et al.，2018）应用于本文的异构无向图，以聚合每个节点的邻居的特征。

S1 使用从句的表示来初始化每个情绪和原因从句节点：
$H^{(0)}_E=H，H^{(0)}_C=H$ ，其中 $H^{(0)}_E，H^{(0)}_C$ 分别是情感和原因从句节点的表示。
S2 使用对的表示来初始化对节点： $H^{0)}_P=\{ p_{11}，p_{12}，…，p_{NN} \}$
S3 使用文档的所有子句表示的平均池来初始化文档节点： $H^{(0)}_D = Avgpool(H) ∈ R^d$
S4 在图上应用RGCN
S5 最后，选择最后一层作为 θ 层卷积运算后所有节点的最终表示： $E = H^{(θ)}_E , C = H^{(θ)}_C , P = H^{(θ)}_P$

4.3 Classification

在获得节点的所有表示后，使用简单的 MLP 来获得情绪-原因对的预测： $\hat{y}^p_{ ij} = σ (M LP ([P_{ij} , E_i, C_j ]))$

4.4 Training Object

通过联合优化三个子任务来训练PBJE。总训练对象定义如下： $L=αL_p+βL_e+γL_c$ ，其中 α、β 和 γ 是超参数。

5 实验

5.1 Dataset and Evaluation Metrics

Xia and Ding (2019), SINA city news，表 1 显示了数据集的详细信息。

Table 1

Evaluation metrics：precision P , recall R and F-scoreF 1
Three tasks：EmotionCause Pair Extraction, Emotion clause Extraction, Cause clause Extraction

5.2 实验结果分析

表 2 显示了情绪-原因对提取（ECPE）任务和两个子任务的结果：情绪子句提取（EE）和原因子句提取（CE）。

Table 2
表 3 显示了消融研究的结果。

Table 3

w/o Clause-Clause Edge——使用一种类型的边来代替Clause(Emotion)-Clause(Emotion) Edge 和the Clause(Cause)-Clause(Cause) Edge。
w/o Clause-Pair Edge——删除 Clause(Emotion)-Pair Edge 和 Clause(Cause)-Pair，并使用另一条边来替换它们。
w/o Pair Node——移除 pair nodes，并使用RGCN分别对情感和原因子句进行建模。来自PG的对用于替换RGCN之后的对。是一种典型的顺序编码方法。
w/o PG——移除PG，并使用另一个 relative position embedding 来替换对的表示，这意味着具有相同相对位置的对在RGCN中将具有相同的初始表示，并且不包含任何子句信息。
w/o Pair Node & PG——移除 pair nodes 和 PG，类似于先前工作中仅对子句进行编码以进行预测的方法。

为了验证在ECPE中考虑联合编码方式时的效果，进行实验验证。首先比较两种情况下的结果：具有一个基本真值对的文档和具有两个或更多基本真值配对的文档。结果如表 4 所示。PBJE在这两种情况下都显示出明显的优势。

Table 4
另外比较了另外两种情况下的结果，即相对位置小于或等于1（|i−j|≤1）和大于或等于2（|i–j|≥2）的对 $(c_i，c_j)$ 。结果如表 5 所示。

Table 5
同时分析了从基准语料库中选择的一个例子，以证明联合编码方式的有效性，并考虑了PBJE中的因果关系，如表 6 所示，此外，将预测结果可视化为图 3。

Table 6

Figure 3

6 贡献

本文提出了一种新的基于对的联合编码（PBJE）网络，它可以同时对对和子句特征进行编码。与顺序编码相比，它可以平衡任务间的特征交互，并通过配对对情感子句和相应原因子句之间的因果关系进行建模。此外，它可以在多任务学习中避免了先前任务中的错误预测。
从多关系的角度出发，本文提出了一个关系图卷积网络（RGCN）框架来捕捉情感子句、原因子句、配对和文档之间的关系，包括四种类型的节点和五种类型的边。

在中文基准语料库上的实验表明，PBJE具有有效性。

实验附录

我们将PBJE与以下方法进行比较，这些方法使用预先训练的BERT作为编码器：
•ECPE-2D（Ding et al.，2020a）：该方法使用2D表示来构建对矩阵，并利用2D变换器模块与其他对交互进行预测。
•TransECPE（Fan et al.，2020）：这是一种基于转换的方法，将任务转换为类似有向图构建的解析过程。
•RankCP（Wei et al.，2020）：该方法从排名的角度处理情绪-原因配对提取，对文档中的配对进行排名，并提出了一种一步神经提取方法。
•PairGCN（Chen et al.，2020d）：该方法使用对节点和对图卷积网络构建图，以对候选对之间的依赖关系进行建模。
•ECPE-ML（Ding et al.，2020b）：这是目前最先进的方法，采用了两个联合框架，包括基于情绪的原因提取和基于滑动窗口策略的基于原因的情绪提取。
•UTOS（Cheng et al.，2021）：它使用序列标记解决了这一任务，允许通过一次遍历提取对，并解决了错误传播问题。
•MTST-ECPE（Fan et al.，2021）：该方法使用多任务序列标记框架来细化标记分布。
为了验证文档节点的效果，根据每个文档的平均子句数14.77和中位数14，在不同长度的文档中进行了一些广泛的实验。如表 7 所示，文档节点可以帮助PBJE提高ECPE的性能。

Table 7

文档节点可以过滤无效信息并将其集成到全局信息中，然后通过文档其他边缘将其传输到其他节点。然而，当文档很长时，平均池的子句特性太多。这导致长文档中的有效信息密度比短文档中的低。
为了进一步证明在RGCN中考虑因果关系的重要性，本文分析了从基准语料库中选择的另外两个例子。如表 8 。

Table 8

4)如图 4 所示研究了不同θ值对ECPE的影响。

Figure 4

阅读论文—Pair-Based Joint Encoding with Relational Graph Convolutional Networks for Emotion-Cause Pai...