阅读论文—Effective Inter-Clause Modeling for End-to-End Emotion-Cause Pair Extraction

发表：ACL 2020 CCF-A
引用：Penghui Wei, Jiahao Zhao, Wenji Mao:
Effective Inter-Clause Modeling for End-to-End Emotion-Cause Pair Extraction. ACL 2020: 3171-3181
论文地址：https://aclanthology.org/2020.acl-main.289.pdf

1 背景与问题

Emotion-cause pair extraction 旨在从给定文档中提取所有情感子句及其原因子句。以前的工作采用两步法，第一步分别提取情感子句和原因子句，第二步训练分类器过滤掉负对。但是这种方法面临着错误传播，并且两个步骤可能无法很好地相互适应。
了解情绪发生的原因具有广泛的应用，例如消费者评论挖掘和舆情监控。

2 解决办法

前置条件：

Coherent document has an underlying structure（Mann 和 Thompson，1988；Marcu，2000），情感-原因对的两个子句之间存在因果关系，将其与文档中的其他非情感-原因对区分开来。
根据 cohesion 和 coherence of discourse（De Beaugrande 和 Dressler，1981），包含两个距离较远子句的概率因果关系相对较小。因此，子句对的两个子句之间的相对位置信息可以被认为是情感-原因对提取的有效特征。

在本文中，从排名的角度处理情感-原因对提取，即对给定文档中的子句对候选进行排序，并提出了一种两步法，强调子句间建模来执行端到端提取。
首先通过利用图注意力来学习子句表示来模拟子句间关系，通过捕获两个子句之间的潜在关系来促进对提取。
然后它学习子句对表示并对这些对进行排名以提取情绪-原因对。提出了一种基于内核的相对位置嵌入方案来模拟相对位置之间的相互影响并增强子句对表示以进行有效排名。
本文将这两个组件集成到一个统一的神经网络中，该网络是端到端训练的。

案例
As shown in the following example, an emotion clause c3 and its corresponding cause clausec2 construct an emotion-cause pair (c3, c2):
Example.
He told us that since his illness (c1),his classmates and advisors have given him much help about the schoolwork (c2). He has beentouched (c3), and said that he will repay them (c4).

3 方法

提出了一种一步方法名为 RANKCP。
它对文档中的子句对候选进行排名以提取情感-原因对。
整体架构如图1所示，由三个组件组成。
第一个组件学习给定文档中子句的向量表示。
第二个组件对子句之间的关系进行建模以获得更好的子句表示。
第三个组件学习通过相对位置建模增强的子句对表示，并对子句对候选进行排序以提取情感-原因对。

Figure 1

3.1 Document Encoding

由 |D| 子句组成的文档 $D = (c_1, c_2, . . . , c_{|D|})$
-> RNN 进行编码获取 $c_i = (w^i_1, w^i_2,., w^i_{|ci|})$
-> 双向RNN获取隐藏状态序列 $(h^i_1, h^i_2,., h^i_{|ci|})$
-> attention 并返回子句 $c_i$ 的状态向量 $h_i = ∑^{|c_i|}_{j=1} α_j h^i_ j, α_j = Softmax(w^T_a tanh(W_ah^i_ j + b_a))$

3.2 Modeling Inter-Clause Relationships with Graph Attention Network

为了增强文档中子句之间的交互，我们将文档结构视为全连接子句图，并采用图注意网络 (Veli ˇckovi ́c et al., 2018)对子句间关系进行建模。
具体来说，全连接图中的每个节点都是文档中的子句，每两个节点都有一个边。同时还添加了自环边到每个节点，因为情感子句的原因子句可能是本身。
图注意力网络通过堆叠多个图注意力层来传播子句之间的信息，其中每一层都是通过使用自注意力聚合相邻子句的信息来学习更新的子句表示(Vaswani et al., 2017)。在第 t 个图注意力层，让 ${h^{(t−1)}_1 , h^{(t−1)}_2 , . . . , h^{(t−1)}_{|D|} }$ 表示该层的输入子句表示，其中子句 $c_i$ 的子句表示为 $h^{(t−1)}_i ∈ R^{d_{t-1}}$ 。
进一步采用多头注意力，其中每个头都可以根据图注意力的保序属性捕获 global pattern（Qiu et al., 2018）。在实践中，我们在每两个相邻层之间添加了a highway connection (Srivastava et al., 2015) 来控制 information flow。
基于使用多个图注意力层组成的图注意力网络对子句之间的交互进行建模，每个子句表示 $h_i$ 是通过自适应地融合其他子句的信息产生的，并且可以充分学习文档中的子句间关系。在获得更新的子句表示
$\{{h_i}\}^{|D|}_{i=1}$ 后，我们将它们输入两个预输出层以预测子句是否是情感/原因子句。

类似地，子句 $c_i$ 是一个原因子句 $(\hat{y}^{cau}_i )$ 的概率由另一层获得。

3.3 Clause Pair Ranking with Kernel-based Relative Position Embedding

通过相对位置嵌入学习将相对位置信息注入到子句对表示学习过程中。
假设如果两个子句的相对位置太大，它们形成情感-原因对的概率非常小。因此，给定文档 D = (c1,., c|D|)，我们考虑每个子句对 $(c_i, c_j )$ ，其中两个子句的相对位置（绝对值）|j - i|小于或等于某个值 M 作为情感-原因对的候选者。我们从文档 D 构建了一组子句对候选： $P′ = {(c_i, c_j ) | −M ≤ j − i ≤ +M }$ .

Learning Clause Pair Representations
对于每个子句对候选 $pij = (ci, cj ) ∈ P′$ ，其初始化表示是通过连接三个向量获得的： $子句 c_i 的表示 h_i、子句 c_j 的表示 h_j 及其相对位置 j − i 的embeding r_{j−i}$ 。
采用单层 MLP 来学习其表示：
$p_{ij} = ReLU(W_p[h_i; h_j ; r_{j−i}] + b_p)$

Vanilla relative position embedding
对于每个相对位置通过从均匀分布中采样随机初始化嵌入器。然后将每个相对位置嵌入与模型训练过程一起学习。

Kernel-based relative position embedding
基于上面的 vanilla 方案，其中每个相对位置嵌入部分相互独立，对不同相对位置之间的相互影响进行建模，以进一步提高相对位置嵌入。使用 RBF 核函数 $K_m(·)$ 来模拟 m 与其他相对位置的影响：
$K_m(j)$ = $exp( - \frac{\left( j-m \right)^2}{σk^2} )$
图 2 显示了说明形式 m = -1。当 $σ_K → 0$ 时，基于内核的嵌入演变为普通嵌入。因此，基于内核的嵌入方案可以看作是 vanilla 嵌入的正则化版本。

Figure 2

Ranking Clause Pairs
对 ranking layer（ $由 w_r 和 b_r 参数化$ ），采用激活函数 $f_{act}(·)$ 为每个子句对候选 pij ∈ P' 生成排名分数 $\hat{y}_{ij}$ 。

3.4 Optimization

本网络RANKCP 是端到端优化的。
输入文档 D 的损失函数由两部分组成。
第一部分衡量子句对的排名分数 $L_{pair}$ 。
第二部分测量图注意力的输入输出 $\hat{y}^{emo}_i$ 和 $\hat{y}^{cau}_i$ 。
使用上述两个部分的总和作为文档 D: $L = L_{pair} + (L_{emo} + L_{cau})$ 的最终损失函数 L。

3.5 Lexicon-based Extraction

采用基于词典的提取方案从前 N 个排名列表 ${p^^1, p^2,., p^N }$ 测试文档。我们首先提取前对 $p^1$ （得分最高的）作为情感-原因对。然后，对于每个剩余的子句对 $p^i = (c^{i,1}, c^{i,2}) ∈ {p^2,., p^N }$ ，我们使用情感词典来确定子句 $c^{i,1}$ 是否包含情感词。如果是这样，我们将对 $p^i$ 提取为情感原因对。因此，我们的模型能够从给定的文档中提取多个情感原因对。

4 实验

数据集
1,945 Chinese documents from SINA NEWS website. Table 1 shows the summary statistics.

Table 1

评估
P , recall R and F-score F1

对比方法
Xia and Ding (2019) 提出了三个两步系统。第一步分别提取情感子句和原因子句，第二步是一个二元分类器，过滤掉负对。

实验结果
表 2 表明了情绪原因对提取和两个子任务的比较结果，即情感子句提取和原因子句提取。最后两行结果之间的比较证明了基于词典的提取的有效性。

Table 2

将 each fold's test set 分为两个子集：一个子集仅包含一个情感-原因对的文档，另一个子集包含具有两个或多个情感-原因对的文档。如表 3 结果。

Table 3

表 4 最近提出的情绪原因提取任务方法的结果。

Table 4

5 讨论

Effect of Two-level Supervision

a low-level signal $L_{emo} + L_{cau}$ on clause representation learning at the output of graph attention network
a high-level signal $L_{pair}$ on clause pair representation learning and ranking.

为了验证低级别监督的效果，我们仅使用 $L_{pair}$ 训练我们的模型，表5中给出了与我们的完整模型的结果相比较的结果。使用两级监督进行训练可以提高提取性能。

Table 5

Effect of Graph Attention Layers
通过改变图注意力层的数量（范围从 0 到 3）来测试它的效果，情感-原因对提取和原因子句提取的结果如图 3 所示。表明可以在此任务中堆叠大量层的情况下充分建模子句间关系。

Figure 3

Effect of Clause Pair Representation Learning
进一步测试是否可以直接使用子句表示来预测情感子句和原因子句。本文删除了子句对表示学习和排名组件，并利用图注意力网络的预测来生成情感-原因对。在预测文档中的情感从句和原因从句后，我们将预测情绪和原因的所有组合视为提取的情感-原因对，该变体模型和我们的完整模型的比较结果如图 4 所示。

Figure 4

Effect of Relative Position Embedding
同时删除了RANKCP中的相对位置嵌入部分来验证其影响。我们还比较了 vanilla 和基于内核的相对位置嵌入方案。结果如表 6 所示。去除相对位置嵌入会导致性能下降，表明子句对之间的相对位置确实对预测有用。

Table 6

Case Analysis
On April 11th (c1),
a netizen posted her complains on the Internet (c2),
she has a wacko boyfriend (c3),
he never goes to a restaurant without discounts (c4),
this makes her feel bad (c5),
and very embarrassed (c6).
在图 5 中可视化了两个子句 c4 和 c5 的注意权重。表明图注意力有效地捕获了两个子句之间的关系.

Figure 5

6 贡献

本文首次提出 end-to-end approach for emotion-cause pair extraction，这是一种从排序的角度强调子句间建立处理此任务的统一模型。
有效地对子句间关系进行建模以学习子句表示，并将相对位置增强子句对排名集成到一个统一的神经网络中，以端到端的方式提取情感原因对。
实验结果表明这种方法明显优于当前方法，特别是在在一个文档中提取多个对的情况下。

阅读论文—Effective Inter-Clause Modeling for End-to-End Emotion-Cause Pair Extraction