论文笔记

A Discrete Hard EM Approach for Weakly Supervised Question Answering

许多问答（QA）任务仅对应如何计算答案提供了薄弱的监督。例如，TRIVIAQA答案是可以在支持文档中多次提及的实体，而DROP答案可以通过从参考文献中的数字推导许多不同的方程式来计算。在本文中，我们表明可以通过包含一组正确选项的预先计算的，针对特定任务的可能解决方案（例如，不同的提法或方程式）将此类任务转换为离散的潜在变量学习问题。然后，我们开发一种硬的EM学习方案，该方案可以在每次更新时计算相对于最可能的解决方案的梯度。尽管它很简单，但我们表明，该方法在六个QA任务（包括2-10％的绝对收益）上明显优于以前的方法，并且在其中五个方面达到了最新水平。使用硬更新而不是最大化边际可能性是这些结果的关键，因为它鼓励模型找到一个正确的答案，我们将通过详细的定性分析来表明这一点。
这篇文章的主要贡献在于提供了一种弱监督学习的新的学习方法，对于一个人物，每次都计算所有可能的solution，最后对于这一组solution中，计算极大似然，获得的权值最大的那个solution被认为是正确的solution，并以此更新参数。关键在于如何获取这个所有可能solution的合集。针对不同的任务，作者有不同的方法，如下图所示：

针对不同任务的方法

在本文中，我作者证明了，对于许多仅提供答案文本作为监督的QA任务，可以预先计算出包含一个正确选项的离散解决方案集。然后，我们引入了离散潜变量学习算法，该算法迭代了一个过程，该过程预测了预计算集中最可能的解决方案，并进一步增加了该解决方案的可能性。我们表明，该方法在六个QA任务（包括阅读理解，开放域QA，离散推理任务和语义解析）上的性能明显优于以前的方法，实现了2-10％的绝对收益并设定了新的状态在五个经过充分研究的数据集上的艺术。

Scaling Multi-Domain Dialogue State Tracking via Query Reformulation

我们提出了一种对话状态跟踪和引用表达式解析任务的新颖方法。要成功地对多回合口语对话进行上下文理解，就需要解决各回合的引用表达，并跨各回合跟踪与对话相关的实体。当存在多个口头语言理解（SLU）子系统，并且每个SLU子系统都以其特定于域的含义表示形式运行时，在多域场景中跟踪会话状态尤其具有挑战性。尽管先前的方法通过学习含义表示的候选转换来解决了不同的模式问题，但在本文中，我们还是将参考解析模型建模为对话上下文感知的用户查询重构任务-对话状态。被序列化为代表对话的一系列自然语言标记。我们使用指针生成器网络和新颖的多任务学习设置来开发用于查询重构的模型。在我们的实验中，我们显示了内部以及即将分别发布的公共语料库中绝对F1的显着提高。

model architechture

在这项工作中，我们做出了三个基本贡献。首先，我们提出了上下文查询重写（CQR），作为一种在给定对话历史的情况下解释上下文中话语表达的新颖方法。例如，给定对话历史记录，我们可以将BUY HIS LATEST BOOK重写为BUY YUVAL HARARI的MOST RECENT BOOK，如图1所示。CQR的输出可以直接馈送到特定于域的下游SLU系统，从而大大简化了该过程。建设任务特定的对话代理。由于我们不需要在下游更改语言理解或对话状态跟踪器，因此我们的方法是黑匣子方法，可以改善工业规模的对话助手的模块化。其次，我们研究了如何使用多任务学习和特定于任务的预处理，将指针生成器网络最佳地用于CWR任务。最后，我们在两个数据集上证明了我们的方法的有效性。

Learning Semantic Parsers from Denotations with Latent Structured Alignments and Abstract Programs

语义解析的目的是将自然语言话语映射到机器可解释的意义表示上，也就是在现实环境中执行会产生符号的程序。弱监督的语义解析器在将程序视为潜伏性的发声表示对上进行训练。由于搜索空间大且程序虚假，程序可能执行正确的答案，但不能泛化成看不见的示例，因此该任务具有挑战性。我们的目标是在解析器中引入归纳偏差，以帮助其区分虚假程序和正确程序。我们利用这样的直觉，即正确的程序在与问题对齐时可能会遵守某些结构性约束（例如，程序片段不太可能与重叠的文本范围对齐），并建议将对齐方式建模为结构化的潜在变量。为了使潜在对齐框架易于处理，我们将解析任务分解为（1）预测部分“抽象程序”，以及（2）在使用差分动态编程对结构化对齐进行建模时对其进行完善。我们在WIKITABLEQUESTIONS和WIKISQL数据集上获得了最先进的性能。当与标准注意基线进行比较时，我们观察到建议的结构化对齐机制是非常有益的。

image.png

在本文中，我们提出了一种神经语义解析器，该语义解析器使用抽象程序和潜在结构化比对从表示中学习。我们的解析器在两个基准WIKITABLEQUESTIONS和WIKISQL上实现了最先进的性能。实证分析表明，对齐模型引入的归纳偏差有助于我们的解析器区分正确程序和伪程序。对齐方式可能会表现出不同的属性（例如，单调性或双射性），具体取决于含义表示语言（例如，逻辑形式或SQL），抽象程序的定义以及当前域。我们相信，这些属性通常可以在概率对齐模型中捕获，因此可以为解析器提供有用的归纳偏差

Question Answering is a Format; When is it Useful?

近年来，从阅读理解，语义角色标注甚至机器翻译到图像和视频理解，任务和数据集以问答形式出现的戏剧性扩展。随着这种扩展，对于“问题回答”本身的效用和定义有许多不同的观点。有人认为它的范围应该狭窄或宽泛，或者它在当今的数据集中已被过度使用。在这篇观点中，我们认为问题回答应该被认为是一种有时对研究特定现象有用的格式，而不是一种现象或本身的任务。我们讨论何时将任务正确地描述为问答，何时将任务有用地构成为问答，而不是使用其他格式。
作者认为，“问题回答”应被认为是一种格式（与其他方式（例如，空位填空）相对），而不是一种现象或任务本身。在需要理解问题的任务中，问题回答主要是一种有用的格式，即，理解问题的语言是任务本身的重要部分（在第3节中有详细介绍）。如果问题可以用整数id代替而不有意义地改变任务的性质，则不需要理解问题。
在本文中，我们认为社区应该将问题回答视为一种格式，而不是一项任务，并且当许多数据集选择使用此格式时，我们也不必担心。问题回答是一种有用的格式，主要是在任务具有非平凡的问题理解组件，并且不能简单地用整数id替换问题。我们观察到了三种不同的情况，在这些情况下，将任务摆为问答是有用的：（1）在满足人类信息需求时，数据已经自然地格式化为QA；（2）当需要自然语言注释固有的灵活性时，要么是因为任务不适合形式主义，要么是训练人们使用形式主义太昂贵；（3）将学习到的表示或模型架构从QA任务转移到另一个任务。随着NLP超越了句子级别的语言注释，正在构建许多新的数据集，通常没有明确的形式主义支持它们。我们鼓励构建这些数据集的人仔细考虑哪种格式最适合他们，并且就何时可能合适使用问题解答提供了一些指导

论文笔记

A Discrete Hard EM Approach for Weakly Supervised Question Answering

Scaling Multi-Domain Dialogue State Tracking via Query Reformulation

Learning Semantic Parsers from Denotations with Latent Structured Alignments and Abstract Programs

Question Answering is a Format; When is it Useful?

相关阅读更多精彩内容

友情链接更多精彩内容