使用表格数据的问答模型的改进
问答模型有时需要从表格中检索信息,而表格使用的语义线索与自由格式文本完全不同。历史上,大多数基于表格的问答工作都集中在提取单个表格单元格的内容作为问题的答案。但有时,提问者需要更多上下文来理解答案,因此,近期关于表格问答的研究已经探索了将表格数据嵌入到句子或句子序列中的可能性。到目前为止,最成功的模型是端到端的神经模型,该模型将问题和表格作为输入,并输出问题的自由格式答案。
在今年的AAAI会议上,我们提出了一种训练基于表格的自由格式问答模型的新方法,该方法在针对真实问答数据集进行微调之前,先在合成数据上对模型进行预训练。该模型被称为GenTaP,即面向生成的基于表格的中间预训练。
该模型在两个目标上同时进行预训练:一个是对问题的句子式答案,另一个是从单个表格单元格中提取的答案(通常是名称或数字)。在实验中,将该模型与之前的四个端到端模型在五个不同的指标上进行了比较,该模型在所有指标上均表现最佳,根据BLEU指标,相比之前的最优模型提升了14%。
数据增强
该方法的关键在于生成无需人工参与的合成训练数据,以提高预训练流程的效率。为了生成长篇的训练样本,识别包含表格的在线文档。从这些文档中,提取包含至少两个共享表格中同一行的单元格值的句子。然后,使用一个独立的机器学习模型,将这些句子转换成问题。
作为输入,问题生成模型接收一个句子和表格中的相应条目。为了训练该模型,使用了一个现有的用于训练阅读理解模型的数据集,该数据集包含问题以及提供回答问题所需信息的文档摘录。只是反转了输入和输出之间的关系。
问题生成器的输出为我们提供了可用于预训练问答系统的数据三元组集合(表格、问题和答案)。表格被转换成字符串,其中行之间用特殊字符分隔,并附加到问题之后作为输入。然后,问答模型学习预测答案。
除了长篇答案外,还用自动生成的问题-答案对来训练模型,其中每个答案由表格中的单个单元格值组成。使用一个简单的语法生成这些问答对,该语法是一组短语和句子模板,从表格中随机采样数据来生成新句子。
在预训练期间,使用相等数量的长篇和短篇示例。这样做的目的是,长篇目标提高问答模型输出的连贯性,而短篇目标则提高其事实准确性。实验表明,在预训练期间省略短篇目标确实会略微降低模型在测试集上的性能。
该模型本身是一个编码器-解码器模型,带有两个解码器,分别对应两个不同的输出目标。
结果
在合成数据上对模型进行预训练后,使用一个手工标注的问答数据集对其进行了两项实验。在第一项实验中,直接测试了预训练模型在数据集测试样本上的表现(未进一步微调),这是一个零样本实验。在第二项实验中,首先在数据集的训练集上对模型进行微调,然后重新进行测试。
作为基准,使用了四个基于T5语言模型的模型和第五个基于BART语言模型的模型。使用了五种不同的评估指标:BLEU指标,衡量模型输出与手工标注数据集中的目标输出之间的重叠程度;三个ROUGE指标,均衡量输出与目标之间的短语重叠程度;以及METEOR指标,它在评估句子匹配时会考虑同义词和词根共享。
该模型在所有指标上均表现最佳,BLEU分数比第二好的模型(基于BART)高出14%,在其他四个指标上则提高了5%到10%。
零样本模型的表现优于基于小型T5语言模型构建的基准模型,尽管该T5基准是在数据集的完整训练集上训练的。并且零样本模型的表现仅略逊于基于基础T5模型构建的基准。
还在一个不同的任务上测试了预训练模型:基于表格数据生成特定领域的句子(而非问题答案),且训练样本数量有限。在该任务上,该模型优于两个基于GPT语言模型的基准,表明该方法可能也能很好地适应其他应用。FINISHED