解决问题:Representation Learning
解决方法:policy gradient reinforcement learning
1. 过去的方法
主流的四种用于句子分类的representation models:1. bag-of-words representation models,忽略词序,使用deep average network或者autoencoder。 2. Sequence representation models,例如CNN或RNN,考虑了词序,但是没有应用任何结构信息。 3.Structured representation models例如tree-structured LSTM或者recursive autoencoders使用预先处理好的parsing trees来建立结构信息。4. 基于Attention的模型使用attention机制通过给输入词或者句子打分来构建representation。
2. 问题
过去结构化的方法都需要显式的标注,也有一些自动优化结构的研究,在2017年,Yogatama等人提出的,只用下游任务的监督来构造用于句子表示的二叉树结构,但是这种结构非常复杂且过于深,导致分类性能不令人满意。Chung,Bengio等人,提出了一种分层表示模型,用潜在变量捕获序列中的潜在结构。 结构是以潜在的,隐含的方式发现的。
3. 本文
本文提出了使用强化学习的方法来构建与任务相关的句子结构表示,不需要显式的标注。structure discovery在本文被定义为sequential decision问题。
本文提出两种模型:Information Distilled LSTM(ID-LSTM)选择重要的,与任务相关的词来构建结构表示;Hierarchical Structured LSTM(HS-LSTM)可以发掘短语结构,使用两层信息去构建句子表示。模型是由一个policy network和一个classification network构成的。
ID-LSTM的action在于选择句子中每个词的保留还是删除
HS-LSTM的action在于确定每个词是phrase的中间还是结尾