生成器的离散输出将判别器的梯度更新传递给生成器比较困难的。其次。判别器只能判别整个序列,将生成器建模为强化学习中的策略,通过策略梯度忽略策略微分。
简单的句子表示可以将句子中词的向量相加求平均,或者基于其他信息如idf、POS等权重加权。但这样会引入噪声。论文Distributed Representations of Sentences and Documents中提出一个paragraph vector,一个非监督学习算法,从变长文本如句子、段落、文档中学习固定长度的特征表示。分类和聚类的机器学习算法通常需要固定长度的向量,最常见的文本的固定长度向量是bag-of-words或bag-of-n-grams。显然,BOW这种表示丢失词的顺序,不同含义的句子只要它们的词相同,那么它们就有相同的表示。bag-of-n-grams考虑短文本的词序,但会存在稀疏和高维的问题。
算法原理:
用单词序列预测下一个词的概率,这个预测任务用一个多类别分类器解决,如softmax。实际当中,hierarchical softmax比softmax更好,因为它训练快。在本文中,hierarchical softmax的结构是一个二分Huffman树,根据词频建立Huffman树,同Mikolov相同。