参考文献:Distributed Representations of Sentences and Documents
Doc2vec的思想是建立在word2vec的基础上,认为一个单词对语句的贡献不仅在于自身的向量,还有一个共同的向量paragraph matrix来进行学习,主要思想如下图所示:
相对于word2vec,doc2vec也有两个版本,上面的是skip-gram的版本,下面的是CBOW版本:
总体上,训练过程中的步骤有两步:
1. 通过训练得到单词向量,以及多分类(softmax)参数变量,还有当前的doc 向量
2. 是通过已经训练好的单词向量和多分类参数变量,来得到新的段落或者语句的向量:方法是在保持单词向量和分类参数变量不变的情况下,利用后向传播算法学习出新的段落向量。