登录注册写文章

Doc2vec笔记

Doc2vec笔记

参考文献：Distributed Representations of Sentences and Documents

Doc2vec的思想是建立在word2vec的基础上，认为一个单词对语句的贡献不仅在于自身的向量，还有一个共同的向量paragraph matrix来进行学习,主要思想如下图所示：

相对于word2vec，doc2vec也有两个版本，上面的是skip-gram的版本，下面的是CBOW版本：

总体上，训练过程中的步骤有两步：

1. 通过训练得到单词向量，以及多分类（softmax）参数变量，还有当前的doc 向量

2. 是通过已经训练好的单词向量和多分类参数变量，来得到新的段落或者语句的向量：方法是在保持单词向量和分类参数变量不变的情况下，利用后向传播算法学习出新的段落向量。

最后编辑于：2017.12.09 19:04:05

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

浅谈智能搜索和对话式OS
前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章，甚至之后...
我偏笑_NSNirvana阅读 14,797评论 2赞 64
NLP-词嵌入学习笔记
1.NLP当前热点方向词法/句法分析词嵌入(word embedding) 命名实体识别(Name Entit...
__Aragorn阅读 11,308评论 1赞 9

情感分析的现代方法（译）
原文链接:https://districtdatalabs.silvrback.com/modern-method...
Eric_py阅读 5,534评论 1赞 4
学习笔记TF034:实现Word2Vec
卷积神经网络发展趋势。Perceptron(感知机)，1957年，Frank Resenblatt提出，始祖。Ne...
利炳根阅读 4,155评论 0赞 3
词向量生成模型---word2vec
在各种大举深度学习大旗的公司中，Google公司无疑是旗举得最高的，口号喊得最响亮的那一个。2013年末，Goog...
chaaffff阅读 17,064评论 0赞 29

赞1赞

赞赏

手机看全文