Distributed Representations of Sentences and Documents

这篇文章作者是word2vec的作者,主要做的工作是paragraph vector,就是把paragraph变成一个固定长度的向量。其中大量的思路借鉴与CBOW和Skip-gram。

背景知识

模型

Paragraph Vector: A distributed memory model (PV-DM)

这个方法与CBOW类似,首先把paragraph单独赋予一个vector,每一次用这个vector + 前k个单词的vector拼接or平均后去预测下一个词。


PV-DM

该算法分为两个步骤:

  1. 使用语料库中的已有paragraph进行训练,得到整个网络的参数,word embedding
  2. 对于新的paragraph,则首先随机初始化一个vector,再将网络参数和word embedding固定起来进行训练。

该方法的优势在于可以使用无标签的语料库进行训练。

Paragraph vector without word ordering: Distributed bag of words (PV-DBOW)

PV-DBOW

这个方法简单的说就是paragraph版本的skip-gram。对于整个语料的优化目标为最大化:
\sum _ { p \in \mathbb { D } } \sum _ { w \in p } \log P ( w |p )
其中,
P ( w | p ) = \frac { \exp \left( \boldsymbol { e } ( w ) ^ { \mathrm { T } } \boldsymbol { e } \left( p \right) \right) } { \sum _ { w ^ { \prime } \in \mathrm { V } } \exp \left( \boldsymbol { e }\left( w ^ { \prime } \right) ^ { \mathrm { T } } \boldsymbol { e } \left( p \right) \right) }

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.NLP当前热点方向 词法/句法分析 词嵌入(word embedding) 命名实体识别(Name Entit...
    __Aragorn阅读 11,276评论 1 9
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 11,666评论 0 18
  • 我们都知道,牛顿说过一句名言 If I have seen further, it is by standing ...
    weizier阅读 12,678评论 5 25
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 14,771评论 2 64
  • 本文介绍了word2vec作者的一篇计算sentence vector的论文,在文本分类、文本向量表示中有着很好的...
    sylvainwang阅读 11,933评论 0 50