GloVe: Global Vectors for Word Representation


Pik是单词i出现在含有单词k的文本中的概率=Xij/Xi(X是次数)。这个比率很有意义,能揭示两个单词之间的关系。
因此,需要建立一个表达式来计算这个比率。


F=exp

目的是要寻找最优的词向量Wi,使得对这个向量的计算之后的结果更接近于真实的比率。
以上都是推导过程,在算法中体现的只有下式(损失函数)。

损失函数:



f是自定义的权重。
该方法的最坏复杂度是O(C) 远小于word2vec的O(V^2)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 关键词:自然语言处理(NLP),词向量(Word Vectors),奇异值分解(Singular Value De...
    xiiao蜗牛阅读 8,020评论 0 13
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 14,787评论 2 64
  • 1.NLP当前热点方向 词法/句法分析 词嵌入(word embedding) 命名实体识别(Name Entit...
    __Aragorn阅读 11,282评论 1 9
  • 身边的朋友都想恋爱 都念念叨叨的要恋爱 都非常想被寵愛 每次有人和我提起这些 我总是条件反射的问 你有目标了? 答...
    3f2bbdeda9aa阅读 1,716评论 0 0
  • 19 98年,米雪13岁,读初二。 如平时一样,米雪要凌晨五点起床,要到5公里外的学校读书,如果晚了,...
    米夜雪阅读 2,981评论 0 0