1.背景
本文提出了一种全局对数双线性回归模型,这种模型能够结合其他两种主要模型的特点:全局矩阵分解(global matrix factorization)和局部上下文窗口(local context window)。这种模型能在词语类比任务的准确率能够达到75%,并且在词相似度计算和命名实体识别(named entity recognition)中的表现也能比其他模型要好。
目前主流的两种模型都存在一些显著的不足。对于一些global matrix factorization方法(如LSA),在词类比任务的表现不好,表明这种方法得到的是向量空间的次优解;对于一些local context window方法(如skip-gram)可能在词类比任务上表现比较好,但这种方法没有很好得利用语料库的统计信息因为它们只在局部上下文中进行训练。
因此提出一种基于统计共现矩阵的具体的加权最小二乘模型。模型源码和训练好的词向量都放在网址:https://nlp.stanford.edu/projects/glove/。
这一部分简要介绍了Matrix Factorization Methods和Shallow Window-Based Methods两种方法,这里略过直接进入正题。
2.glove 模型
用非监督学习方法来创建词向量时,词语出现次数的统计信息是原始的信息源。尽管这方面已经有一些模型,但还是存在一些问题比如如何从这些统计信息中产生词义和这些词向量如何表达这些意义。在这里,文章介绍了一种新的模型GloVe(Global Vectors)能够利用语料库的统计信息。
一些符号的介绍: