摘要
提出了两种新的模型结构,用于计算非常大数据集中单词的连续矢量表示。这些表示的质量是在一个词相似性任务中测量的,并将结果与以前基于不同类型神经网络的最佳表现技术进行比较。我们观察到,在低得多的计算成本下,精度有了很大的提高,也就是说,从16亿字的数据集中学习高质量的字向量只需不到一天的时间。此外,我们还表明,这些向量在测试集上提供了最先进的性能,用于测量句法和语义词的相似性。
目标
介绍一些技术,这些技术可以从具有数十亿个单词和数百万个单词的庞大数据集中学习高质量的单词向量。
屈折语言中发现,词语的表征特性相似度超过了简单的语法规律,在原始向量空间搜索相似的词可以找到词尾相似的词。
使用词偏移技术,在单词执行简单的代数运算,例如vector( King ) -
vector( Man ) + vector( Woman )得到的向量最接近vector(Queen)
在本文中,我们试图通过开发新的模型架构来保持单词之间的线性规律,以最大限度地提高这些向量运算的准确性。我们设计了一个新的综合测试集来衡量语法和语义规则,并表明许多这样的规则可以学习的高精度。此外,我们讨论了训练时间和准确性如何依赖于字向量的维数和训练数据的数量。
模型
新型对数线性模型
大部分复杂性是由模型中的非线性隐藏层造成的。发现神经网络语言模型可以通过两个步骤成功地训练:首先,使用简单的模型学习连续词向量,然后在这些分布之上训练N-gram MNNLM。
第一个提出的架构类似于前馈NNLM,其中非线性隐藏层被删除,投影层为所有词(不仅仅是投影矩阵)共享; 因此,所有单词被投影到相同的位置(它们的向量被平均)
第二种架构与CBOW类似,但它不是根据上下文来预测当前的单词,而是根据同一句子中的另一个单词来最大程度地分类单词。
结论
单词向量通过简单的代数计算,在向量空间中搜索余弦距离相近的词,可以很好地找到答案,而且有微妙的语义关系。
实验
为了衡量词向量的质量,我们定义了一个包含五种类型语义问题和九种类型语法问题的综合测试集。表1显示了每个类别的两个示例。共有8869个语义问题和10675个句法问题。每个类别中的问题都是通过两个步骤创建的:首先,手动创建一个类似的单词对列表。
增加维度或者训练集可以改善准确率:
模型更为优秀。