摘要
最近连续Skip-gram model是一个效果不错的分布式高质量向量表示方法,他捕获了大量精确的语法和同义词之间的关系,本文提出了一种扩展,以提高向量的质量和训练速度。我们还描述了一个简单的替代分级softmax称为负抽样。词语表达的一个内在限制是它们对词序的漠视和它们不能表达习惯短语。例如Air Canada我们提出了一种查找文本中的短语的简单方法,并说明学习数百万个短语的良好向量表示是可能的。
本文提出了对原始的Skip-gram模型的几个扩展,大幅度提高了训练速度和不频繁词汇的准确度。此外提出了一种简化的噪声对比估计(NCE)。用于训练Skip-gram模型,与softmax相比可以更快的训练和更好的表示频繁词。
分层softmax
之前总结过
负抽样(噪声对比估计NEC)
通过逻辑回归方法在噪声中区分数据,目标
用来代替skip-gram模型中的
NEC方法需要样本且需要噪声分布的概率,负抽样只需要样本。
Subsamplingof Frequent Words
常见的词出现的概率很高,但是意义很小(a,the),罕见词反之;针对频繁词与罕见词之间的不平衡
使用这个公式进行子抽样,又保证了单词的频率排序。
结论
在类比推理中,负采样算法的性能优于分层次采样算法,甚至比噪声对比估计算法的性能稍好。对频繁词的子抽样提高了训练速度几倍,并使词的表征显著提高了准确性。可以说,skip-gram模型使其向量的线性更适合这样的线性类比推理。
短语学习
使用打分系统来杜绝产生太多的短语
Additive Compositionality
将向量的地址空间相加,使用余弦近似方法能得到符合逻辑的词,例如将“Russia”和“river”向量相加,能得到一个接近“Volga river”的向量。