word2vec原理介绍

Word2vec是一种可以进行高效率词嵌套学习的预测模型。其两种变体分别为：
● 连续词袋模型（CBOW）
● Skip-Gram模型。

从算法角度看，这两种方法非常相似，其区别为CBOW根据源词上下文词汇（'the cat sits on the'）来预测目标词汇（例如，‘mat’），而Skip-Gram模型做法相反，它通过目标词汇来预测源词汇。

Skip-Gram模型采取CBOW的逆过程的动机在于：CBOW算法对于很多分布式信息进行了平滑处理（例如将一整段上下文信息视为一个单一观察量）。很多情况下，对于小型的数据集，这一处理是有帮助的。相形之下，Skip-Gram模型将每个“上下文-目标词汇”的组合视为一个新观察量，这种做法在大型数据集中会更为有效。

譬如：对同样一个句子：Shenzhen is a nice city。我们要构造一个语境与目标词汇的映射关系，其实就是input与label的关系。这里假设滑窗尺寸为1,
CBOW可以制造的映射关系为：[Shenzhen,a]—>is，[is,nice]—>a，[a,city]—>nice
Skip-Gram可以制造的映射关系为(is,Shenzhen)，(is,a)，(a,is)， (a,nice)，(nice,a)，(nice,city)

Skip-Gram详解：

我们基于成对的单词来对神经网络进行训练，训练样本是 ( input word, output word ) 这样的单词对，input word和output word都是one-hot编码的向量。最终模型的输出是一个概率分布。

image.png

skip-gram 模型结构：

image.png

Skip-gram: 最终的目标就是学习这个隐层的权重矩阵，从而形成具体word的词向量embeddings

image.png

实际训练中存在的问题：

举个栗子，我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重，在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是，你需要大量的训练数据来调整这些权重并且避免过拟合。百万数量级的权重矩阵和亿万数量级的训练样本意味着训练这个模型将会是个灾难（太凶残了）。

可行的解决办法：

● 将常见的单词组合（word pairs）或者词组作为单个“words”来处理。（因为一些词组合起来与分开时意思完全不同，譬如New York，United Stated等其他）
● 对高频次单词进行抽样来减少训练样本的个数。（譬如去掉高频词汇the , a, an~等组成的词对输入样本）
● 对优化目标采用负采样--“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。
事实证明，对常用词抽样并且对优化目标采用“negative sampling”不仅降低了训练过程中的计算负担，还提高了训练的词向量的质量。

负采样原理：

负采样（negative sampling）是用来提高训练速度并且改善所得到词向量的质量的一种方法。不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量。

当我们用训练样本 ( input word: "fox"，output word: "quick") 来训练我们的神经网络时，“ fox”和“quick”都是经过one-hot编码的。如果我们的vocabulary大小为10000时，在输出层，我们期望对应“quick”单词的那个神经元结点输出1，其余9999个都应该输出0。在这里，这9999个我们期望输出为0的神经元结点所对应的单词我们称为“negative” word。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我们上面的例子中，这个单词指的是”quick“）。
在论文中，作者指出指出对于小规模数据集，选择5-20个negative words会比较好，对于大规模数据集可以仅选择2-5个negative words。
回忆一下我们的隐层-输出层拥有300 x 10000的权重矩阵。如果使用了负采样的方法我们仅仅去更新我们的positive word-“quick”的和我们选择的其他5个negative words的结点对应的权重，共计6个输出神经元，相当于每次只更新300*6=1800
个权重。对于3百万的权重来说，相当于只计算了0.06%的权重，这样计算效率就大幅度提高。
PS：一个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。

Skip-gram 原理详解paper：
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

word2vec原理介绍