「embedding白盒子」矩阵分解视角的word2vec模型

word2vec模型

我们仔细观察一下这个由三层神经网络组成的word2vec模型。输入词的onehot向量乘以一个矩阵

W

，再乘以一个矩阵

W'

，再进行softmax，便得到了输出词的概率。

矩阵视角的word2vec模型（略去softmax）

仔细观察word2vec模型的feed forward公式，这不很像SVD矩阵分解吗？

Omer Levy 2014年的一篇论文证明了负采样下的skip-gram模型（skip-gram with negative sampling, SGNS）与PMI矩阵分解仅仅差一个常数项；或者说，与PMI矩阵减去常数项logk的分解等价。
PMI矩阵就是逐点互信息矩阵，以词的总数量为矩阵维度（方阵）；PMI的元素是词和词之间的pointwise mutual information（PMI），假设 $D$ 是语料库， $c$ 是词 $w$ 的上下文， $\#(w,c)$ 是词对 $(w,c)$ 的出现次数，那么词对 $(w,c)$ 的PMI是 $log\left ( \frac{\#(w,c)\left | D \right |}{\#(w)\#(c)} \right )$ 。证明过程有兴趣的可以阅读文献原文，下面有链接，反正我是没兴趣了。

2021/06/10更新：上文是昨天写的，今天突然又有兴趣了，现在就开始推导一番吧。首先我们看看没有负采样情况下，损失函数的公式：
$\sum_{(w,c)\in D}log\frac{exp(v_c^Tv_w)}{\sum_{c'\in C}exp(v_{c'}^Tv_w)}=\sum_{(w,c)\in D}\left (v_c^Tv_w-log\sum_{c'}exp(v_{c'}^Tv_w) \right )$
其实就是对 $v_c^Tv_w$ 进行softmax，再取对数；本质上是一个 $\left | V \right |$ 分类。负采样下，softmax变成了sigmoid；多分类变成了多个二分类，即一个正样本和若干个负样本的二分类。上文的稠密向量用 $v_c$ 、 $v_w$ 表示，从下文开始，稠密向量直接表示为 $c$ 、 $w$ ，与原论文的保持一致。负采样下，多个二分类的损失函数是：
$\sum_{c\in V_C}\sum_{w\in V_W}\#(w,c)\left ( log\sigma (w^Tc)+k\mathbb{E}_{c_N\sim P_D} \left [ log\sigma(-w^Tc_N) \right ] \right )$
其中k是负样本数量。我们都知道sigmoid和softmax的等价性，但是为什么负采样下的损失函数可以写成这样我依然云里雾里。后来在Mikolov的负采样的那篇论文说，在负采样提出来之前有一种提高word2vec运算速度的trick叫做噪声对比估计（NCE），上式只是简化版的NCE损失函数。有兴趣的可以去看看相关论文，反正我是没兴趣了。上式其实是多个二分类sigmoid损失加起来，其中第一个sigmoid损失是正样本，第二项则是若干个负样本的sigmoid损失之和（sigmoid损失，就是sigmoid取对数。更严格地来说，还要再加个负号，但是原论文没有所以我也没写）。
经过一顿改写，再让损失函数对 $w^Tc$ 求导，得到以下等式：
$w^Tc=log\left ( \frac{\#(w,c)\left | D \right |}{\#(w)\#(c)} \right ) - logk$
上面这个式子表达的是什么意思呢？意思是，输入词的稠密向量和上下文的稠密向量的内积 $w^Tc$ 等于词 $w$ 与 $c$ 的互信息减去常数项 $logk$ 。上式的右边是互信息矩阵的其中一个元素，左边是被分解之后的两个矩阵里，抽取词 $w$ 和 $c$ 对应的向量的内积。
中间的推导过程我依然省略了很多，其实这里面的数学推导并不难，但是原论文写得太晦涩了，我依然看不太懂。写这个文章我可以装作我已经懂了的样子，并且把我不懂的推导过程直接跳过。就这样吧。

参考
[1]Neural Word Embedding as Implicit Matrix Factorization, Omer Levy, etc. 2014
[2]从PMI矩阵分解的角度看word2vec - 知乎

「embedding白盒子」矩阵分解视角的word2vec模型

「embedding白盒子」矩阵分解视角的word2vec模型

相关阅读更多精彩内容

友情链接更多精彩内容