cs224n-笔记-lecture02-word senses

单词向量和word2vec

word2vec的主要idea：

1.遍历整个语料库中的每个单词
2.使用单词向量预测周围的单词
3.更新向量以便更好地预测

Word2vec的参数和计算：

1.每行代表⼀个单词的词向量，点乘后得到的分数通过softmax映射为概率分布，并且我们得到的概率分布是对于该中心词而言的上下文中单词的概率分布，该分布于上下文所在的具体位置无关，所以在每个位置的预测都是⼀样的
2.我们希望模型对上下文中(相当频繁)出现的所有单词给出⼀个合理的高概率估计
3.the, and, that, of 这样的停用词，是每个单词点乘后得到的较大概率的单词（去掉这⼀部分可以使词向量效果更好）

优化基础

Gradient Descent 每次使⽤全部样本进行更新
Stochastic Gradient Descent 每次只是用单个样本进行更新
Mini-batch具有以下优点

通过平均值，减少梯度估计的噪音
在GPU上并行化运算，加快运算速度

Stochastic gradients with word vectors

$\nabla_{\theta}J_t(\theta)$ 将会非常稀疏，所以我们可能只更新实际出现的向量
解决方案

需要稀疏矩阵更新操作来只更新矩阵U和V中的特定⾏
需要保留单词向量的散列
如果有数百万个单词向量，并且进行分布式计算，那么重要的是不必到处发送巨大的更新

我们能否通过计数更有效地抓住这一本质？

共现矩阵 X
两个选项：windows vs. full document

Window ：与word2vec类似，在每个单词周围都使用Window，包括语法(POS)和语义信息
Word-document 共现矩阵的基本假设是在同⼀篇文章中出现的单词更有可能相互关联。假设单词 $i$ 出现在文章 $j$ 中，则矩阵元素 $X_ij$ 加⼀，当我们处理完数据库中的所有文章后，就得到了矩阵X，其大小为 $|V|*M$ ，其中 $|V|$ 为词汇量，而 $M$ 为文章数。这⼀构建单词文章co-occurrence matrix的方法也是经典的Latent Semantic Analysis所采用的（潜在语义分析）。
利用某个定长窗口中单词与单词同时出现的次数来产生window-based (word-word) co-occurrence
matrix。下面以窗口长度为1来举例，假设我们的数据包含以下几个句子：
I like deep learning.
I like NLP.
I enjoy flying.
则我们可以得到如下的word-word co-occurrence matrix:

使用共现次数衡量单词的相似性，但是会随着词汇量的增加而增⼤矩阵的大小，并且需要很多空间来存储这⼀高维矩阵，后续的分类模型也会由于矩阵的稀疏性二存在稀疏性问题，使得效果不佳。我们需要对这⼀矩阵进行降维，获得低维(25-1000)的稠密向量。

Method 1: Dimensionality Reduction on X (HW1)

使用SVD方法将共现矩阵X分解为 $U\sigmaV_T$ ， $\sigma$ 是对角线矩阵，对角线上的值是矩阵的奇异值。 $U$ ， $V$ 是对应于行和列的正交基。
为了减少尺度同时尽量保存有效信息，可保留对角矩阵的最大的k个值，并将矩阵 $U$ ， $V$ 的相应的行列保留。这是经典的线性代数算法，对于大型矩阵而言，计算代价昂贵。