一、自然语言的初步了解和word2vec语言模型的学习

人类用单词、词组表示概念，运用单词、符号表示自己的观点，通过写作作品、艺术来表达观念，理解含义最普遍的语言方式(denotational semantics用语言符号对语义进行转化): signifier(symbol)⇔signified(idea or thing)

是很好的资源但忽略了细微的一些差别:例如词典中‘proficient’与‘good’认为是同义词，但是这只在某些文本上下文中成立。
忽略了一些单词的含义(即含义不完整)
偏主观(缺少客观性)
需要人类来不断地更新和改写
无法计算单词之间的相似度

传统NLP中，我们将单词看作是离散的表示，通过独热编码（one-hot vector）来表示。

One-hot vector表示，由于向量是正交的，因此没法表示他们之间啊的相似度，如果词汇量太多，将使得向量的维度过大。

Distributional semantics:一个单词的含义通常由在它附近经常出现的单词给出的。

词向量就是根据单词的上下文将单词转化为向量，用来表示词义。我们将为每个单词构建一个稠密的向量，使得它能够与相似文本里的词向量相近，word meaning 作为一种神经词向量，在我们对向量空间进行可视化:

Word2vec 是一种学习词向量的框架
包含大量的文本语料
固定词表中的每一个单词由一个词向量表示
文本中的每个单词位置 t，有一个中心词c，和它的上下文 o(除了 c 的外部单词)。通过 c 和 o 的词向量相似性来计算 P o/c
不断的调整词向量，最大化概率
固定窗口，滑动窗口并计算:

词向量的维度N一般情况下要远远小于词语总数 V 的大小，所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。

3.3.1 如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』

3.3.2 而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』

对于每个位置 t = 1,...,T，固定窗口大小m，给定中心词wj:

注: θ 是需要优化的参数

注:

如何计算 P( $w_{t+j}$ | $w_t$ ; $θ$ ) ?
对于每个单词 w 我们使用两个向量 $v_w$ 和 $u_w$
$v_w$ :当 w 是中心词时
$u_w$ :当 w 是上下文单词时
对于中心词 c 和上下文单词 o，有:

Training a model by optimizing parameters
(通过优化参数的方式训练模型)- 最小化损失
整个模型里只有一个参数 $\theta$ ,所以我们只用优化这一个参数就行。例如:模型在一个 d 维，词典大小为 V :

Optimization Gradient Descent(梯度下降)

更新唯一的参数 $\theta$ :

SGD:随机梯度下降法（Stochastic Gradient Descent）