Enriching Word Vectors with Subword Information——FastText算法学习

Model

模型在考虑形态(morphology)的同时,学习单词表示。通过考虑子词单元并将单词表示为其字符n-grams之和,作者对形态进行建模。下面,将开始介绍训练词向量的一般结构,随后介绍子词模型,最后介绍如何处理n-grams字符字典。

General model

首先对continuous skip-gram模型进行回顾。给定一个大小为W的词汇表,其中每个单词由其对应的索引w\in\{1,...,W\}表示。目标任务是为每个单词w学习一个向量表示。受分布假设(distributional hypothesis)的启发,词表示被训练来预测在其上下文中出现的“恰当”单词。正式地,给定一个被表示为词序列w_1,……,w_T的大型训练语料库,skip-gram模型的目的是最大化下面的log-似然:

\sum_{t=1}^{T}\sum_{c\in\mathcal{C}_t}logp(w_c|w_t)

其中上下文\mathcal{C}_t是单词w_t周围单词的索引。在给定w_t下,观察一个上下文单词w_c的概率将使用前面提到的单词向量进行参数化。从现在起,给定一个得分函数s,其将(单词,上下文)对映射到\mathbb{R}空间上的得分。定义一个上下文单词概率可使用softmax:

p(w_c|w_t) = \frac{e^{s(w_t,w_c)}}{\sum_{j=1}^{W}e^{s(w_t,w_j)}}

然而,该模型意味着,给定一个单词w_t,仅预测一个上下文单词w_c

预测上下文单词的问题可以改为一组独立的二元分类任务。因此,目标是独立地预测上下文单词的存在(或不存在)。对在位置t的单词,将其所有上下文单词作为正样本,其随机从词汇表中取样负样本。对在位置为c的上下文单词,使用二元logistic损失,将获得以下的负对数似然:

\begin{aligned} &-log(\frac{1}{1+e^{-s(w_t,w_c)}}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(1-\frac{1}{1+e^{-s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(\frac{e^{-s(w_t,w_n)}}{1+e^{-s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(\frac{1}{1+e^{s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) + \sum_{w_n\in\mathcal{N}_{t,c}}log(1+e^{s(w_t,w_n)}) \\ \end{aligned}

注意:这里每个正样本对应的是一组负样本!!!

其中,\mathcal{N}_{t,c}是一组从词汇表中采样的负样本。令l: x\mapsto log(1+e^{-x})为logistic损失函数,上式可写为:

\sum_{t=1}^{T}[\sum_{w_c\in\mathcal{C}_t}l(s(w_t,w_c))+\sum_{w_n\in\mathcal{N}_{t,c}}l(-s(w_t,w_n))]

单词w_t和上下文单词w_c之间的评分函数的自然参数化是使用单词向量。在词汇表中的每个单词w上定义了\mathbb{R}^d上的两个单词向量\vec{u}_w\vec{v}_w

注意:\vec{u}_w是skip-gram模型隐藏层权重矩阵对应的向量,\vec{v}_w是skip-gram输出层的权重矩阵对应的向量。skip-gram隐藏层的输入是one-hot向量。因此,其输出也是隐藏层权重矩阵中对应的向量。

\vec{u}_{wt}\vec{v}_{wt}为单词w_tw_c对应的向量。因此,得分可以是单词向量和上下文向量的标量内积:s(w_t, w_c) = \vec{u}_{wt}^T\vec{v}_{wt}

Subword model

通过使用不同的向量表示每个单词,skip-gram模型忽略了单词的内部结构。为了考虑到这种信息,文章提出了一种不同的得分函数s

每个单词w被表示为n-gram字符袋(bag of character n-gram)。特殊的约束符号<和>分别加在单词前和单词后,使得能够将前缀和后缀与其他字符序列区分开来。同样,为了学习每个单词的表示(除了n-gram字符),单词w自身也被包括在其n-gram字符袋中。例如,令n=3,单词"where"被表示为下面的n-gram字符:
<whwhehererere>
以及特殊的序列
<where>

值得注意的是,对应单词“her”的序列<her>和来自单词“where”的her是不同的。实际上,文章提取n大于等于3以及小于等于6的所有n-gram。这是一种非常简单的方法,可以考虑不同的n-gram集,例如采用所有前缀和后缀。

给定一个大小为G的n-gram字典。给定一个单词w,假设G_w\subset\{1,...,G\}为出现在w中的n-gram字符集。每个n-gram字符g与一个向量表示\vec{z}_g关联。单词被表示为其所有n-gram字符对应的向量表示之和。因此新的得分函数为:

s(w_c) = \sum_{g\in G_w}\vec{z}_g^T\vec{v}_c

这个简单的模型允许跨单词共享表示,从而允许学习罕见单词的可靠表示。

为了满足模型的内存要求,文章使用一个哈希函数,将n-gram字符映射到1到K的整数中。我们使用Fowler-Noll-Vo哈希函数(特别是FNV-1a变体)对字符序列进行哈希处理。最终,一个单词由它在单词字典中的索引和它所包含的哈希化的n-gram字符集来表示。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容