对数线性空间

1. 符号

整篇文章里,使用下划线表示向量,例如\underline\omega\in \mathbb{R}^d是由\omega_1,\omega_2,\dots\omega_d
组成的向量。exp(x)=e^x

2.对数线性模型

    给定两个集合\mathcal{X}\mathcal{Y},假设\mathcal{Y}是有限集合,我们的目标是构建一个可以估计给定一个输入\mathcal{x}得到标签\mathcal{y}的条件概率\mathcal{p}(\mathcal{y}|\mathcal{x})的模型。例如,\mathcal{x}可以是一个单词,\mathcal{y}是这个单词的词性(名词、动词、介词等)。我们定义函数\underline\phi:\mathcal{X}\times\mathcal{Y}\rightarrow\mathbb{R}^d,同时假设参数向量\underline\omega \in \mathbb{R}^d,在这些假设下对数线性模型可以表示为
\mathcal{p}(\mathcal{y}|\mathcal{x})=\frac{exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}))}{\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}^\prime))}
这就是在参数\underline\omega下,给定\mathcal{x}条件\mathcal{y}的概率。

使用这个表达式来表示这个模型的原因如下。内积\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})可以是任意值(正的或者负的),可以解释为给定输入\mathcal{x}标签是\mathcal{y}的合理性度量。对每个给定的输入\mathcal{x},我们可以对每个可能的标签\mathcal{y}\in\mathcal{Y}计算这个内积。我们可以将这些量转换为一个定义良好的概率分布\mathcal{p}(\mathcal{y}|\mathcal{x})。如果对内积取幂,exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})),就得到了一个严格正的量,最后除以一个标准化常数\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\phi(\mathcal{x},\mathcal{y}^\prime)),这确保了\sum_{\mathcal{y}\in\mathcal{Y}}{\mathcal{p}(\mathcal{y}|x;\underline\omega)}。这样我们就将可正可负的内积\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})变成了一个概率分布。

一个重要的问题是我们怎样从数据估计出参数\underline\omega。接下来我们讨论这个问题。

对数似然函数。为了估计这个参数,假设我们有n组打好标签的样本,\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n。似然函数就是
\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega)

\mathcal{L}(\underline\omega)是对给定的\underline\omega解释这些样本的一个度量,一个好的\underline\omega应该会给每个\mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) \quad i=1\dots 2 赋予一个较大的值,从而使\mathcal{L}(\underline\omega)也较大。

最大似然估计是
\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d} \sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega)

最大似然估计是在\mathcal{L}(\underline\omega)评判标准下,求出对训练集拟合最好的参数的一种方法。

找出最大似然估计。给定训练集\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n,我们怎样找出最大似然参数估计\underline\omega^*呢?不幸的是,解析解在一般情况下并不存在,通常使用基于梯度的方法来最优化\mathcal{L}(\underline\omega)。最简单的方法就是梯度上升法,大致使用如下步骤:

  1. 初始化\underline\omega^0,比如设\underline\omega_j^0\quad j=1\dots d

  2. For t=1...T:

    • For j=1...d:
      \omega_j^t=\omega_j^{t-1}+\alpha_t\times \frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1})
      其中\alpha_t是学习率,\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1})\mathcal{L}相对于\omega_j的偏导数。
  3. 返回最终的参数\underline\omega^T

实践中,有更多精妙的最优化方法可以使用:一个共同的选择是使用L-BFGS(一种拟牛顿法),这里就不去探究这种方法的细节了。好消息是很多软件的L-BFGS是直接可用的,实现L-BFGS需要我们计算目标函数\mathcal{L}(\underline\omega),和它的偏导数\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)。所幸,这很容易计算:

\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)

第一个求和项\sum_i\phi_j(x_i,y_i),将所有样本\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n的第j个特征\phi_j(x_i,y_i)求和。第二个求和项对所有样本的第j个特征的期望\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)求和。

正则化对数似然函数。在很多应用,在对数似然函数中加上额外的正则项是非常有好处的。修改后的函数变为:

\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) - \frac{\lambda}{2}||\underline\omega||^2

这里||\underline\omega||^2=\sum_i \omega_i^2,\lambda是一个超参数,决定正则项的强度。还是和上面一样,我们所求的参数为:

\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega)
此时,在估计参数时有一个权衡取舍,我们想使\log p(y_i|x_i;\underline\omega)尽量大,但同时还要保持范数||\underline\omega||^2尽量小(\lambda越大,则我们希望范数越小)。正则项惩罚大的参数值。

直觉上,我们可以认为正则项是对复杂模型的一个惩罚,参数越大,模型越复杂。我们想要寻找可以很好拟合样本的模型,但我们也不想模型过于复杂(过拟合)

在实践中,往对数线性模型添加正则项是非常有用的。特别是在d很大时,这种场景在自然语言处理程序中是非常常见的,甚至d比训练样本数n还大的情况也存在,在这些情况下只要添加正则项惩罚大的参数值,我们还是可以获得较好的泛化性能。

寻找最优化参数
\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega)还是可以使用基于梯度的方法,只需稍微修改偏导数公式为:

\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)-\lambda\omega_j

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容