1. 符号

整篇文章里，使用下划线表示向量，例如 $\underline\omega\in \mathbb{R}^d$ 是由 $\omega_1,\omega_2,\dots\omega_d$
组成的向量。 $exp(x)=e^x$ 。

2.对数线性模型

给定两个集合 $\mathcal{X}$ 和 $\mathcal{Y}$ ,假设 $\mathcal{Y}$ 是有限集合，我们的目标是构建一个可以估计给定一个输入 $\mathcal{x}$ 得到标签 $\mathcal{y}$ 的条件概率 $\mathcal{p}(\mathcal{y}|\mathcal{x})$ 的模型。例如， $\mathcal{x}$ 可以是一个单词， $\mathcal{y}$ 是这个单词的词性（名词、动词、介词等）。我们定义函数 $\underline\phi:\mathcal{X}\times\mathcal{Y}\rightarrow\mathbb{R}^d$ ，同时假设参数向量 $\underline\omega \in \mathbb{R}^d$ ,在这些假设下对数线性模型可以表示为
$\mathcal{p}(\mathcal{y}|\mathcal{x})=\frac{exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}))}{\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}^\prime))}$
这就是在参数 $\underline\omega$ 下，给定 $\mathcal{x}$ 条件 $\mathcal{y}$ 的概率。

使用这个表达式来表示这个模型的原因如下。内积 $\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})$ 可以是任意值（正的或者负的），可以解释为给定输入 $\mathcal{x}$ 标签是 $\mathcal{y}$ 的合理性度量。对每个给定的输入 $\mathcal{x}$ ,我们可以对每个可能的标签 $\mathcal{y}\in\mathcal{Y}$ 计算这个内积。我们可以将这些量转换为一个定义良好的概率分布 $\mathcal{p}(\mathcal{y}|\mathcal{x})$ 。如果对内积取幂， $exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}))$ ,就得到了一个严格正的量，最后除以一个标准化常数 $\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\phi(\mathcal{x},\mathcal{y}^\prime))$ ,这确保了 $\sum_{\mathcal{y}\in\mathcal{Y}}{\mathcal{p}(\mathcal{y}|x;\underline\omega)}$ 。这样我们就将可正可负的内积 $\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})$ 变成了一个概率分布。

一个重要的问题是我们怎样从数据估计出参数 $\underline\omega$ 。接下来我们讨论这个问题。

对数似然函数。为了估计这个参数，假设我们有n组打好标签的样本， $\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n$ 。似然函数就是
$\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega)$

$\mathcal{L}(\underline\omega)$ 是对给定的 $\underline\omega$ 解释这些样本的一个度量，一个好的 $\underline\omega$ 应该会给每个 $\mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) \quad i=1\dots 2$ 赋予一个较大的值，从而使 $\mathcal{L}(\underline\omega)$ 也较大。

最大似然估计是
$\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d} \sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega)$

最大似然估计是在 $\mathcal{L}(\underline\omega)$ 评判标准下，求出对训练集拟合最好的参数的一种方法。

找出最大似然估计。给定训练集 $\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n$ ，我们怎样找出最大似然参数估计 $\underline\omega^*$ 呢？不幸的是，解析解在一般情况下并不存在，通常使用基于梯度的方法来最优化 $\mathcal{L}(\underline\omega)$ 。最简单的方法就是梯度上升法，大致使用如下步骤：

初始化 $\underline\omega^0$ ，比如设 $\underline\omega_j^0\quad j=1\dots d$
For t=1...T:
- For j=1...d：
  $\omega_j^t=\omega_j^{t-1}+\alpha_t\times \frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1})$
  其中 $\alpha_t$ 是学习率， $\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1})$ 是 $\mathcal{L}$ 相对于 $\omega_j$ 的偏导数。
返回最终的参数 $\underline\omega^T$

实践中，有更多精妙的最优化方法可以使用：一个共同的选择是使用L-BFGS（一种拟牛顿法），这里就不去探究这种方法的细节了。好消息是很多软件的L-BFGS是直接可用的，实现L-BFGS需要我们计算目标函数 $\mathcal{L}(\underline\omega)$ ，和它的偏导数 $\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)$ 。所幸，这很容易计算：

$\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)$

第一个求和项 $\sum_i\phi_j(x_i,y_i)$ ，将所有样本 $\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n$ 的第j个特征 $\phi_j(x_i,y_i)$ 求和。第二个求和项对所有样本的第j个特征的期望 $\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)$ 求和。

正则化对数似然函数。在很多应用，在对数似然函数中加上额外的正则项是非常有好处的。修改后的函数变为：

$\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) - \frac{\lambda}{2}||\underline\omega||^2$

这里 $||\underline\omega||^2=\sum_i \omega_i^2$ , $\lambda$ 是一个超参数，决定正则项的强度。还是和上面一样，我们所求的参数为：

$\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega)$
此时，在估计参数时有一个权衡取舍，我们想使 $\log p(y_i|x_i;\underline\omega)$ 尽量大，但同时还要保持范数 $||\underline\omega||^2$ 尽量小（ $\lambda$ 越大，则我们希望范数越小）。正则项惩罚大的参数值。

直觉上，我们可以认为正则项是对复杂模型的一个惩罚，参数越大，模型越复杂。我们想要寻找可以很好拟合样本的模型，但我们也不想模型过于复杂（过拟合）

在实践中，往对数线性模型添加正则项是非常有用的。特别是在d很大时，这种场景在自然语言处理程序中是非常常见的，甚至d比训练样本数n还大的情况也存在，在这些情况下只要添加正则项惩罚大的参数值，我们还是可以获得较好的泛化性能。

寻找最优化参数
$\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega)$ 还是可以使用基于梯度的方法，只需稍微修改偏导数公式为：

$\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)-\lambda\omega_j$

对数线性空间

对数线性空间

1. 符号

2.对数线性模型

相关阅读更多精彩内容

友情链接更多精彩内容