2. 半监督学习方法的分类

我们提出了一个简单的分类概率图模型的半监督学习问题。我们为每个族提供了一些广泛的算法类，并指出了文献中的具体实现。最后，我们对使用输入相关正则化（或条件先验分布）的一系列方法进行了更详细的说明，并显示出与联合训练模式的相似性。

2.1 半监督学习问题

半监督学习（SSL）问题最近在机器学习社区获得极大的关注，主要是由于其在实际应用中的重要性。在这一部分，我们定义问题和并在本章的其余部分介绍需要的符号。

在统计机器学习中，我们分为非监督和监督机器学习。在前一种情况下，我们会有一个采样由密度为 $P(x)$ 的未知数据分布生成的独立同分布模式 $\chi$ 中的样本 $\{x_i \}$ 。我们的目标是估计一个密度或密度（已知的）的函数。监督学习包括估计协变量 $x\in\chi$ 与类变量 $y\in \{1,...,M \}$ 之间的函数关系 $x\rightarrow y$ ，其目标是最小化（联合）数据分布 $P(x,y)$ 的函数，如分类误差的概率。边缘数据分布 $P(x)$ 被称作输入分布。分类可被看作是估计联合密度 $P(x,y)$ 的一种特例，但这是徒劳的，因为在预测时输入 $x$ 总会被提供的，因此就没有必要去估计输入分布。

术语“非监督学习”就有点不幸了：密度估计这一术语可能是首选。传统上，许多用于密度估计的技术会提出一个潜在（未被观察的）的类变量 $y$ 并将估计 $P(x)$ 看作估计混合分布 $\sum\nolimits_{y=1}^MP(x|y)P(y)$ 。请注意，与在分类中的作用相比 $y$ 有本质上不同，因为它的存在和范围 $c$ 是一个建模选择，而不是来自于可观察的现实。然而，在其他密度估计技术中，如非线性维数约简中，“无监督”一词没有意义。

半监督学习问题属于监督型问题，因为其目标是使分类误差最小化，而不寻求 $P(x)$ 的估计。与标准分类设定不同的是半监督学习既使用采样自联合密度为 $P(x,y)$ 的独立同分布的标记样本 $D_l=\{ (x_i,y_i)|i=1,...,n \}$ ，也使用采样自边缘密度为 $P(x)$ 的非标记样本 $D_u=\{x_{n+j}|j=1,...,m \}$ 。我们特别感兴趣的情况是，可能出现在获取未标记样品便宜和容易，而标记样品昂贵或困难的 $m>>n$ 情况下。我们设 $X_l=(x_1,...,x_n)$ , $Y_l=(y_1,...,y_n)$ 与 $X_u=(x_{n+1},...,x_{n+m})$ 。未被观测到的标签被设为 $Y_u=(y_{n+1},...,y_{n+m})$ 。在对ssl的简单概括（这里不讨论）中，关于 $Y_u$ 的不确定信息是可用的。

SSL有两种明显的基准方法。我们可以忽略 $D_u$ 将它看作一个监督分类问题，或者我们可以将 $y$ 作为混合估计中的潜在类变量，用无监督方法拟合 $P(x)$ ，然后用 $D_l$ 将潜在类与观察类联系起来(阅读 2.3.1 章获取更多细节)。人们会同意，任何有效的 SSL 技术都应该在一系列实际相关的情况下显著优于这两种基线方法。如果这听起来相当含糊，请注意，一般来说，对于固定的SSL方法，应该很容易构建数据分布，其中任何一个基线方法都更好。我们认为，SSL 更多是一个实践问题而不是理论问题。通过选择先验和模型，一个有用的SSL技术应该以类似于贝叶斯学习的方式配置到任务的细节。虽然已经为 SSL 做了一些理论工作，但到目前为止，大部分相关工作都涉及到现实应用程序。

2.2 半监督学习范式

由于SSL方法是有监督的学习技术，因此可以根据标准分类法将其分类为生成式和判别式范式。在本节中，我们将介绍这些范例，并强调它们在 SSL 情况下的差异。我们还注意到，这种起源于纯监督方法的分类法在应用于 SSL 时可能不明确，我们建议如何精确地划定边界线。

在本节的图中，我们使用了统计和机器学习中常用的方便的图形符号。这些所谓的有向向图形模型（或独立图）具有以下直观的语义。节点代表随机变量。节点 $i$ 的父节点是存在有向边 $j\rightarrow i$ 的节点 $j$ 。一旦知道节点的所有父节点的值，就可以对其值进行采样。因此，一个图形模型是一种简单的方法，用来表示来自多个变量分布的采样机制。因此，图形模型编码了必须为分布保留的条件独立约束。为了从分布中进行采样，我们从没有父节点的节点开始，沿着边的方向工作。我们还利用了矩形盒子组成的一组节点板。这意味着该组是从相同的分布（I.I.D.）中重复和独立地取样的，这些分布（I.I.D.）条件是所有节点都是任何板件的父节点。例如，2.2.1 节的图表示我们首先独立地采样 $\theta$ 和 $\pi$ ，然后对条件于 $\theta ,\pi$ 的独立同分布的 $\{ (x_i,y_i) \}$ 进行采样。

注意，我们从一个明确的贝叶斯观点来描述生成式和判别式范式。这在某种程度上是一个个人选择的问题，当然，我们可以在不提及诸如先验分布之类的概念的情况下画出这些类的草图。另一方面，贝叶斯视图避免了许多不必要的复杂情况，因为所有变量都是随机的，所以不必做任何区别。在函数独立性和概率独立性之间，等等，所以我们认为我们的介绍不会因为这个选择而缺乏清晰性或一般性。

2.2.1 生成式范式

我们将遵循生成式范式的架构称为生成式方法。在此基础上，利用模型族 $\{P(x|y,\theta \}$ 对类分布 $P(x|y)$ 进行建模，并利用 $\pi_y=P(y|\pi)$ 、 $\pi = (\pi_y)_y$ 对类先验 $P(y)$ 进行建模。我们将这种类型的体系结构称为联合密度模型，因为我们是通过 $\pi_yP(x|y,\theta)$ 对全联合密度 $P(x|y)$ 进行建模的。对于任何固定的 $\hat \theta$ , $\hat{\pi}$ ， $P(y|x)$ 的估计可以通过Bayes公式计算： $P(y|x,\hat \theta,\hat \pi)=\frac{\hat \pi_yP(x|y,\hat\theta)}{\sum\nolimits_{y\prime=1}^M\hat\pi_{y\prime} P(x|y\prime,\hat\theta)}$

这有时被称为插件估算。或者，我们可以通过后验分布 $P(\theta,\pi|D_l)$ 上平均 $P(y|x,\theta,\pi)$ 来获得贝叶斯先验分布 $P(y|x,D_l)$ 。在生成范式中，边缘 $P(x)$ 的模型自然为： $P(x|\theta,\pi)=\sum_{y=1}^M \pi_yP(x|y,\theta)$

如果有标记和未标记的数据可用，自然标准是 $D_l$ 和 $D_u$ 的联合对数似然。 $\sum_{i=1}^n log\pi_{y_i }P(x_i|y_i,\theta)+\sum_{i=n+1}^{n+m}log\sum_{y=1}^M\pi_yP(x_i|y,\theta)$

亦可选择后验分布 $P(\theta,\pi|D_l,D_u)$ 。这本质上是存在缺失数据时的最大似然问题（将 $y$ 视为一个潜在变量），原则上可以通过期望-最大化（EM）算法（见第2.3.1节）或直接梯度下降来解决。

一些研究人员很快就把这种策略称为解决SSL问题的一种明显的方法，但事实并非如此，在大致相同的意义上，生成方法往往不能为分类问题提供很好的解决方案。生成技术提供了一个过程中 $P(x)$ 的估计值，尽管分类不需要这一点，而且一般来说，如果给定有限的数据，这是浪费的。例如，最大化有限样本的联合概率不会导致较小的分类误差，因为根据模型，通过改进 $P(x)$ 的拟合而不是 $P(y|x)$ 的拟合，可能会增加似然。这是一个在最终预测时平衡 $D_l$ 和 $D_u$ 的影响的一般问题的例子，特别是在 $m >>n$ 的情况下。这个问题就在2.3.1节探讨。进一步而言，在SSL设置中， $y$ 是一个潜在变量，必须在 $D_u$ 上归纳，导致高度多模后验，使最大似然或后验最大化技术受到非常多（局部）极小值的困扰。

2.2.2 判别式范式

在判别式方法中，我们使用 $\{P(y|x,\theta \}$ 分布族直接对条件分布 $\text{[math]}$ $P(y|x)$ 建模。为了得到一个完整的数据采样模型，我们还必须用一个 $P(x|\mu)$ 模型族对 $P(x)$ 进行建模；然而，如果我们只想更新我们对 $\theta$ 的信念，或者在看不见的点上预测 $y$ ，这不是必要的，正如我们接下来将看到的。在这个模型下， $\theta$ 和 $\mu$ 与先验独立，即 $P(\theta,\mu)= P(\theta)P(\mu)$ 。

似然因素如： $P(D_l,D_u|\theta,\mu)=P(Y_l|X_l,\theta)P(X_l,D_u|\mu)$ ，

这蕴含 $P(\theta|D_l,D_u)\propto P(Y_l|X_l,\theta)P(\theta)$ 即 $P(\theta|D_l,D_u)=P(\theta|D_l)$ ，而且 $\theta$ 和 $\mu$ s是后验独立的。进一步说， $P(\theta|D_l,\mu)=P(\theta|D_l)$ 。这意味着对未标记数据 $D_u$ 的知识和对 $\mu$ 的任何知识都不会改变标记样本的后验信念 $P(\theta|D_l)$ 。因此，在判别方法的标准数据生成模型中，非标记数据 $D_u$ 不能用于贝叶斯推断，对输入分布 $P(x)$ 建模不是必要的。有一些非贝叶斯判别技术可以利用 $D_u$ （见2.3.2节），但是这样做的影响（与忽略 $D_u$ 相比）通常非常有限。为了在诊断方法中有效地使用未标记的数据，必须修改上面讨论的数据生成模型，如下节所述。

2.2.3 基于输入分布的正则化

当从有限大小的样本 $D_l$ 中学习时，通常有许多与数据一致的 $x\rightarrow y$ 关联。正则化的思想是将我们选择的分类器偏向于“更简单”的假设，通过在待最小化的标准中添加一个正则化函数，随着复杂性的增加而增长。这里，简单性的概念取决于任务和模型设置。例如，对于线性模型，通常惩罚权向量的范数，对于一些常用的正则化函数，可以证明这相当于在权向量上放置一个零均值先验分布。从现在起，我们只对先验的正则化感兴趣，并且可以互换使用这些术语。

我们可以从2.2.2 节看到使用直接判别式贝叶斯方法分类，我们不能利用附加的非标记数据集 $D_u$ ，因为 $\theta$ （ $P(y|x)$ 的参数）和 $\mu$ （ $P(x)的参数$ ）是先验独立的。换句话说，模型族 $\{P(y|x,\theta) \}$ 是独立于输入分布的正则化。

如果我们允许在 $\theta$ 和 $\mu$ 之间先验依赖，如 $P(\theta,\mu)=P(\theta|\mu)P(\mu)$ 和

先验依赖

$P(\theta)=\int P(\theta|\mu)P(\mu)d_{\mu}$ （如上图所示的依赖性），情况就不同了。原则上，条件先验 $P(\theta|\mu)$ 允许有关 $\mu$ 的信息传输到 $\theta$ 。一般， $\theta$ 和 $D_u$ 在给定标记数据 $D_l$ 的情况下是依赖的，因此非标记数据会改变我们对 $\theta$ 的后验信念。

我们得出结论，为了在判别贝叶斯监督技术的背景下使用额外的未标记数据，我们必须允许表示条件概率的潜在函数与输入概率本身之间存在先验依赖关系。换句话说，我们必须使用一个依赖于输入分布的潜在函数的正则化。潜在收益可以通过以下论证来证明。注意，条件先验表示一个边际先验 $P(\theta)$ ，它是一个混合分布： $P(\theta)=\int P(\theta|\mu)P(\mu)d_{\mu}$ 。通过对未标记的数据进行处理，这由相对 $P(\theta)$ 有更小商的 $P(\theta|D_u)=\int P(\theta|\mu)P(\mu|D_u)d_{\mu}$ 代替，意味着后验信念 $P(\theta|D_l,D_u)$ 比 $\text{[math]}$ $P(\theta|D_l)$ 窄很多。另一方面，同样的论点也可以用来证明使用额外的未标记的数据 $D_u$ 可能会带来伤害而不是帮助。也就是说，如果先验 $P(\theta|\mu)$ 非常严格地执行某些约束，但在真实分布 $P(x,y)$ 中恰好违反了这些约束，那么条件“先验” $P(\theta|D_u)$ 将把比 $P(\theta)$ 低得多的概率分配给接近真实的模型 $P(y|x,\theta)$ ，并且后验 $P(\theta|D_l,D_u)$ 可以集中在次优模型周围。虽然很容易构建额外的未标记数据受到伤害的人工情况，但令人担忧的是，在实际相关的设置中，此类故障确实发生得非常意外。要更深入地分析这个问题，请参阅Cozman和Cohen（本卷第4章）。

我们注意到，虽然对这里建议的判别式方法的标准数据生成模型的修改很简单，但是选择适合手头任务的适当的条件先验 $P(\theta|\mu)$ 可能是具有挑战性的。然而，正如第2.3.3节所演示的那样，实际上可以将几种用于SSL的通用技术视为实现依赖于输入的正则化。

对这点读者可能感到不容易。如果我们使用一个先验依赖 $\theta$ 和 $\mu$ ，最终的预测分布依赖于输入分布的先验 $P(\mu)$ 。这迫使我们对输入分布本身进行建模，与标准判别式方法的情况不同。在这种情况下，我们的方法还是判别式方法吗？是不是只要对 $P(x)$ 建模的方法在某种程度上必须自动地是生成式的？仅仅因为不需要估计 $P(x)$ ，判别式方法能够更加简洁。为了实现与输入相关的正则化，我们是否必须使用具有第2.2.1节讨论的有缺点的生成模型？这里确实存在一些歧义，但我们将尝试在第2.2.4节中澄清这一点。在这个一般的观点下，依赖于输入的正则化实际上是一种判别式的SSL技术。

对监督任务而言的判别式范式中， $\theta$ 和 $\mu$ 被看作是先验独立的，从而导致 $P(x)$ 的任何方面都不需要估计。虽然这样做是方便的，我们是否应该相信这样对现实世界而言的独立性假设是不清楚的。例如，假设 $\text{[math]}$ $P(\theta)$ 加强了关系 $P(y|x,\theta)$ 的平滑性。在所有x的周围加强 $x\rightarrow y$ 的平滑是明智的，还是我们不应该只在 $P(x)$ 有很大的体积时才惩罚粗暴行为？

2.2.4 范式之间的界限

虽然有监督方法和无监督方法之间的界限很清楚，但生成技术和判别式技术之间的区别可能不明确，特别是如果我们将此分类法应用于SSL。在这一部分中，我们给出了两个明确区分的标准：一个简单的标准和一个更详细的标准。在某种意义上，它们都基于同一个问题，即 $P(x)$ 估计对预测的作用。

回想一下，我们把自己局限于那些最终目标是估计 $P(y|x)$ 的方法。传统上，生成方法通过对联合分布 $P(y,x)$ 进行建模来实现这一点，并通过捕获真实联合数据分布的特征来将该模型与数据相匹配。 $P(x)$ 的估计值总是可以通过将联合估计值（ $\hat P(y,x)$ ）边缘化得到。相比之下，判别式方法只是集中于对分布 $P(y|x)$ 建模，无法提取 $P(x)$ 的估计值。然而，在 SSL 情况下为了从 $D_u$ 中获益我们需要对 $P(x)$ 建模。因此所有的 SSL 技术都是生成式的吗？我们反对这种观点，并试图根据 $P(x)$ 估计实际扮演的角色对SSL技术进行分类。

虽然任何ssl方法都必须以某种方式对 $P(x)$ 进行建模，但在生成技术中，我们显式地对类条件分布 $\text{[math]}$ $P(x|y)$ 进行建模，以便 $P(x)$ 的模型是这些分布的混合体。根据这些估计（和 $P(y)$ 的估计）我们使用贝叶斯公式获得 $P(y|x)$ 的估计。预测估计的特征（如参数情况下的函数类）完全依赖于类条件模型。例如，如果后者是具有相同协方差矩阵的高斯函数，则预测估计将基于线性函数。简而言之，我们使用建模工具箱指定 $P(x|y)$ ，这意味着 $P(x|y)$ 和 $P(x)$ 估计的形式（后者是 $P(x|y)$ 的混合）。编码后一种估计的特定属性的唯一方法是找到 $P(x|y)$ 候选者，这些候选者既易于处理，又暗示 $P(y|x)$ 和 $P(x)$ 的期望属性。与之相比，在一个判别式方法中我们直接对 $P(y|x)$ 建模，并且在对 $P(x)$ 建模时也有相当大的自由度。在 SSL 中我们使用来自 $P(x)$ 的信息正则化 $P(y|x)$ 估计，但是我们不必显式地指定类条件分布。虽然这个定义对于这里提到的SSL方法是可行的，但是它在生成方面可能过于限制。例如，2.3.1节的 “多中心每类”模型明显是生成式的，但适用于 $P(x)$ 的混合模型，其中每个 $y$ 类有几个组块，并且通过 $P(x|y)=\sum\nolimits_{k}\pi _y\beta _{y,k}P(x|k)$ 对 $P(x|y)$ 间接建模，即，作为混合分布自身。在下面的段落中，我们提出了一个替代的观点，它为生成式技术留下了更多的自由。

SSL 的实际成功表明，未标记的数据，即关于 $P(x)$ 的知识，对于监督任务是有用的，但根据密度估计的通用性能标准，不一定是相同类型的知识会导致 $P(x)$ 的良好估计。实际上，只有少数的 $P(x)$ 通用特征对分类有用（见：2.3.3.1 节）。如果我们通过使用正则化惩罚 $P(y|x)$ 估计（违反 $P(x)$ 的某些方面，如聚类假设（见第2.3.3.1节），将纯判别技术（如SVM或逻辑回归）转换为 SSL 技术，则 $P(x)$ 对最终 $P(y|x)$ 估计的影响仅限于我们希望这对于更好的分类很重要。这些限制是由我们设计的，因为我们希望充分利用 $D_u$ 来预测 $P(y|x)$ 。相反，如果我们通过最大化混合模型（见第2.3.1节）的联合对数似然（2.1）的适当重加权版本来执行SSL，则没有给出或至少没有直接计划对分类相关方面的限制。事实上，联合模型的设计方法与我们进行密度估计的方法基本相同。

例如，考虑第2.2.3节中有条件先验的框架。虽然了解 SSL 中的 $P(x)$ 很重要，但 $P(x)$ 的过度简化模型对最终预测的影响远小于密度估计的。这是因为适当的正则化仅取决于 $P(x)$ 的某些方面（例如，在聚类假设下，高密度区域的粗略位置；见第2.3.3.1节），并且我们的 $x$ 分布模型只需能够准确地捕捉到这些。

2.3 例子

在本节中，我们提供了属于前一节中介绍的每个类别的SSL方法示例。我们不试图在这里提供一个全面的文献综述，而是有选择性的，以便指出这些类别的特点和区别。请注意，在本文（以及（Seeger，2000b））中，有些方法被分类为“基线方法”。这并不构成贬值，事实上，其中一些方法属于某些任务的执行者。此外，我们认为，对这些方法的理论分析具有很大的价值，尤其是因为许多实践者使用它们。我们的标签适用于可以从标准的无监督或监督方法中相当直接地派生出来的方法，我们希望真正新颖的建议事实上与最密切相关的基线方法进行比较。

2.3.1 生成式技术

从第2.2.1节回忆起，生成技术使用模型族 $\{P(x,y|\theta,\pi) \}$ 来对联合数据分布 $P(x,y)$ 建模。最简单的方法是在 $X_l \cup X_u$ 上运行 $P(x)$ 的混合密度估计方法，将y作为一个潜在类变量，然后使用标记的样本 $D_l$ 将潜在类与实际类相关联。这种方法的一个明显问题是，无监督方法提供的标签可能与 $D_l$ 不一致，在这种情况下，应该修改聚类以实现与 $D_l$ 的一致性。Castelli和Cover（Castelli和Cover，1995）提供了在相当不现实的可识别性条件下对该基线方法的简单分析。也就是说，他们假设数据分布完全可以通过现有的无监督方法识别，该方法使用一个混合模型，每个类有一个组件。目前尚不清楚在实践中如何实现这个目标，即使 $P(x)$ 是确切知道的。在大样本限制下，所有的类分布都可以很好地学习，但是将类分配给标签名称显然是完全开放的。然而，只需要少量附加的标记数据用来学习这种分配。事实上，很容易看出误差率以指数速度收敛于贝叶斯误差（从 $P(x,y)$ 中提取的标记示例数）。

另一个基线方法由最大化方程 2.1 中的联合似然组成。当 $m>0$ 时，要最小化的标准不是凸的，通常是多模态的，因此我们必须努力找到局部最大值。这可以通过直接梯度下降法或 EM 算法实现。后者是一个保证收敛到似然函数的一个局部最大值的迭代程序。如果等式 2.1 中的数据都是标记的，通过对 $\theta$ 的单次优化可以得到局部最大值。事实上，如果类条件分布是来自于一个指数家族的，全局最大值可以通过分析得到。EM 算法通过给所有点 $x_i$ 分配标签分布 $q(y|x_i)$ 来工作。对一个标记点，标签由 $q(y|x_i)=\delta _{y,y_i}$ 表示。如果 $x_i$ 是未标记的，我们使用条件后验分布（对当前 $\theta$ )，即 $q(y|x_i)\propto \pi _yP(x_i|y,\theta)$ 。直观地说，这种选择反映了我们对 $x_i$ 标签的最佳当前点估计。EM 中的 E 步骤由计算所有点的 $q(y|x_i)$ 组成。在 M 步骤中，参数 $\theta$ ， $\pi$ 被更新通过最大化 $q$ 分布下的期望对数似然： $\phi (\theta^ \prime ,\pi ^\prime)=\sum_{i=1}^{n+m} \sum_{y=1}^M q(y|x_i)log\pi_y^\prime P(x_i|y,\theta^\prime)$ 。

E 步和M步交替迭代直到收敛。很容易证明，对于未标记点上的任何 $q$ 选择，联合对数似然（2.1）上的下界为 $\phi$ 。如果 $q$ 被选作后验分布，且参数 $\theta$ ， $\pi$ 不变，则该界限将变为相等。进一步说，在这个选择下，下界和联合对数似然的梯度在 $\theta$ , $\pi$ 处是相同的，因此，如果 $EM$ 收敛，我们得到了公式2.1的局部最大值。

在联合生成模型上使用 EM 来训练有标签和无标签的数据的想法几乎和 EM 本身一样古老。Titterington 等（Titterington等人，1985年，第5.7节）回顾了早期关于存在额外未标记数据的判别分析问题的理论工作。最常见的假设是，数据是由两个具有等协方差矩阵的高斯混合分布生成的，在这种情况下，贝叶斯判别式是线性的。他们从生成范式（见第2.2.1节）分析“插件”方法，其中类分布的参数由最大似然估计。如果这两个高斯分布某种程度上很好地分离，则使用未标记样本的渐进增益非常显著。细节见（O'Neill，1978；Ganesaligam和McLachlan，1978、1979）。McLachlan（McLachlan，1975）给出了这种情况下的一种实用算法，它本质上是 $EM$ 的“硬”版本，即在每个 $E$ 步骤中，使用从上一步骤的混合参数派生的判别式，将未标记的点分配给一个总体（注意那时一般的 EM 算法还没有被提出来）。他证明，对于来自每个群体的“适度化”训练集和从混合物中抽取的点的集合 $D_u$ ，如果用基于标记数据的最大似然（ $ML$ ）解初始化算法，则该方法计算的解几乎可以肯定地收敛于 $|D_u|=m\rightarrow \infty$ 的真实混合物分布。这些早期的论文对半监督问题的性质提供了一些重要的洞察，但是它们的严格假设限制了可以为大型现实问题得出的结论。

$EM$ 算法已被Nigam等人应用于文本分类。（参见（Nigam等人，2000年）或本书第3章）从方程 2.1 我们可以看到，在联合对数概率中，标记和未标记的数据按 $n$ 与 $m$ 的比率加权。这种“自然”加权如果以面值（即对数据采样机制的正确描述）来计算可能性是有意义的，但它与存在强采样偏差（其准确大小通常未知）的SSL问题有些无关。换言之，未标记的数据往往大量可用，因为它们的获取远比标记的数据的便宜得多。如果我们在极端情况 $m >>n$ 下自然加权，标记数据 $D_l$ 将被显著地忽略。Nigam等人建议分别用 $(1 - \lambda)/n$ 和 $\lambda /m$ 对等式2.1中的术语进行重新加权（自然加权由 $\lambda = m/(m+n)$ 给出），并通过标准技术（如对 $D_l$ 的交叉验证）调整 $\lambda$ 。

注意，就 $D_u$ 的 $P(x)$ 估计而言， $y$ 被视为潜在类变量，我们也可以考虑比类更多的混合成分。也就是说，我们可以引入一个额外的分隔变量 $k$ ，这样在模型下给的 $k$ 时 $x$ 和 $y$ 下是独立的。这意味着关于它的类 $y$ 的所有信息 $x$ 都已经在 $k$ 中捕获了。这一事实在下边的独立模型中得到了说明。

分隔变量

k

重新加权的联合对数的可能性为 $\frac{1-\lambda}{n} \sum_{i-=1}^nlog\sum_{k}\beta_{y_i,k}\pi_kP(x_i|k,\theta)+\frac{\lambda}{m} \sum_{i=n+i}^{n+m} log\sum_{k} \pi_kP(x_i|k,\theta)$ ，这儿 $\pi_k = P(k|\theta)$ 、 $\beta_{y,k}=P(y|k,\theta)$ 。使用EM 算法将这个标准最大化是很简单的。Miller和Uyar（Miller和Uyar，1997）提出了使用该模型和高斯分量 $P(x|k,\theta)$ 的一些结果。在（Nigam等人，2000年）中，“每类多中心”的情况下，与该方法等效。

第2.2.1节已经提到了这种简单的生成混合模型方法的一些缺点。首先,必须小心选择标记和非标记数据源之间的权重 $\lambda$ ；比如，自然的权重通常是不合适的。通过对 $D_l$ 的交叉验证选择 $\lambda$ 原则上鲁棒的，但如果 $n$ 非常小，则必然会失败。其次，对于不接近 $0$ 的 $\lambda$ ，联合对数似然有许多（局部）极大值，对于 $\lambda$ ，与 $D_l$ 的一致性越来越弱。Corduneanu 和 Jaakkola 主要解决了这两个问题（Corduneanu 和 Jaakkola，2002年）。在 $P(x|y,\theta)$ 上的适当可识别性条件下， $\lambda = 0$ （仅标记数据）的最大点是唯一的，而对于 $\lambda = 1$ （仅未标记数据），至少由于标签置换对称性，存在许多等效的最大点。因此，当我们追踪从0开始增长 $\lambda$ 的最大点时，路径必须在一阶临界 $\lambda^* >0$ 处分裂。作者认为，在这个 $\lambda^*$ 处的最大对数似然点提供了一个很有希望的解决SSL问题的方法（在这个生成设置中），因为它仍然完全包含标签信息。另外，到达 $\lambda^*$ 的路径是唯一的，而对于较大的 $\lambda$ ，路径是分开的，并且要遵循哪个路径的决定与标签信息无关。他们展示了如何使用同伦延拓（路径跟踪）方法来相当有效地跟踪到 $\lambda^*$ 的解路径。通过将自己限制为 $\lambda\leq \lambda^*$ ，他们绕过了许多（局部）极大值问题，并且他们选择 $\lambda = \lambda^*$ 的动机很好。

Murray和Titterington[1978]（另见（Titterington等人，1985年），例4.3.11）建议对每个类使用 $D_l$ 来获得基于核的密度估计值 $P(x|y)$ 。他们固定这些估计值，并使用 EM 算法来最大化 $D_l$ ， $D_u$ 的联合可能性，即仅混合系数 $\pi_t$ 。这个程序是鲁棒的，但并没有充分利用非标记数据。如果 $D_l$ 很小，则基于核的 $P(x|y)$ 估计将很差，即使 $D_u$ 可用于获得更好的混合系数值，也不可能挽救最终的歧视。此外，对于 $D_l$ 、 $D_u$ 之间的自然权重适当的情况，建议使用该程序，而对于 $SSL$ 来说，这通常不是这样。

Shahshahani和Landgrebe（Shahshahani和Landgrebe，1994年）根据起源于渐近极大似然理论的方法，对未标记数据是否有助于分类的一般问题进行了分析。他们的论证有些不清楚，并受到了其他许多作者的批评（例如（Nigam等人，2000年；Zhang和Oles，2000年））。他们没有定义模型类，似乎混淆了渐近和有限样本项。毕竟，他们的主张似乎是，未标记的数据可以减少估计量的渐近方差，但他们不担心这样的修改实际上会引入新的偏差，特别是在有趣的当 $m>>n$ 情况下。在实际方面，他们建议的算法是上面讨论的联合 $EM$ 方案。

张和奥利斯（张和奥利斯，2000）对同样使用Fisher信息的SSL进行了另一项分析。作者指出，对于纯粹的判别模型，未标记的数据是无济于事的（当然，这一事实早已为人所知；另见第2.2.2节）。在生成设置中，它们表明 $D_u$ 只能提供帮助。虽然在他们的假设下这是真的，但它基于渐近概念，在实际情况下可能不相关。Fisher信息仅表征无偏估计量的最小渐近方差，而极大似然估计量通常只具有渐近无偏。将这些概念应用于 $D_l$ 很小的情况下，并不能得出很强的结论，而 $m$ 比 $n$ 增长得快得多的情况下（甚至是渐近）偏差的问题仍然存在。在实际方面，在一个文本分类任务中，给出了一些经验证据，表明未标记的数据会导致公共转换中的不稳定性，从而“伤害”（见第2.2.3节中的注释）。

2.3.2 判别式技术

我们在 2.2.2 节中注意到如果 $\theta$ 和 $\mu$ 是先验无关的那么非标记数据是不能用于贝叶斯判别式方法的，因此为了使用 $D_u$ 我们必须使用条件先验 $P(\theta|\mu)$ 。非标记数据可能在非贝叶斯设定中也是有用的。Tong和Koller（Tong和Koller，2000）以限制贝叶斯最优分类的名义给出了一个例子。考虑一种诊断方法，其中经验损失项和正则化函数的总和最小化。经验损失项是期望值，即与问题相关的损失函数在标记样本 $D_l$ 上的期望值（如，0-1 损失函数 $L(x,y,h)=I\{y\neq h(x) \}$ 。作者建议通过从 $D_l\cup D_u$ 估计 $P(x,y)$ 来合并未标记的数据 $D_u$ ，然后将经验损失项替换为该估计下的损失期望。正则化项则没有变化。我们可以将此方法与输入依赖正则化作比较（见 2.2.3 节）。前一项，经验损失部分（对一个概率模型而言是负对数似然估计）改为基于 $D_u$ ，后一项是正则化项。我们不会期望RBOC从相应的诊断技术中产生非常不同的结果，特别是当n很小时（这是实践中有趣的情况）。这在一定程度上得到了中较弱结果的证实（Tong和Koller，2000年）。为了修改判别式SVM框架，在（Chapelle等人，2001）中提出了一个非常类似的想法。

Anderson（Anderson，1979）提出了一个有趣的逻辑回归修正，其中可以使用未标记的数据。在二元逻辑回归中，对数概率被建模为线性函数，其中 $P(x|1)=exp(\beta^Tx)P(x|2)$ 、 $P(x)=(\pi_1 exp(\beta^Tx)+1-\pi_1)P(x|2)$ ，这儿 $\pi_1=P\{t=1 \}\$ 。安德森现在选择参数 $\beta$ ， $\pi_1$ 和 $P(x|2)$ ，以最大化在 $P(x|1)$ 和 $P(x|2)$ 标准化的约束下 $D_l$ 和 $D_u$ 的似然函数。对有限集 $\chi$ ,这个问题可以转化为一个无限制优化即参数 $\beta,\pi_1$ 下的无限制优化问题。对于连续输入变量x，Anderson提倡使用“有限 $\chi$ ”情况下导出的 $P(x|2)$ 形式，尽管这不是一个光滑函数。不幸的是，怎么将这个想法推广到更多的实际模型中去是不清楚的，例如，如何“核化”它，以及 $P(x|2)$ 的形式对于许多有无穷 $\chi$ 的问题来说是不够的。

2.3.3 输入依赖正则化

我们在 2.2.3 节讨论过如果 $\theta$ 和 $\mu$ 依赖于先验，则未标记的数据 $D_u$ 可用于判别式技术。为了实现这一想法，我们必须指定条件先验 $P(\theta|\mu)$ 编码我们对 $x\rightarrow y$ 的特性如何依赖于 $P(x)$ 的知识的信念。

2.3.3.1 聚类假设

不难构建 $P(x,y)$ 的“恶意”示例，它违背了对 $\theta$ ， $\mu$ 的任何给定依赖性假设。然而，在实践中， $x$ 的数据中的聚类结构通常与标签一致。推测为什么会出现这种情况并不是很有成效，尽管肯定有一种选择倾向于特征（即 $x$ 中的组件），这与标记过程相关，这意味着它们应该以与标签相同的方式（即简单的距离）进行分组。聚类假设（CA）（例如（seeger，2000b））提供了一种将这种观察结果用于SSL的一般方法。假设在 $\chi$ 中两个点 $x\prime,x\prime\prime$ 之间存在一条“路径”，且仅在有效密度 $P(x)$ 区域内移动，则它们应具有相同的高概率标签 $y$ 。换句话说，在 $P(x)$ 的连通高密度区域内，类与类之间的判别函数应该是平滑的。因此，可以直接将CA与全局平滑度假设进行比较，这些假设要求判别式在任何地方都平稳地变化，而不依赖于 $P(x)$ 。虽然后者也惩罚了训练和测试数据稀少的地区的急剧变化，但CA对此仍然漠不关心。

CA（在不同程度上）是在为SSL提议的许多方法中实现的。最突出的可能是标签传播方法。粗略的想法是从 $X_l\cup X_u$ 构造一个包含要标记的测试集和所有 $X_l$ 的顶点的图。最近邻边由权重与局部相关强度成比例的边连接。然后，我们用标签 $Y_l$ 初始化与 $X_l$ 对应的节点，并以图上的马尔可夫链的方式在其余节点上传播标签分布（Szummer和Jaakkola，2002b）。也可以将设置视为一个高斯场，其中图形和边权重指定了协方差逆矩阵（Zhu等人，2003b）。标签传播技术实现了与无监督光谱聚类相关的CA（Belkin和Niyogi，2003b）。CA已经通过聚类内核的方式为内核机器实现（Chapelle等人，2003）。此外，第2.3.1节中的生成性SSL技术可以看作是相对于混合模型聚类实现CA。

Corduneanu和Jaakkola（见本书第10章）对CA进行了概括，他们展示了如何从信息理论论证中获得条件分布 $P(y|x)$ 的正则化器。

2.3.3.2 Fisher 核

Fisher内核是在（Jaakkola和Haussler，1999）中提出的，目的是利用基于内核的支持向量机（SVM）框架内的额外未标记数据来检测远程蛋白质同源性。想法是对 $D_u$ 使用最大似然去拟合一个生成式模型 $P(x|\mu)$ 。如果 $x$ 是DNA 序列，可以使用隐马尔可夫模型（HMM）。 $P(x| \hat{\mu})$ 代表提取自 $D_u$ 的知识，Fisher核是构造一个依赖于这一知识的协方差核 $K_\hat{\mu}$ 的一般方法。然后我们可以使用 $K_{\hat \mu}$ 核将一个支持向量机或高斯过程（GP）分类对 $D_u$ 进行拟合。将这个设置看作输入依赖正则化的一个例子是在GP 语境下最容易的。这儿， $\theta$ 是一个表示判别函数的过程（为了简单起见，我们假设 $c=2$ ）， $P(\theta|\mu)$ 是一个具有零均值函数和协方差核 $K_{\mu}$ 的 GP 分布。在机器学习（ML)语境下， $P(\mu|D_u)$ 近似于 delta 分布 $\delta_{\hat\mu}$ 。

定义 Fisher 评分函数为 $F_{\hat\mu}(x)=\bigtriangledown_{\hat\mu}logP(x|\mu)$ （梯度即 $\mu$ 在 $\hat\mu$ 计算）。Fisher 信息矩阵为 $F=E_{P(\cdot|\hat\mu)}[F_{\hat\mu}(x){F_{\hat\mu}(x)}^T]$ 。朴素Fisher 核为 $K_{\hat\mu}(x,x\prime)={F_{\hat\mu}(x)}^T F^{-1}F_{\hat\mu}(x\prime)$ 。在一些变体中，F 被替换为 $\alpha I$ ，其中 $\alpha$ 为比例系数。Fisher核的其他变体是通过使用Fisher分数函数 $F_{\hat\mu}(x)$ 作为 $x$ 的特征向量并将其插入标准核（如高斯径向基函数（RBF））中获得的。后一种“嵌入”在实践中似乎更有用。Fisher内核可以从不同角度激活（见（Jaakkola和Haussler，1999）），如作为 $x,x\prime$ 之间样本互信息的一阶近似（Seeger，2002年）。

2.3.3.3 协同训练

协同训练（co-training）由 Blum 和 Mitchell 提出（Blum 和 Mitchell, 1998），与早期在非监督学习上的工作有关系（Becker 和 Hinton, 1992）。其思想是利用被分类对象的不同“视图”（这里我们将自己限制为二进制分类， $c=2$ ，以及两个视图）。例如，一个网页可以由网页上的文本表示亦可由指向该网页的超链接文本表示。我们可以专门针对每一个视图分开训练分类器，但在这种情况下，未标记的数据 $D_u$ 可能会有所帮助，尽管缺少真正的标签，但对于所有视图来说，它必须是相同的。结果表明，协同训练可以看作是使用条件先验的贝叶斯推理的一种特殊情况（见第2.2.3节），如本节下文所示。

设 $\chi=\chi^{(1)}\times \chi^{(2)}$ 为一个有限的或可数的输入空间。如果 $x=(x^{(1)},x^{(2)})$ ， $x^{j}$ 为 $x$ 的不同视图。我们也提供概念 $\theta^{(j)}$ 的空间 $\Theta^{(j)}$ 。元素 $\theta = (\theta^{(1)},\theta^{(2)}) \in \Theta = \Theta^{(1)}\times \Theta^{(2)}$ 被称为 $\chi$ 上的概念，尽管可能对部分 $x=(x^{(1)},x^{(2)})\in \chi$ 有 $\theta^{(1)}(x^{(1)})\neq \theta^{(2)}(x^{(2)})$ 。当 $\theta^{(j)}$ 处成立时，我们写 $\theta (x)=\theta^{(1)}(x^{(1)})$ 。如果 $A\subset \chi$ ，我们说一个概念 $\theta = (\theta^{(1)},\theta^{(2)})$ 与 A兼容当 $\theta^{(1)}(x^{(1)})=\theta^{(2)}(x^{(2)})$ 对所有 $x=(x^{(1)},x^{(2)})\in A$ 。 $\Theta(A)$ 意旨所有与 A兼容的概念的空间。如果 $Q(x)$ 是 $x$ 的分布，支持向量为 $S=suppQ(x)=\{x|Q(x)>0 \}$ ，我们说一个概念 $\theta$ 与分布 $Q$ 兼容，当它与 S 兼容。

在协同训练设置中，有一个未知的输入分布 $P(x)$ 。目标概念 $\theta$ 采样自 $\Theta$ 上的某个未知分布，数据分布为 $P(y|x)=I_{\{\theta(x)=y \}}$ 当 $\theta \in \Theta(\{x \})$ ，1/2 其他。然而中心假设是目标概念 $\theta$ 是与输入分布 $P(x)$ 兼容的。更具体地说，概念分布的支持必须包含在 $\Theta(supp(P(x))\subset \Theta(D_u\cup X_l)$ 中，所以有效的概念空间可以由 $\Theta$ 缩小到 $\Theta(D_u \cup X_l)$ 。

我们证明了协同训练可以理解为具有条件先验编码相容性假设的贝叶斯推理。我们用 $\{P(x|\mu) \}$ 对 $P(x)$ 建模，为了便利引入了变量 $S=suppP(x|\mu)$ ，然后定义 $P(\theta|\mu)=P(\theta|S)$ 当 $P(\theta|S)=f_S(\theta)I_{\{\theta\in\Theta(S) \}},S\subset \chi$ ，这儿 $f_S(\theta)>0$ ，所有 $P(\theta|S)$ 都正确标准化的。例如，如果 $\Theta(S)$ 是有限的，我们选择 $f_S(\theta)= |\Theta(S)|^{-1}$ 。似然由 $P(y|x,\theta)=(1/2)(I_{\{\theta^{(1)}(x^{(1)})=y \} }+I_{\{\theta^{(2)}(x^{(2)})=y \} })$ （无噪声情况）给出。因为 $P(\theta|S)=0$ 对 $\theta \notin \Theta(S)$ ，条件先验编码相容性假设。对 $\theta$ 后验信念由 $P(\theta|D_l,D_u)\propto I_{\{\theta(x_i)=y_i,i=1,...,n \}}\int P(\theta|S) P(S|D_l,D_u)dS$ 给出，因此 $P(\theta|D_l,D_u)\neq 0$ 当且仅当 $\theta$ 与标记数据 $D_l$ 一致且 $\theta\in \Theta(D_u \cup X_l)$ 。就是说，如果 $\theta\notin \Theta(D_u \cup X_l)$ ，则对所有包含于 $D_u \cup X_l$ 的 $S$ 而言 $P(\theta|S)=0$ ， $P(S|D_u,X_l)=0$ 对其他的 S。另一方面，如果 $\theta\in \Theta(D_u \cup X_l)$ ，我们有 $P(\theta|\hat S) > 0$ 和 $P(\hat S|D_u,X_l)>0$ 至少对 $\hat S=D_u \cup X_l$ 成立。在Blum和Mitchell术语中， $suppP(\theta|D_l,D_u)$ 等于给定所有数据的“版本空间”。 $\Theta^{(j)}$ 上的学习方法的偏差可以编码在势函数 $f_S(\theta)$ 中。

一旦在具有条件先验的贝叶斯框架内理解了协同训练，就可以使用标准技术来执行推理。事实上，我们在（Seeger，2000年a）中表明，Blum和Mitchell提出的联合训练算法可以看作是上述概率模型上（顺序）EM 的变体。这种观点允许我们将协同训练归纳为多个维度，例如，允许噪音、更平滑的先验分布、使用批处理而不是在线训练、不确定而不是测试点上的固定标签等。有关详细信息，请参阅（Seeger，2000a）。

2.4 总结

在本章中，我们描述了一个简单的半监督学习方法分类法，并给出了每个类别的许多 SSL 方法示例。讨论了各组的优势和潜在缺陷。我们强调了在判别式贝叶斯 SSL 技术中使用条件先验的重要性，并给出了文献中提出的属于这一类的方法的几个例子。

2. 半监督学习方法的分类