推理机的学习也是推理机

前两篇谈到一个在分类（回归）深度学习的概率模型中极易产生混淆的部位，推理机是推理机，对推理机的学习过程是另外一回事，这种概念上的区分对于在思维中形成清晰的问题结构是非常关键的。

推理机的概率模型：

$p(y|x)$ (1)

用样本集合对它的学习（训练）的概率模型：

$argmax_{\theta} \prod\nolimits_{i=1}^n p(y^i|x^i )$ (2)

其中 $\theta$ 是参数化概率分布的参数，我们在这里对一般概率分布和参数化概率不再加以区分，而认为 $\theta$ 就是表示了一个一般分布的参数，虽然我们未必能够为这个参数赋予数学形式--这实际上是一个思想实验。具体的 $\theta$ 值在定义一个分布，机器学习的过程是在搜索这个分布。

那么，很自然地，我们可以把 $\theta$ 作为变量，并且是随机变量，既然是随机变量，它本身就有一个分布。有了这个概念，公式（2）中所描述机器学习的过程，实际上也是一个推理机结构。我们把样本集合标记为 $D$ , 把它本身作为一个随机变量。注意，这个随机变量是样本集合，而不是样本集合中的样本。这时学习就变成了推理：给出D的一个值，得到 $\theta$ 。这个推理机的概率模型是：

$p(\theta |d)$ （3）

所以，对推理机的学习本身也是推理，对应一个概率推理机，这个推理机也是一个条件概率分布，条件是样本集合变量。

昨天第二篇中提到，学习是要找到一个 $\theta$ 使得d最有可能出现，在这种方法中实际上我们并未真正获得这个完整的推理机，没有获得d出现时 $p(\theta |d)$ 这个概率分布，而是对这个分布做了最大似然点估计，most likelihood point estimation，在这个点上 $p(d|\theta )$ 最大。真正获得这个分布的方法叫贝叶斯方法，得到的是公式（3）这个分布，并且取概率最大的那个 $\theta$ ，它与点估计所获得的 $\theta$ 之间有一个距离：

$p(d|\theta) = p(\theta|d) p(d)/p(\theta )$

关于贝叶斯方法，那是另外一个故事了。

今天我们看到，推理机的学习也是推理机，这种概念递归下去就是关于meta learning，architecture learning以及hyperparameter learning。但那又是另外一个故事了。

最后编辑于：2021.02.01 12:05:08