前两篇谈到一个在分类(回归)深度学习的概率模型中极易产生混淆的部位,推理机是推理机,对推理机的学习过程是另外一回事,这种概念上的区分对于在思维中形成清晰的问题结构是非常关键的。
推理机的概率模型:
(1)
用样本集合对它的学习(训练)的概率模型:
(2)
其中是参数化概率分布的参数,我们在这里对一般概率分布和参数化概率不再加以区分,而认为就是表示了一个一般分布的参数,虽然我们未必能够为这个参数赋予数学形式--这实际上是一个思想实验。具体的值在定义一个分布,机器学习的过程是在搜索这个分布。
那么,很自然地,我们可以把作为变量,并且是随机变量,既然是随机变量,它本身就有一个分布。有了这个概念,公式(2)中所描述机器学习的过程,实际上也是一个推理机结构。我们把样本集合标记为, 把它本身作为一个随机变量。注意,这个随机变量是样本集合,而不是样本集合中的样本。这时学习就变成了推理:给出D的一个值,得到。这个推理机的概率模型是:
(3)
所以,对推理机的学习本身也是推理,对应一个概率推理机,这个推理机也是一个条件概率分布,条件是样本集合变量。
昨天第二篇中提到,学习是要找到一个使得d最有可能出现,在这种方法中实际上我们并未真正获得这个完整的推理机,没有获得d出现时这个概率分布,而是对这个分布做了最大似然点估计,most likelihood point estimation,在这个点上最大。真正获得这个分布 的方法叫贝叶斯方法,得到的是公式(3)这个分布,并且取概率最大的那个,它与点估计所获得的之间有一个距离:
关于贝叶斯方法,那是另外一个故事了。
今天我们看到,推理机的学习也是推理机,这种概念递归下去就是关于meta learning,architecture learning以及hyperparameter learning。但那又是另外一个故事了。