推理机的学习也是推理机

    前两篇谈到一个在分类(回归)深度学习的概率模型中极易产生混淆的部位,推理机是推理机,对推理机的学习过程是另外一回事,这种概念上的区分对于在思维中形成清晰的问题结构是非常关键的。

    推理机的概率模型:

                                                                p(y|x)                                          (1)

    用样本集合对它的学习(训练)的概率模型:

                                            argmax_{\theta}  \prod\nolimits_{i=1}^n p(y^i|x^i )                          (2)

    其中\theta是参数化概率分布的参数,我们在这里对一般概率分布和参数化概率不再加以区分,而认为\theta就是表示了一个一般分布的参数,虽然我们未必能够为这个参数赋予数学形式--这实际上是一个思想实验。具体的\theta值在定义一个分布,机器学习的过程是在搜索这个分布。

    那么,很自然地,我们可以把\theta作为变量,并且是随机变量,既然是随机变量,它本身就有一个分布。有了这个概念,公式(2)中所描述机器学习的过程,实际上也是一个推理机结构。我们把样本集合标记为D, 把它本身作为一个随机变量。注意,这个随机变量是样本集合,而不是样本集合中的样本。这时学习就变成了推理:给出D的一个值,得到\theta。这个推理机的概率模型是:

                                            p(\theta |d)                                                            (3)

    所以,对推理机的学习本身也是推理,对应一个概率推理机,这个推理机也是一个条件概率分布,条件是样本集合变量。

    昨天第二篇中提到,学习是要找到一个\theta使得d最有可能出现,在这种方法中实际上我们并未真正获得这个完整的推理机,没有获得d出现时p(\theta |d)这个概率分布,而是对这个分布做了最大似然点估计,most likelihood point estimation,在这个点上p(d|\theta )最大。真正获得这个分布 的方法叫贝叶斯方法,得到的是公式(3)这个分布,并且取概率最大的那个\theta,它与点估计所获得的\theta之间有一个距离:

                p(d|\theta) = p(\theta|d) p(d)/p(\theta )

    关于贝叶斯方法,那是另外一个故事了。

    今天我们看到,推理机的学习也是推理机,这种概念递归下去就是关于meta learning,architecture learning以及hyperparameter learning。但那又是另外一个故事了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容