如果得到了输入变量X和输出变量Y的联合分布,p(X,Y),推理就是简单的概率运算p(Y|X)。机器学习中这个联合分布是未知的,可见的是一个D:(xi,yi)的样本集合,现在的问题是,给出一个x,它不在样本集合中,让你估计出一个y。
前几篇谈到机器学习问题是在所有可能的概率分布中找到一个分布,使得p(D)概率最大,也就是最大。现在让我们直击问题本身:如果除了问题本身给出的样本集,没有任何其他假定条件存在,这时我们干脆就构造一个分布 :
这个分布使得样本集出现的概率是1, 除此之外的任何样本集出现的概率都是0。 这个分布的潜台词是:我只承认我所见到的;只有我已经见到的才是已经发生的和可能发生的。用它作为推理机,给出x,这个x不在样本中,那么任何y的p(y|x)都是0。这个推理机没有任何推理能力,但它确实使得已知样本集以最大概率1出现。
这个没有任何推理能力的分布被称为经验分布,这个分布是一个纯粹的以样本集这个当前经验为唯一条件的分布,没有利用任何其他先验知识为条件。但问题在于,我们的问题也并未给出其他条件,经验分布这个回答是没有任何毛病的。正是因为这种情况,“给出一个x,它不在样本集合中,让你估计出一个y”这个问题是一个傻瓜问题,英文是ill-posed。
统计推理,以及机器学习,当然不是在回答一个毫无意义的傻瓜问题。为了使得答案有意义,必须为p(x, y)或p(y|x)做一些假定,引入先验知识,这些先验知识在第一篇有所罗列。
离开先验就没有统计推断和机器学习。建立先验知识的概念至关重要。