现在考虑一个概率密度,它对应于一个关于新变量y的概率密度
,这充分的表示
和
实际上是两个不同的密度。落在范围
的观察值(对一个小的
)将被换到范围
,其中
,因此
这个特征的一个结果是概率密度的最大值的概念只取决于变量的选择。
在间隔(-∞,z)x的概率由累积分布函数定义为
满足 ,如图1.2所示。
如果我们有一些连续变量,整体记作向量x,然后我们可以定义一个联合概率密度
,使得x落在包含x的无穷小体积
内的概率由
给出。这个多元概率密度一定满足
其中,积分必须在整个x空间上进行。我们也可以考虑离散变量和连续变量相结合的联合概率分布。
注意到如果x是个离散变量,那么p(x)有时被叫做概率质量函数,因为它可以被看做集中在x的允许值的一组概率质量的集合。
概率的求和和乘积规则以及贝叶斯定理,同样适用于概率密度的情况,和离散和连续变量的组合的情形下。例如如果x和y是两个实变量,那么求和和乘积规则采取如下形式。
对连续变量求和和乘积规则的正式证明(Feller,1966)需要一个叫做测度论的数学分支,这不在本书的范围之内。然而,它的正确性可以被非正式地看到,通过将每个实变量除以宽度为Δ的区间,并考虑这些区间上的离散概率分布。取极限Δ→0,然后将和转化为积分,就得出了期望的结果。
1.2.2 期望和方差
涉及到概率的一个重要的操作是找到函数的加权平均值。在概率分布p(x)下,若干函数f(x)的平均值被称为函数f(x)的期望,并用表示。对一个离散分布,形式为
所以平均值是不同x值的相对概率的加权。在连续变量的情形,期望被表示为相应概率密度的积分。
在这两种情况下,如果我们从概率分布或概率密度中得到有限的N个点,那么期望可被近似为这些点的有限加和。
在第十一章讨论抽样方法时,我们将经常使用这一结果。当时,(1.35)中的近似变得精确。
有时我么将考虑多变量函数的期望,在这种情况下,我们可以使用一个下标来表示哪个变量被取平均,比如说
表示函数f(x,y)关于x的分布的平均值,注意是一个y的函数。
我们也可以考虑关于条件分布的条件期望,
对于连续变量有类似的定义。
f(x)的方差定义
并提供了一个f(x)在它平均值附近变化程度的度量。把平方项展开,我们看到方差可以被写为和
的期望的形式。
特别的,我们可以考虑变量x它自己的方差,这被给为
对两个随机变量x和y,协方差被定义为
(
)
这表示x和y共同变化的程度,如果x和y是独立的,那么它们的协方差是0。
在随机变量x和y的两个向量的情况下,协方差是一个矩阵
如果我们考虑向量x各分量之间的协方差,那么我们使用稍微简单一点的符号。
1.2.3 贝叶斯概率
本章目前为止,我们已经从随机、可重复事件的频率来看待概率。我们将把这称为概率的经典或频率论解释。现在我们转向更一般的贝叶斯观点,其中概率提供了不确定性的量化。
考虑一个不确定的事件,例如,月球是否曾经在自己的轨道上围绕太阳运行,或者北极冰盖是否会在本世纪末消失。这些事件不能重复很多次来定义概率的概念,就像我们之前在水果箱的例子中做的那样。然而,我们通常会有一些想法,例如,我们认为极地冰融化的速度有多快。如果我们现在获得新的证据,例如从一颗新的地球观测卫星收集到新形式的诊断信息,我们可能会修改我们对冰盖融化速率的看法。我们对这些问题的评估将影响我们采取的行动,例如我们努力减少温室气体排放的程度。在这种情况下,我们希望能够量化我们对不确定性的表达,并根据新的证据对不确定性进行精确的修正,以及随后能够采取最佳行动或决策。这一切都可以通过优雅的,非常普遍的概率的贝叶斯解释来实现。
然而,使用概率来表示不确定性,并不是一个临时的选择,而是不可避免的,如果我们要尊重常识,同时做出合理的连贯推论的话。例如,Cox(1946)证明了如果用数值来表示置信度,那么一套简单的公理就可以编码这种置信的普遍特征,从而唯一地推导出一套操作置信度的规则,这相当于概率的加和与乘积规则。这提供了第一个严格的证明,即概率论可以被视为布尔逻辑在涉及不确定性情况下的延伸(Jaynes, 2003)。许多其他作者提出了不同的性质集或公理集,这些性质或公理是不确定性的度量应该满⾜的(Ramsey, 1931; Good, 1950; Savage, 1961; deFinetti, 1970; Lindley, 1982)。在每一种情况下,所产生的数字量都精确地按照概率的规则来表现。因此,将这些数量称为(贝叶斯)概率是很自然的。
在模式识别领域,对概率有一个更加通用的观点同样是很有帮助的。考虑第1.1节中讨论的多项式曲线拟合的例子。对于观察到的变量这⼀随机值的概率,应⽤频率学家的观点似乎是很合理的。然而,我们希望解决并量化围绕模型参数w的适当选择的不确定度问题。我们将看到,从贝叶斯的角度来看,我们可以使用概率论机制来描述诸如w等模型参数的不确定性,或者说是模型选择本身的不确定性。
贝叶斯理论现在获得了一个新的意义。回顾一下,在水果盒子的例子中,对水果种类的观察提供了相关的信息,改变了所选盒子是红色的概率。在这个例子中,贝叶斯定理被用来将先验概率转换为后验概率,并将观察到的数据所提供的证据纳入其中。我们将在后面详细说明,在对诸如多项式曲线拟合例子中的参数w等量进行推断时,我们可以采用类似的方法。在观察数据之前,我们以先验概率分布p(w)的形式捕获关于w的假设。