令代表随机变量的观测值,香农信息论告诉我们:该观测值的信息量为。然而,在统计学中概率分布往往是未知的,特别地,当分布含未知参数时,不同的参数值就对应着有不同的条件概率,从而意味着不同的信息量。我们很自然地想到,可以给参数值设定一个具体信息量来反映这种差别。
但是,上述方法不适用于处理参数值:首先,它不是可观测量,即便我们用贝叶斯观点赋予它一个分布,如何避免主观偏倚仍是问题。其次,使用正规模型时,可计算的点估计量和参数值服从的分布往往是大相径庭的。如果使用参数值的分布来定义信息量,那将与实际可行的统计推断流程背道而驰。区别参数值和对其的点估计,是搞清问题的关键。
在推定值前,我们用先验分布表示其不确定状况,由贝叶斯公式可得到。从而得出“推定前”信息量。
推定过程实际上就是用基于观测值的点估计去代换上文中的,从而得出条件概率(非贝叶斯派称其为似然)。当似然较大时它给出更小的信息量。然而,新的概率分布需要更换新的编码来适应,所以此时除了记录观测值外,还需要额外信息来记录点估计,它的值指明了更换到哪一个条件分布。总之:
在推定值后,我们记录两部分信息:前者是点估计,其信息量为。式中概率同样可用贝叶斯公式求得:。后者是观测值的新编码,其长度为。两者的总和即是“推定后”信息量。
推定前后信息量之差:
可定义为参数值的信息量。我们可以利用其数值作为选取点估计方法和评价先验的依据。
通常的统计决策论是用风险最小化(有时表述为效用最大化)来确定估计方法的。在取值数均有限的特殊情形,可表述为将值域划分为多个独立子集的问题,每一独立子集对应一个不同的估计值,适当的划分可由下列的优化问题解出:
式中是适当的损失函数,损失函数本身也要满足一定的要求,它们是上述优化问题未列出的约束条件。一般情况下,该问题是NP困难的,从而求出风险最小的消耗的计算时间,可能会随取值数呈指数增长(根据强指数时间假设SETH)。
然而,从另一个角度来考虑:动用如此庞大的计算资源,是与参数值本身的信息量不相配的。我们提议这样的原则:估计量的计算复杂度应该与该估计量求得的信息量相适配(例如:相差不超过多项式函数)。