时间:2018-08-20
作者:魏文应
一、说明
上一节,我们说过,似然这个词是从 likelihood这个词直译 成中文的。有学者认为译得不好,词不达意。似然,文言文中,似就是像,然就是样子,似然就是像什么什么的样子。而likelihood这个单词,英文中是可能性的意思,其实它说的就是 可能性的大小。所以,似然在这里,就是指概率的意思,最大似然估计 就是 最大概率估计。那么,我们要对什么事件发生的概率进行估计呢?这就是本节要讨论的内容。
二、预备知识
说明最大似然估计之前,我们需要一些预备知识。这些预备知识都 比较简单,但对于普通程序员来说,应该忘得差不多了。我们下面来回忆一下,相对于教科书,我讲的内容是不严谨的,只是说出是什么意思就够了。
随机变量
这个比较简单,就是 随机发生的事情。比如,你约一个女孩子吃饭,一共约了5次。成功的次数有下面6种情况:X = {0,1,2, 3, 4, 5}。这里的 X
就是 随机变量,它的值可以是 {0, 1, 2, 3, 4, 5} 中的任意一个。
离散型随机变量
离散,顾名思义,就是 分离的、散开的。比如 {1, 2, 3, 4,5} 就是离散的,{0 < x < 10} 这个 x 的取值就是连续的:
分布律
分布律,也就是 分布规律。我们用 表示一个事件,比如下面式子:
这个式子的意思就是,发生 这件事的概率是 。上面我说,你约女孩子5次,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况, 可取的就是这些值。上面式子可以反映 取不同值时概率 的情况,也就是分布情况,正因为如此,这个式子被称为 X 的分布律。说白了,一件事情会发生各种情况,每种情况发生的概率用式子表示出来,这个式子其实就是根据概率分布情况统计出来的规律。只要能表示概率发生的规律,你 用表格表示 出来也是可以的,也可以叫做 X 的分布律。
分布函数
分布律是用一个式子表示概率分布的情况,其实我们也可以 用一个函数来表示概率的分布情况,我们把这个函数叫做 分布函数。不过,分布函数的定义有点不走寻常路:
这是什么意思呢?一件事情发生有很多种可能,我们把这些可能的情况进行依次编号,从小到大排列这些编号,你指定一个编号 ,有一些情况的编号小于等于,把这些事件发生的概率都加起来,得到的和就是 分布函数 。还拿你约女孩子5次这件事来说,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况,比如 表示小于等于1次的概率,这个概率就是: 。
上面是关于你约会的概率分布函数,它假设了每种情况发生的概率为 。
数学符号 和
有时候可能会忘记 和 是什么意思。这两个的意思都是一样的,都表示 差值 :
比如,函数 求导以后的导函数,可以表示为:
定积分
定积分用来干嘛的?你可以把它看做是用来求面积的,虽然它远远不止用于求面积。比如下面的图:
曲线 、坐标 轴构成、 直线 、直线 围成上面 阴影部分的面积。为了求这个面积,我们随便定义一个公式,写法如下:
首先,我们把阴影部分面积看作是由很多 矩形组成 的。用 表示矩形的高,用 表示矩形的宽,宽乘以高就是其中一个矩形的面积 ,把所有矩形都加起来,就是阴影面积 。如果有无数个矩形,不断地细化,使得矩形顶部接近曲线 ,这样,我们就可以用 来替代 。 就是高 , 就是宽 , 的范围就是 , 表示从 a 的位置开始,面积不断相加,直到 b 的位置为止。这时你已经知道什么是定积分了,但 怎么方便地计算出来 的呢?总不能老是这么一个一个加吧!下面我们来看一个矩形的面积大小:
把上面这个公式写成下面形式:
上面这个公式,是不是很眼熟? 这个就是 导数的定义,高中大家就学过了。这就是说, 是某个函数求导以后得到的:
看上面式子, 。所以,上面阴影部分的面积,在 a 到 b 之间:
因为 是由 求导 , 所以把 称为 的 原函数 。也就说,只要求得 的原函数 ,就可以求得不定积分的值了,也就是阴影部分的面积:
上面公式就是 不定积分的计算方法(牛顿-莱布尼茨公式)。但问题来了,怎么找到 的原函数 呢?我们知道,常数项求导以后,就没有了,比如 ,求导以后得到 ,那个 1 就没有了,也就是说:
这个也是 原函数,不过数学上,给它起了一个名字,叫做 不定积分。原函数 叫做 的 不定积分 。还把它写成下面这种形式:
事实上,定积分计算不需要不定积分的常数项,你看:
压根没有常数 C 什么事。正常情况下,我们都是根据经验,求得原函数的。比如: 求导可以得到 ,那么 的原函数就 。数学上应该有一些方法,可以计算得到原函数,我们不深究,用到了你查一查就知道了。
概率密度
讲概率密度前,我们先说 连续随机变量。日常生活中,比如你的体重是71kg,但真的是71kg吗?可以这么说,绝对不是71kg,它可能是71.0001kg,也可能是71.002kg。所以,可以说 P{体重 = 71kg} = 0 。 但你可以说你的体重在 70kg 到 72kg 之间,这个概率就非常大,因为你用秤称得71kg嘛。对于体重这种 连续的变量,我们一般估算的是它在 某个范围的概率值,而不关心具体某个具体值发生的概率值。我们说,分布函数是从左到右把各种情况发生的概率加起来,加到你指定的那个位置为止:
我们用 条柱的面积 表示 概率的大小。图中的F(X)函数反映的是,从左边往右,把一个个条柱面积相加得到的和的变化曲线。最终,把所有可能的概率加起来,概率和 F(X) = 1。把概率P平滑处理了以后,就是 概率密度f(x)了,阴影部分的面积,就是全部概率的和,值为1。
这么说,计算分布函数 ,就是将阴影部分面积加起来。那阴影部分面积怎么计算?上面讲了不定积分,不定积分公式可以计算这种不规则的图形的面积:
是 的导数,我们把它叫做 的 概率密度 。。生活中,人口密度反映了各个地区人口分布情况,知道哪个地方人口比较集中,哪个地方人口比较稀疏。同样的,概率密度直接反映了概率的分布情况,在某个 区间, 的值越大,说明这个区间发生某件事的概率越大。
如果你想求在某个区间内,发生某件事的概率,那么就是: 。对应于上面 概率密度函数f(x) 图中的分红色区域,这区域的面积,就是发生在 这个区间的概率。