写在前面的废话
这部分内容,是半年前就有询问的知识点,没想到我的拖延症如此严重,硬生生的让我把这篇稿子从19年拖到了20年。
但是有失必有得,虽然拖延,但是我对于这两个知识点的分辨也有了更清晰的认识,希望也能帮助大家更清楚的辨析。
太长不看系列
Probabiity(概率):给定某一参数值,求某一结果的可能性
Likelihood(似然):给定某一结果,求某一参数值的可能性
废话超多系列
概率(probability)和似然(likelihood),都是指可能性,都可以被称为概率,但在统计应用中有所区别,不加以区分的话,对于之后的学习认知都会有很大的阻碍。
为了更好的帮助自己和大家理解这二者之间的区别,希望通过三种方法去阐释:
- 图示
- 类比
- 举例
方法1:图示
假设现在有一组小鼠体重数据。该数据服从正态分布,该分布的均值是32克,标准差为2.5。该组数据的最小值是24g,最大值是40g。
那么概率是什么呢?当我们随机选取一只小鼠,它的体重在32g-34g之间的概率是落在该区间下,概率分布曲线下的面积。具体如下图所示:
图中,箭头所指的红色区域的面积,就是任选一小鼠,体重在32g-34g之间的概率。
该区域的面积为0.29,也就是说概率为29%。从数学上来讲,就是Pr(32g<体重<34g|μ=32 & σ=2.5)=0.29
那如果随机选取一只小鼠,体重超过34g的概率是多少呢?从数学上来讲,就是Pr(体重>34g | μ=32 & σ=2.5) = 0.21
。用图表示就是下面红色部分的面积:
讲完了概率,那么什么是似然呢?假设我们已经知道了一只小鼠的体重是34g。如图所示:
其中,红色的点代表的是小鼠的体重。而其likelihood则是其对应的曲线上的点,即:红色的叉,对应的值为0.12。用数学公式表示就是L(μ=32 & σ=2.5|体重34g) = 0.12
。也就是说,若小鼠体重为34g,该参数的可能是0.12
如果我们换一个概率分布,使用平均值为34,方差为2.5的正态分布呢?此时的似然值是多少呢?数学公式表示就是L(μ=34 & σ=2.5|体重34g) = 0.21
。用图表示,就是下图中红色点对应的红色十字的值:0.21
即:给定一个数据,不同的参数具有不同的似然概率。
方法2:类比
该方法,是quora上的一个回答。在该回答中,他将概率与似然的关系比作是2b和a2的之间的关系。
我们假设一个函数为ab,该函数包含两个变量。
如果你令b=2,这样我们就得到了一个关于a的二次函数,即a2:
如果令a=2,我们就得到了一个关于b的指数函数,即2b:
我们可以看到,虽然两个函数有着不同的名字,但是它们都来源于一个函数。同样的,概率和似然,也是如此:
p(x|θ)也是一个有着两个变量的函数。如果,我们将θ设为常量,则会得到一个概率函数(关于x的函数);如果,我们x设为常量,将得到似然函数(关于θ的函数)。
方法3:举例
假设,我们抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?用公式计算的话:
其中,n=10,P=0.5,Q=0.5,计算得:0.205。该方法计算的是概率
那似然呢?似然值就是求某一参数的可能性,放在本例中就是:抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?
抛10次,结果是6次正面向上,这是一个给定的结果。问“匀质”的可能性,即求参数值P=0.5的可能性。计算公式与上面相同。结果相同,只是视角不同
与似然相关联的概念是最大似然估计。在本例中,问题就是:“抛10次,结果是6次正面朝上,那么,参数P的最大可能值是什么?”
我们知道硬币可能是匀质的,也可能是不均匀的,甚至不均匀的程度都各有不同。但是每种情况的概率各不相同。而最大似然估计,就是求出概率最大的那一个。
如果你还记得最大似然估计的计算方法,你会发现P=0.6