时间:2018-08-13
作者:魏文应
一、概 率
概率在机器学习中是比较重要的。但是对于程序员来说,要快速尝试使用机器学习软件包,一开始就不太可能花一个月的时间去研读概率论。下面的讲解相对于教科书来说,实在是不严谨,但可以达到快速理解并简单应用的效果。等你有时间再回过头来慢慢研读概率论吧,先看下面内容,然后快速去尝试代码。
条件概率
在B事件发生的情况下,A事件发生的概率:
就叫做 条件概率。比如,已知小明感冒了,小明可能会流鼻涕,那么条件概率 P(流鼻涕 | 感冒) 表示的就是 已知小明感冒了 的情况下,小明会流鼻涕的概率 是多少。
乘法公式
下面的等式 很简单,但是比较重要,多考虑几遍,我们后面会用到:
叫做 积事件,表示A、B两件事同时发生, 表示事件A和事件B 同时发生的概率。怎么理解这个公式呢?举个例子:假如你和你女朋友是一个班的,一个学期 有 节课,你去上课的次数 是 节课,你和你女朋友一起上课的次数 是 节课。那么,你去上课 的概率 ; 你和你女朋友同时 上课的概率是 ; 当我发现 你在上课(我还没有发现你女朋友,她可能和她闺蜜坐一起),那么 你女朋友也在上课 的概率是 。这个等式就是:
上面公式,写成乘法的形式,就是所谓的 乘法公式 :
相同道理,还可以这么写:
样本空间
所谓样本,就是研究的对象,就是 结果;所谓空间,就是 范围。样本空间就是 结果的取值范围。比如我摇色子,摇出的结果的取值范围是 {1, 2, 3, 4, 5, 6},那么它的样本空间就 {1, 2, 3, 4, 5, 6} 。样本空间 用S表示:
事 件
事件,就是发生了某一件事情。比如摇色子,发生的结果只能是 {1, 2, 3, 4, 5, 6},你总不能摇个7出来吧。你可以把 凡是摇到 1 的结果 称为 事件 (也就是摇到1这件事发生了),凡是摇到 2 的结果称为 事件 。当然,你也可以将摇到 {1, 2, 3} 的结果 称为事件。
划 分
划分,字面意思就是 划界限分类,给什么划分呢?就是给 结果划分。比如摇色子,发生的结果是 {1, 2, 3, 4, 5, 6},我们可以分成{1, 2, 3}、{4, 5, 6},也可以分为{1, 2}、{3, 4, 5, 6},还可以分为{1, 2, 3, 4, 5}、{6} 等等。上面的每一种分法,就是不同的 划分。上面说过,对发生结果起一个文绉绉的名称,叫做样本空间。所以,上面的每一种分法,就叫做 样本空间S的一个划分。你会发现,划分是 包含所有发生的结果 的,而且 不重复。比如:{1, 2, 3}、{4, 5} 这个 就不是一个划分,{1, 2, 3}、{3, 4, 5, 6} 也不是一个划分。
全概率公式
条件概率 是已知发生事件A的情况下,求发生事件B的概率。而 全概率,是 在已知事件 、、 这n件事情都有可能发生,但还不知道这几件事中 哪一件事将要发生的情况下,求发生事件A的概率。比如:摇色子,连摇两次,摇第一次的结果,我知道摇到的肯定是 {1, 2, 3, 4, 5, 6} 中的一个,但我 还不知道 具体是哪一个数。再摇第二次,求第二次摇到 {7} 的概率是多少(当然,凭借常识你知道概率是0)?但是我们还是用公式算一下:
其中 的意思是:已知第一次 摇到1 的情况下,第二次摇到7的概率。把 六种情况 加起来,就是第二次摇到7的 概率 了。上面讲解的是全概率的含义,全概率公式 如下:
其中 、、、 是 一个划分 。拿上面的例子来说,这个划分也就是第一次摇色子所有可能的结果:{1}、{2}、{3}、{4}、{5}、{6}。当然,你也可以这么划分{1, 2, 3, 4, 5, 6},只划分为一个。上面只是举了个例子,说明实际中的含义而已。事实上,全概率公式是 可以推导 出来的,我们先看下面公式:
咋一看,有点蒙(对于把概率论忘得差不多的程序员来说),上面的公式是什么呢?字面的意思就是:A和 同时发生,或者A和 同时发生,或者A和 同时发生,这些所有情况加起来,就是发生事件A的所有情况。 比如:上面摇色子的例子来说,S就是 第一次摇的所有结果,这些结果肯定在 {1, 2, 3, 4, 5, 6} 中产生,这是必然事件,S=1。事件A 就是第二次摇到 {7} 这件事。 在这里表示或的意思,发生,或发生,或 发生,这种称为 和事件。有了上面的解释,从 概率的角度,很容易得到下面的等式:
这就是全概率公式的推导。这个公式有什么用?用途就是:比如,你想知道我是一个土豪的概率是多少,你肯定不能直接知道这个概率,而往往是从我的日常生活中慢慢统计,比如从我买东西的角度统计,P(我是土豪) = P(土豪 | 兰博基尼)P(兰博基尼) + ... + P(土豪 | 飞机)P(飞机)。最终,通过这些信息,间接算出我是土豪的概率。
贝叶斯公式
有了上面 条件概率 和 全概率 这两个概念,条件概率公式如下:
全概率公式如下:
那么,就会有下面这个式子,这个式子就是 贝叶斯公式:
其中, 是求和符号,从下角标从1开始,一直加到n为止(n的值根据划分而定):
贝叶斯公式是由 条件概率公式 和 全概率公式 推导出来的。这也导致了贝叶斯公式对应的现实意义 没有那么直观。这个公式在 机器学习里用的很多,我们应该要理解其现实生活中的含义。下面举个例子,就说一个女孩子可能喜欢你这件事。她喜欢你,有很多种原因:你 长得帅、长得高、比较幽默 等等。她喜欢你的概率:
通过上面的 各种原因 的分析,得到的结果 就是她喜欢你的概率。对比一下,你就会发现,这是一个全概率公式。这就是 由于什么样的原因,可能得到什么样的结果。高、帅、幽默这些因素,我们可以 根据经验 就可以知道,在影响一个女孩喜欢你这件事上,各个因素的影响比重有多大。比如,在这女孩心中,帅气重要一点,那么 P(喜欢 | 帅) 的值就大一些,而你的帅气程度决定了 P(帅) 的值。那么关于你的帅气对她的影响就是 P(喜欢 | 帅)P(帅) 的值。现在反过来,你 知道那个女孩有多喜欢你,你想知道她为什么喜欢你,你在想,是不是因为你长得比较帅,所以她喜欢你呢?你决定算一下这个概率:
上面这个式子很好理解,上面说过,P(喜欢 | 帅)P(帅) 是你的 帅气 对这个女孩的影响,它是 P(喜欢) 的组成部分,也就是帅气是影响喜欢的原因之一。那么,用 P(喜欢 | 帅)P(帅) 除以 P(喜欢),就能知道帅气在所有导致喜欢的因素中 占的比重 是多大,这个比重 就是P(帅 | 喜欢)。对比一下,你会发现上面的式子就是贝叶斯公式。重新写一下:
下面,就对上面这个公式进行说明:
先验概率: 帅气是天生的,和女孩子喜不喜欢你没有关系,它是根据我们的常识,知道你的帅气在你所有的优缺点中占的比重是多大,也就是 是根据我们以前的经验知道的。正因为它是根据我们以前的经验得到的,所以它被叫做 的 先验概率 。
标准化常量 : 女孩子喜欢你的程度,你是通过某些途径知道的,比如女孩告诉你,她有多喜欢你,所以 是已知的。你到底多帅还要根据经验分析一波,而 这个值,你连分析都不用,女孩子直接就告诉你了,所以这个 被称为 标准化常量。其实, 就是 A 的先验概率,只是它给出的方式不一样,直接告诉你一个值,相当于一个常量一样。
后验概率: 你是通过女孩告诉你,她有多么喜欢你以后,知道了P(喜欢)的值,才分析出帅气在所有影响喜欢的因素中占的比重,所以 被称为 的 后验概率。
似然度 : 似然,是由 likelihood 这个单词直译过来的。文言文中,似,就是像,然,就是样子,似然就是像什么什么的样子。翻译得有 争议性,有人认为 翻译得不准确。likelihood 的意思,是可能性。 就是一个概率值而已,也就是可能性的大小,所以 似然度 可以理解为 概率值的大小。其实, 就是 A 的后验概率。
所以贝叶斯公式可用文字表示为:
先验概率
先验概率就是:
根据以往经验和分析得到的概率。
举例和说明,在上面的 贝叶斯公式 里已经讲过了,可以参考上面的说明。
后验概率
后验概率就是:
某件事情发生了,引起这件事发生的原因很多,这件事情发生是由原因A引起的概率,这个概率就被称为 后验概率。
举例和说明,在上面的 贝叶斯公式 里已经讲过了,可以参考上面的说明。
二、参考文章
概率知识请参考:
《概率论与数理统计(第四版 )》- 浙江大学
《概率论与数理统计(陈希孺)》
《似然是一种错误的说法》- 朱钰、杜一哲 西南财经学院《统计与信息论坛》