Machine Learning & 概率 & 随机变量 & 概率分布 & 事件的独立性

概率于Machine Learning而言还是比较重要的,但是概率的难点在于,其不够直观,那么换一个视角,我们称之为"上帝视角",将概率转化为面积,这样便会变的直观;

1.概率的定义

概率,顾名思义就是某事件发生可能性的一种量化,这是我们最直观的感受;

下面从一个比较经典的案例来作为引入 --- 蒙提霍尔问题:

有ABC三扇门,其中有一扇是正确的门,打开有一辆豪车,其余两扇,门为错误的门,门内有山羊:
前提:骰子1,2对应门1;骰子3,4对应门2,骰子5,6对应门3

    1. 主持人通过投骰子,决定将豪华车放入哪个门内
    1. 选手通过掷骰子决定打开那一扇门
    1. 选手选择完毕之后,主持人会打开剩余两扇门中错误的一扇门,然后询问选手是否改变主意

下面来看概率:

  • 如果第一次选择正确,重选必定错误
  • 如果第一次选择错误,重选必定正确

所以"第一次选择错误"的概率就是"重选后正确"的概率,其重选的正确率就是 2/3

但是其实也会有另一种误区:

第一选择完毕后,主持人打开一个错误的门,那么此时就剩下一个错误的门和一个正确的门,此时重选的概率就是:
假如主持人打开的错误门是门1;

  • 门2是正确答案的概率: 1/2
  • 门3是正确答案的概率: 1/2

但是仔细一想,这种概率是建立在,选手没有进行第一次选择的基础上进行的;

2.飞艇角度来看蒙提霍尔问题

正如上面的误区,概率是一个抽象的东西,有时候我们会掉进这个误区中出来

概率是一种抽象的概念,如果我们仅仅凭直觉判断,很难清晰理解它的本质

我们的思路是这样:
1.转换视角来看待这个问题(这里是飞艇视角)
2.尽量把问题转换成一种可以实际衡量的形式

场景是这样的:
  • 将剧本设定为360个会场中有120个会场的门1是正确答案,120个会场的门2是正确答案,120个会场是门3是正确答案
  • 然后门1是正确答案120个会场中,有40个挑战者选择门1,有40个挑战者选择门2,有40个挑战者选择门3
挑战者选择门1 挑战者选择门2 挑战者选择门3
主持人 打开门2 打开门3 打开门1 打开门3 打开门1 打开门2
门1是正确答案 20个会场 20个会场 0个会场 40个会场 0个会场 40个会场
门2是正确答案 0个会场 40个会场 20个会场 20个会场 40个会场 0个会场
门3是正确答案 40个会场 0个会场 40个会场 0个会场 20个会场 20个会场

根据上表,我们来复原刚刚的误区:

  • 1.挑战者选择门3
  • 2.主持人打开门1的有60个会场
  • 3.其中门2是正确答案是40个,门3是正确答案是20个,所以证明刚刚是错误的
3.上帝视角来看概率
  • 这时候我们需要来看一个概念三元组:
    (\Omega,F,P)
    何为上地视角,其实就是一种鸟瞰的视角,每一个会场(其实就是一个世界,也可以认为一种可能出现的场景就是一个世界),对于特定的世界来说,当前世界的剧本已经被锁定;
    举一个简单的例子:
    随机投一枚骰子,共有6种结果:结果为1是一个世界,结果为2也是一个世界,同理3,4,5,6 亦是如此...,而我们从"上地视角",俯瞰这些世界;

  • 场景:投硬币

概率.png
  • 每个世界的抛硬币的结果是永远不变的
  • 然后人们不知道身处哪一个世界,所以不确定性就会产生

到目前为止,我们便已经将一个抽象的概念:概率,转化为一个可量化的概念(面积量化)

这里我们来用几个数学符号:

\Omega:代表所有平行世界的合集,也就是所有可能场景的集合; \omega是每一个世界的映射.eg: \omega1, \omega2...
P是每一个世界的面积,这里我们需要知道所有的平行世界的面积为1,或者可以这样理解,\Omega是所有平行世界的合集,
当然从数学角度来看他只是一个面,\Omega是点的集合,对于\Omega中人意一点A,其发生的概率,就是其所在区域的面积,用P(A)表示
这样的话就知道三元组的第一个和第三个参数意义,第二个参数这里暂且跳过

这样概率便转化为面积,任何量化的东西,要比抽象的概念理解起来更加舒服,深刻;
这里补充一下,每个世界\omega可以理解为样本,由所有平行世界组成的\Omega就是样本空间,\Omega的子集A就是事件,我们日常的讨论的概率应当是基于事件取量化的

4.随机变量 & 概率分布

4.1 随机变量

注意这里的子集A仅仅是平面上的一个点,我们称为样本点或者基本事件会更加合适一些,打个比方,投掷硬币为正面向上的区域有无数个点,而当前的事件应该是正面朝上的事件,而点A仅仅是构成事件的样本点而已;

所以进一步来看,随机事件是会随机改变的不确定点,他也是由某个世界中的点集表示,所以随机事件应该是关于\omega的函数,即为:

f(\omega)

4.2 概率分布

随机变量是基于具体的平行世界的,相对的概率分布只考虑面积,比如投掷硬币:

  • 正面:0.5
  • 反面:0.5
5.事件的独立性

其实可以这样表述这个定义:事件A和时间B,如果P(A|B) = P(A|非B),那么我们就认为事件A和事件B相互独立

下面来介绍几个等价表诉:

  • A与B相互独立
  • P(A|B) = P(A|非B)
  • P(A|B) = P(A)
  • P(A,B) = P(A)P(B)
  • P(A,B):P(A,非B) = P(非A,B):P(非A,非B)

所以判断事件A B 是否独立可以利用上诉的任意等价表诉来进行判断

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容