概率统计组队学习 之 随机事件与随机变量

摘要:随机事件、随机变量の学习笔记

涉及概念:随机事件,概率,古典概型,条件概率,全概率公式,贝叶斯公式,随机变量,伯努利实验,二项分布,数学期望,方差,协方差,相关系数
预警:笔记很长!(然鹅只是知识海洋中沧海一粟)
   此文包含一堆文字定义和公式 (一遍读不顺就多读几遍😁)

一、随机事件

 1. 基本概念

   i. 随机现象:一件事情在某条件下的结果不能预先完全确定,只能确定
         是多种可能结果中的一种。
        (例如:抛一枚硬币是一个随机现象 – 因为结果可能是正面,
         也可能是反面)

   ii. 随机试验(E):随机现象的实现和对它观察的全过程。
              满足条件
              1. 可以在相同条件下重复进行
              2. 结果有多种可能性且所有可能结果事先已知
              3.做一次试验究竟哪个结果出现事先不能确定
   iii. 样本空间(\Omega):随机试验的所有可能结果组成的集合。
   iv. 样本点(\omega):[读作omega]  随机试验的每一个可能的结果。
   v. 随机事件(A, B, C….):样本空间中满足一定条件的子集。
                  随机事件可能出现也可能不出现。
   vi. 必然事件:每次试验中总是发生的事件。
         (比如样本空间(\Omega)为必然事件,因为其包含了所有
          样本点,构成该事件的一个样本点必然会出现)

   vii. 不可能事件:每次试验中总不发生的事件。
          (比如空集(\phi)为不可能事件,因为不包含任何样本点)
   🍩举个栗子
      扔一枚六面的骰子:
      随机现象:扔一枚骰子,可能出现1,2,3,4,5,6中任意一个数字
      随机试验:扔一枚骰子,观察出现的点数
      样本空间:\Omega={1,2,3,4,5,6}
      样本点:出现的每一个数字都是一个样本点
      随机事件:比如出现的数字为偶数就是一个随机事件,
           记为A={2,4,6},A\Omega的一个子集
      必然事件:\Omega={1,2,3,4,5,6}
      不可能事件:\phi (比如结果为大于6的数字)

 2. 概率

   i. 定义:
     随机试验E, 样本空间为\Omega,对于每个事件A赋予一个实数P(A)
     称为事件A的概率。函数P(.)满足条件:
        1. 非负性:每一个事件A0 < P(A) <= 1
        2. 规范性:P(\Omega) = 1
        3. 可列可加性:若事件A_1, A_2,…两两互斥,
               即i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi
             则P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...

   ii. 主要性质:
     1. 任一事件A,均有P(\overline{A})=1-P(A)
     2. 两个事件AB,若A \subset B
      则有P(B) >P(A), P(B-A) = P(B) - P(A)
     3. 任意两个事件AB
       有P(A \cup B) = P(A) + P(B) - P(A\cap B)
   🍩举栗:
      投骰子,假设A = {1,2}, B = {1,2,3}
      因为1,2,3,4,5,6出现的概率均为1/6,所以:
      P(A)=1/3
      P(B)=1/2
      P(\overline{A})=1-1/3 = 2/3
      P(B-A)=1/2-1/3=1/6
      P(A∪B)=1/3+1/2-1/3=1/2
       [此处 P(A∩B)=P(A)=1/3]

 3. 古典概型(等可能概型 / classical probability)

   i. 定义:
     随机事件E的样本空间有有限个样本点,每个样本点出现是等可能的,
      每次试验有且仅有一个样本点发生,称为古典概型。
      其中P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}
   🍩两个小栗子:
    1. 假设有 k 个不同颜色的球,每个球以同样的概率 1/l 落到 l 个格子
      (l>=k) 的每个中,且每个格子可容纳任意多个球。
      求事件 AB 的概率。
      A:指定的 k 个格子中各有一个球。
      B:存在 k 个格子,其中各有一个球。
     🍹解题思路:
     基本事件总数:每一个球都可能扔到l个格子中的一个,一共k个球,
                  共l^k种情况
     事件Ak个格子各一个球,相当于k个球排列,情况有k!
         P(A) = \frac{k!} {l^k}
     事件B:在每个事件A基础上,从l格子里选k个格子有 C^k_l 种组合
         P(B) = \frac {C^k_lk!} {l^k} = \frac {l!} {l^k(l-k)!}

    2.生日问题: k个同班同学没有生日相同的概率
    🍹(思路转换:想象每个人是个球,被扔到时间的格子里,一年365天,
     所以l=365,此事件类似栗子1中的事件B
     所以假设k=40
     P(B)=\frac{365!}{365^{40} * (365-40)!}= 0.109
     生日相同的概率 P(\overline{B}) = 1-0.109=0.891
     [ 学好概率就不会在遇到同一天生日的人的时候大惊小怪了 hh ]

         '''Python 代码实现栗子2中的 P(B) 的计算'''
         # 函数递归实现阶乘 
         def factorial(n): 
           if n == 0:
               return 1
           else:
               return (n * factorial (n-1)) 

         l_fact = factorial(365)
         l_k_fact = factorial(365-40)
         l_k_exp = 365 ** 40

         P_B = l_fact / (l_k_fact * l_k_exp)
         print("事件B的概率为:", P_B ) 
 4. 条件概率(Conditional Probability)

   i. 定义:
      AB两个事件,且P(B)>0, 在事件B发生的条件下,事件A
      发生的概率为:P(A|B) = \frac{P(AB)}{P(B)}
   🍩栗子:
      N个男性,M个女性,其中男色盲患者n人,女色盲患者m人。
      A表示全体女性集合,B表示全体色盲集合:则
      P(A) = \frac{M}{M+N}
      P(B) = \frac{m+n}{M+N}
      P(AB) = \frac{m}{M+N}
      P(B|A) = \frac{\frac{m}{M+N}}{\frac{M}{M+N}} = \frac{m}{M} (在女性中随机抽一个人为色盲的概率)

 5. 全概率公式(Law of Total Probability)

    由条件概率公式可得: P(AB)=P(B|A)P(A) =P(A|B)P(B)
    设B_1,B_2,...是样本空间 \Omega 的一个划分,A 为任一事件,则
​       全概率公式:P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)

 6. 贝叶斯公式(Bayes’ Theorem)

    设B_1,B_2,...是样本空间 \Omega 的一个划分,则对任一事件
     A(P(A)>0) ,有
    P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...
    其中P(B_i)(i=1,2,...) 为先验概率,
      P(B_i|A)(i=1,2,...)为后验概率
   🍩贝叶斯公式示例
   假定用血清甲胎蛋白法诊断肝癌。用 C 表示被检验者有肝癌这一事件,
   用 A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性
   反应的概率为0.95。即 P(A|C) = 0.95 。当前非肝癌的患者被检测呈阴
   性反应的概率为0.9。即 P(\overline {A}|\overline {C}) = 0.90 。若某人群中肝癌患者概率为
   0.0004,即P(C) = 0.0004,现在有一人呈阳性反应,求此人确为肝癌
   患者的概率是多少?
   🍹解题思路:

画个图也许更清晰.jpg

P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038


二、随机变量

 1. 随机变量及其分布

   i. 定义:
      E为随机试验,样本空间为\Omega,对于每一个 \omega \in \Omega,都有一个
      确定的实数X(\omega)与之对应,若对于任意实 x \in R ,
      有 {\omega :X(\omega) < x } \in F ,则称 \Omega 上的单值实函数 X(\omega)
      为一个随机变量。
   ii. 定义理解:
      随机变量取值在实数域上的函数,自变量是随机试验的结果,结果
      出现具有随机性,所以随机变量取值也具有随机性,区别于普通函数

   iii. 分布函数(概率累积函数)定义:
      F(x) = P { (X<=x)} , x \in (- \infty ,+ \infty)
      F(x)x处取值为随机变量X落在区间(- \infty, + x]上的概率

 2. 离散型随机变量(X的全部取值为有限多个或可列无穷多个)

      P { (X =x_k) } =p_k,k=1,2,...
      F (x) = P { (X<=x) } =\sum_{x_k <=x}{ P { (X=x_k) } } = \sum_{x_k <=x}{ P_k}

 3. 常见离散型分布

   i. 伯努利实验 (Bernoulli trail)
     定义:随机试验只有两种可能的结果A\overline A (实现目标和未实现目标)
        P(A) = p,P(\overline A) =1-p=q
   ii. 二项分布 (binomial distribution)
     n次独立的伯努利试验的结果服从二项分布: X ~ B(n, p)
     其中P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
     分布律为:P { (X=k) } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
     分布函数为: F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.
     其中, [x] 表示下取整,即不超过 x 的最大整数。

 4. 随机变量的数字特征

   i. 数学期望 (Expectation), 代表随机变量取值的平均值
     通常情况下对离散型随机变量X
     分布律为P { X=x_i} = p_i ,i =1,2,...,若\sum_{i} {|x_i|p_i} 收敛,
     E(X) = \sum_{i} {x_ip_i}
   ii. 数学期望的一些性质:
     1. 若c为常数,E(c)=c
     2. E(aX+bY) = aE(X)+bE(Y), ab为任意常数
     3. 若X,Y相互独立不互相影响,则E(XY)=E(X)E(Y)

   iii. 方差(Variance),描述随机变量取值相对于均值的离散程度
     X为随机变量,如果E{[X-E(X)]^2}存在,则记为X的方差:
     Var(X) = E{[X-E(X)]^2} = \sum_{i} (i-E(X))^2P(X=i)
     \sqrt{Var(X)}X的标准差或均方差
   iv. 方差的性质:
     1. 若c为常数,Var(c)=0
     2. Var(aX+b) = a^2Var(X)ab为任意常数
     3. 若X,Y相互独立,
      则Var(X+Y) = Var(X) + Var(Y) [离散程度增加]

 5. 二维随机变量X, Y的关系

   i. 协方差 (Covariance):
    通俗理解:参考 知乎问答 两个变量在变化过程中是同方向还是反方向?
         同向或反向程度如何?
    Cov(X, Y) = E{ [X-E(X)] [Y-E(Y)]}
   ii. 协方差性质:
     1. Cov(X, Y) = Cov(Y, X)
     2. Cov(aX+b,cY+d) =ac Cov( X,Y)
      a,b,c,d 为任意常数
     3.Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y)
     4. Cov(X,Y) =E( X,Y) -E( X)E(Y)
      当 X,Y 相互独立时,有 Cov(X,Y) = 0
     5. |Cov(X,Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)}
     6. Cov(X,X) =Var( X)

   iii. 相关系数(correlation coefficient):
     用来衡量两个变量之间的相关程度,一种剔除了两个变量量纲影响、
     标准化后的特殊协方差 (参考 知乎问答
     当\sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0时,
     相关性系数\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}}
   iv. 相关系数解读:
     1. 没有单位,只是一个代数值
     2. 取值范围[-1,1],小于0表示负相关,大于0表示正相关,
      绝对值越接近1表示相关度越大

Credit:
笔记整理自:Datawhale 概率统计组队学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352