摘要:随机事件、随机变量の学习笔记
涉及概念:随机事件,概率,古典概型,条件概率,全概率公式,贝叶斯公式,随机变量,伯努利实验,二项分布,数学期望,方差,协方差,相关系数
预警:笔记很长!(然鹅只是知识海洋中沧海一粟)
此文包含一堆文字定义和公式 (一遍读不顺就多读几遍😁)
一、随机事件
1. 基本概念
i. 随机现象:一件事情在某条件下的结果不能预先完全确定,只能确定
是多种可能结果中的一种。
(例如:抛一枚硬币是一个随机现象 – 因为结果可能是正面,
也可能是反面)
ii. 随机试验():随机现象的实现和对它观察的全过程。
满足条件:
1. 可以在相同条件下重复进行
2. 结果有多种可能性且所有可能结果事先已知
3.做一次试验究竟哪个结果出现事先不能确定
iii. 样本空间():随机试验的所有可能结果组成的集合。
iv. 样本点():[读作omega] 随机试验的每一个可能的结果。
v. 随机事件(….):样本空间中满足一定条件的子集。
随机事件可能出现也可能不出现。
vi. 必然事件:每次试验中总是发生的事件。
(比如样本空间()为必然事件,因为其包含了所有
样本点,构成该事件的一个样本点必然会出现)
vii. 不可能事件:每次试验中总不发生的事件。
(比如空集()为不可能事件,因为不包含任何样本点)
🍩举个栗子:
扔一枚六面的骰子:
随机现象:扔一枚骰子,可能出现中任意一个数字
随机试验:扔一枚骰子,观察出现的点数
样本空间:={}
样本点:出现的每一个数字都是一个样本点
随机事件:比如出现的数字为偶数就是一个随机事件,
记为={},为的一个子集
必然事件:={}
不可能事件: (比如结果为大于6的数字)
2. 概率
i. 定义:
随机试验, 样本空间为,对于每个事件赋予一个实数,
称为事件的概率。函数满足条件:
1. 非负性:每一个事件,
2. 规范性:
3. 可列可加性:若事件两两互斥,
即
则
ii. 主要性质:
1. 任一事件,均有
2. 两个事件和,若,
则有
3. 任意两个事件和,
有
🍩举栗:
投骰子,假设 = {}, = {}
因为出现的概率均为,所以:
[此处 ]
3. 古典概型(等可能概型 / classical probability)
i. 定义:
随机事件的样本空间有有限个样本点,每个样本点出现是等可能的,
每次试验有且仅有一个样本点发生,称为古典概型。
其中
🍩两个小栗子:
1. 假设有 个不同颜色的球,每个球以同样的概率 落到 个格子
的每个中,且每个格子可容纳任意多个球。
求事件 和 的概率。
指定的 个格子中各有一个球。
存在 个格子,其中各有一个球。
🍹解题思路:
基本事件总数:每一个球都可能扔到个格子中的一个,一共个球,
共种情况
事件:个格子各一个球,相当于个球排列,情况有种
事件:在每个事件基础上,从格子里选个格子有 种组合
2.生日问题: k个同班同学没有生日相同的概率
🍹(思路转换:想象每个人是个球,被扔到时间的格子里,一年365天,
所以=365,此事件类似栗子1中的事件)
所以假设,
生日相同的概率 =
[ 学好概率就不会在遇到同一天生日的人的时候大惊小怪了 hh ]
'''Python 代码实现栗子2中的 P(B) 的计算'''
# 函数递归实现阶乘
def factorial(n):
if n == 0:
return 1
else:
return (n * factorial (n-1))
l_fact = factorial(365)
l_k_fact = factorial(365-40)
l_k_exp = 365 ** 40
P_B = l_fact / (l_k_fact * l_k_exp)
print("事件B的概率为:", P_B )
4. 条件概率(Conditional Probability)
i. 定义:
和两个事件,且, 在事件发生的条件下,事件
发生的概率为:
🍩栗子:
个男性,个女性,其中男色盲患者人,女色盲患者人。
表示全体女性集合,表示全体色盲集合:则
(在女性中随机抽一个人为色盲的概率)
5. 全概率公式(Law of Total Probability)
由条件概率公式可得:
设是样本空间 的一个划分, 为任一事件,则
全概率公式:
6. 贝叶斯公式(Bayes’ Theorem)
设是样本空间 的一个划分,则对任一事件
,有
其中 为先验概率,
为后验概率
🍩贝叶斯公式示例
假定用血清甲胎蛋白法诊断肝癌。用 表示被检验者有肝癌这一事件,
用 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性
反应的概率为0.95。即 。当前非肝癌的患者被检测呈阴
性反应的概率为0.9。即 。若某人群中肝癌患者概率为
0.0004,即,现在有一人呈阳性反应,求此人确为肝癌
患者的概率是多少?
🍹解题思路:
二、随机变量
1. 随机变量及其分布
i. 定义:
为随机试验,样本空间为,对于每一个 ,都有一个
确定的实数与之对应,若对于任意实 ,
有 ,则称 上的单值实函数
为一个随机变量。
ii. 定义理解:
随机变量取值在实数域上的函数,自变量是随机试验的结果,结果
出现具有随机性,所以随机变量取值也具有随机性,区别于普通函数
iii. 分布函数(概率累积函数)定义:
在处取值为随机变量落在区间上的概率
2. 离散型随机变量(的全部取值为有限多个或可列无穷多个)
3. 常见离散型分布
i. 伯努利实验 (Bernoulli trail)
定义:随机试验只有两种可能的结果和 (实现目标和未实现目标)
ii. 二项分布 (binomial distribution)
次独立的伯努利试验的结果服从二项分布: ~
其中
分布律为:
分布函数为:
其中, 表示下取整,即不超过 的最大整数。
4. 随机变量的数字特征
i. 数学期望 (Expectation), 代表随机变量取值的平均值
通常情况下对离散型随机变量,
分布律为,若 收敛,
ii. 数学期望的一些性质:
1. 若为常数,
2. , 、为任意常数
3. 若,相互独立不互相影响,则
iii. 方差(Variance),描述随机变量取值相对于均值的离散程度
为随机变量,如果存在,则记为的方差:
为的标准差或均方差
iv. 方差的性质:
1. 若为常数,
2. ,、为任意常数
3. 若,相互独立,
则 [离散程度增加]
5. 二维随机变量, 的关系
i. 协方差 (Covariance):
通俗理解:参考 知乎问答 两个变量在变化过程中是同方向还是反方向?
同向或反向程度如何?
ii. 协方差性质:
1.
2.
为任意常数
3.
4.
当 相互独立时,有
5.
6.
iii. 相关系数(correlation coefficient):
用来衡量两个变量之间的相关程度,一种剔除了两个变量量纲影响、
标准化后的特殊协方差 (参考 知乎问答)
当时,
相关性系数
iv. 相关系数解读:
1. 没有单位,只是一个代数值
2. 取值范围,小于表示负相关,大于表示正相关,
绝对值越接近表示相关度越大
Credit:
笔记整理自:Datawhale 概率统计组队学习