Probability distributions
4.01 Random variables and probability distributions
随机变量和概率分布
随机变量指随机现象中可能出现的数值结果的值,分
- 离散型(不连续的):可由清晰的数值计算的数
- 连续型: 可能性数值是无限的
概率分布,表示每个随机值出现的概率
- 离散型变量的概率分布叫:mass function(质量函数)
- 连续型变量的概率分布叫: density function(密度函数)
4.02 Cumulative probability distributions
累积概率分布
累积概率是小于等于某个阀值的值的概率
累积概率指明了分位情况
4.03 The mean of a random variable
随机变量的平均数
该公式表示,平均数=每个元素与它概率的乘积之和
以下公式也成立:
为a+bx
x和y不管是否互相依赖
4.04 Variance of a random variable
随机变量的方差
Var(x) =
连续型数据:
离散型数据:
以下公式成立:
这里需要x,y没有关联性
4.05 Functional form of the normal distribution
正态分布的函数形式
正态分布,又叫高斯分布, 看下图:
- 它是对称、钟形的
- 有2个参数: 表示随机变量的平均值,表示随机变量的标准差(方差的平方根)
- 是它的中心对称线的位置,表示他的宽度
- 钟形包含的面积是1,越宽,最高点越低
累积正态分布如下图:
是它的y轴(概率)0.5的位置, 表示它斜坡陡峭程度(越大越陡)
正态分布的完整公式为:
这个公式不只用来表示概率分布,也可以用来描述某些物质的表现形式,比如蜂蜜流淌、交通等的扩散情况。。。
正态分布还有以下特点
- x轴左右两边都趋于无穷,且永远不会到达0
- 所有点的概率和(y值总和)=1
4.06 The normal distribution: probability calculations
正态分布:概率计算
第一种方法可以根据将正态分布转换成累积正态分布图来获得某个值的累积概率
第二种方法可以根据下图正态分布的特性来计算
- - ~ + 之间的概率为0.68
- -2 ~ +2 之间的概率为0.95
- -3 ~ +3 之间的概率为0.997
4.07 The standard normal distribution
标准正态分布
我们如何计算正态分布中的概率问题呢?
首先进行z变换, 让 mu=0, s = 1(平均=0,标准差=1), 记为: z~N(0,1)
-
通过z-table来计算概率值,z-table如下示意:
z 0.00 0.01 0.02 0.03 0.04 1.2 0.8849 0.8869 0.8888 0.8907 0.89250 1.3 0,9032 0.9049 0.9066 0.9082 0.9099 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 1.5 9.9332 0.9345 0.9357 0.9370 0.9382 z-table中的值是如何得到的?这些值是固定的,类似于一个字典库
我们只要通过z-score,就能获得它的概率
当然也可以通过概率来反推z-score
公式补充:
计算z-score :
计算x值:
4.08 The binomial distribution
二项分布
二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。
二项分布的公式如下:
符合二项分布的条件
- 成功概率不会变化
- 每次实验之间是不相互依赖的
二项式分布的参数转换
= g(p, n), = f(p,n)
u=np, =
二项式分布有三种形式,见下图