$\color{black}{\huge\mathbf{基本概念}}$

1. 随机变量

对试验结果的数值描述，其值取决于试验结果。根据取值可分为离散型或连续性

2离散型随机变量

可以取有限个或无限可数多个值(0,1,2, ...)的随机变量。

例如，期末考试4门课，令实验中随机变量x=通过考试的课程数， x的值可能是0,1,2,3,4;是有限多个。因此x是离散型随机变量

例如，汽车通过收费站实验，x=一天中到达的汽车数量，x可能取整数数列任一值，是无限多种取值，所以x是离散型随机变量

关于人能不能记忆一本书的内容，实验包括两种可能性, x=1,可以记得；x=0，不可以记得。x是离散型随机变量

3 连续性随机变量

可以取某一区间或多个区间内任意值的随机变量，可度量时间、重量、距离、温度。其值

4 期望值与方差

随机变量的数学期望/均值是对随机变量中心位置的一种度量。

随机变量的方差度量随机变量的变异性或分散程度,

5 概率分布

基本条件：

分配给每个实验的概率必须在0～1之间

所有实验概率值和必须等于1

5.1 古典概率(先验概率)

其实验概率的结果是等概率发生的，如一个实验有n个结果，则为每个实验分配的概率为1/n。比如扔一个均匀的骰子，抛硬币。

5.2 相对频率法

适合大量重复进行的试验，并且能取得试验结果的发生频率。如记录医院门诊候诊人数

5.3 主观法

不能假定实验结果是等可能发生或无法取得相关数据时，比两个取报名马拉松，通过的可能结果,1：通过；0：不通过

6 事件及其概率

事件是一个样本点集合，其概率等于事件中所有样本发生的概率之和

6.1 概率的基本性质

事件的补

即所有不包含在事件A中的样本点，即事件A的补(complement of A), 标记为 : $A^{c}$

事件的并

即事件A、事件B发生这两个事件同时发生的概率，P( $A \cup B$ ) = P(A) + P(B) - P( $A \cap B$ )

事件的互斥

即事件A和事件B中一个发生而另一个不会发生时，A与B互斥；P( $A \cup B$ ) = P(A) + P(B)

6.2 条件概率

某个事件发生的可能性受到另一个相关时间爱你发生与否的影响，

P(A|B): 在事件B发生的条件下事件A发生的概率

联合概率

两个事件交的概率是联合概率；每个事件在不同条件下发生的概率的和为边际概率，在表格中为每个事件行/列求和

条件概率可以有联合概率和编辑概率的比值计算：

事件A与B的联合概率比上事件B的概率
$\color{black}{\normalsize\mathtt{P(A|B) = \frac{ P(A \cap B)}{P(B)}}}$
事件A与B的联合概率比上事件A的概率
$\color{black}{\normalsize\mathtt{P(B|A) = \frac{ P(A \cap B)}{P(A)}}}$

独立事件

两个事件是相互独立的，即P(A|B) = P(A); P(B|A) = P(B)

独立事件的并：
$\color{black}{\normalsize\mathtt{P(A \cap B) = P(A) \times P(B)}}$

事件的并
$\color{black}{\normalsize\mathtt{P(A \cap B) = P(B)P(A|B)}}$

$\color{black}{\normalsize\mathtt{P(A \cap B)= P(A)P(B|A)}}$

6.3 贝叶斯定理

在已知条件下，某事件发生的概率(先验概率/古典概率),然后获取有关该事件的新信息，更具这些新增信息计算修正概率，跟新先验概率值得到后验概g率

$\color{black}{\large\mathbf{先验概率 \Rightarrow 新信息 \Rightarrow 应用贝叶斯定理 \Rightarrow 厚颜概率}}$

其定理：
$\color{black}{\normalsize\mathtt{P(A \cap B)= P(A)P(B|A)}}$

$P(A_i|B)$ = $\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+...+P(A_n)P(B|A_n)}$

$\color{black}{\huge\mathbf{离散变量概率分布}}$

要满足下面两个条件：
$\color{black}{\normalsize\mathtt{f(x) \geq 0}}$
$\color{black}{\normalsize\mathtt{\sum^{ }_{ }{f(x)}=1}}$

离散性随机变量的数学期望
$\color{black}{\normalsize\mathtt{E(x) = u = \sum^{ }_{ }{xf(x)}}}$

离散性随机变量的方差
$\color{black}{\normalsize\mathtt{Var(x) = a^2 = \sum^{ }_{ }{(x-u)^2f(x)}}}$

协方差
$\color{black}{\normalsize\mathtt{a_{xy}= \frac{Var(x+y)-Var(x)-Var(y)}{2} }}$
相关系数
$\color{black}{\normalsize\mathtt{ p_{xy}= \frac{a_{xy}}{a_xa_y} }}$

1. 二项概率分布分布

性质一：由一系列相同的n个试验组成
性质二：有两种可能的结果:成功/失败
性质三：每次试验成功的概率是相同的：p；失败的概率也是相同的：1-p
性质四：试验是相互独立的

如果一个试验具有2，3，4则是伯努力概率分布，如果全有则是二项概率分布，其也可以被看作重复n次的伯努力试验。

1.1 二项概率质量函数

$\color{black}{\normalsize\mathtt{ f(x)=\left( \begin{matrix} n \\ x \end{matrix} \right)p^x(1-p)^{n-x} }}$
$\color{black}{\normalsize\mathtt{ \left( \begin{matrix} n \\ x \end{matrix} \right) = \frac{n!}{x!(n-x)!} }}$
x：成功次数，n：试验次数，p：成功的概率，f(x)：n次试验中x成功的概率

1.2 二项概率分布成功次数计算

$\color{black}{\normalsize\mathtt{ \left( \begin{matrix} n \\ x \end{matrix} \right) = \frac{n!}{x!(n-x)!} }}$

1.3 二项概率分布期望与方差

期望
$\color{black}{\normalsize\mathtt{ E(x)= u = np}}$
方差
$\color{black}{\normalsize\mathtt{ Var(x)= a^2 = np(1-p)}}$

2. 伯努力概率分布

是基于单次随机试验，并只有'成功(1)'/'失败(0)'两种结果，其概率分布为伯努力分布，也叫两点分布/0-1分布。例如抛骰子，病人是否康复。假设其试验成功的概率为：p，那么其失败的概率为1-p。其概率分布在[0,1]之间。

2.1 期望值

$\color{black}{\normalsize\mathtt{ p(y) = p^yq^{1-y}, y=[0,1]}}$
$\color{black}{\normalsize\mathtt{ u = \sum^{ }_{ }{ p(y)*y} = (1)* p^1q^0 + (0)*p^0q^1 = p }}$

2.2 方差

$\color{black}{\normalsize\mathtt{ a^2 = E(y^2) - u^2 = \sum^{ }_{ }{ p(y)*y^2} - u^2 = (1)^2p(1) + (0)^2p(0) - u^2 = p(1) - u^2 = p-p^2 = pq}}$

3. 泊松概率分布

是二项分布的极限分布，当二项分布中试验次数n无限大，而成功的概率p趋近于0的时候，即n→∞,p→0 , np=u ，u(二项分布的均值/期望值) 是一个常数的情况下。二项分布可以近似看作泊松分布，可以用泊松分布公式代替二项分布公式计算。

是在连续时间/空间单位上发生随机事件次数的概率。通俗的解释为：基于过去某个随机事件在某段时间/某个空间内发生的平均次数，预测该随机事件在未来~~同样长的~~某个时间或~~同样大的~~空间内发生n次的概率。用于销量较低的商品库存控制，特别是价格昂贵并需求量不大的商品

性质一：任一两个相等长度的区间，事件发生的概率相等
性质二：事件咋某一区间上是否发生与事件在其他区间上是否发生是独立的

3.1 泊松概率质量函数

$\color{black}{\normalsize\mathtt{ f(x) = \frac{u^xe^{-u}}{x!} }}$
f(x)是事件在一个区间发生x次的概率，u是事件在一个区间发生次数的数学期望，e=2.71828

3.2 期望值

根据离散型随机变量分布的期望定义，泊松分布的期望：
$\color{black}{\normalsize\mathtt{ E(x) = \sum^{\infty}_{x=0}{x}* f(x) }}$
$\color{black}{\normalsize\mathtt{ = \sum^{\infty}_{x=0}{x}*\frac{u^xe^{-u}}{x!} }}$
当x=0时候:
$\color{black}{\normalsize\mathtt{ E(x) = 0 }}$
当x >= 1时候:
$\color{black}{\normalsize\mathtt{ \sum^{\infty}_{x=1}{x}*\frac{u^xe^{-u}}{x!} }}$
可以转变为：
$\color{black}{\normalsize\mathtt{ \sum^{\infty}_{x=1}\frac{u^xe^{-u}}{(x-1)!} }}$
$\color{black}{\normalsize\mathtt{ \sum^{\infty}_{x=1}\frac{u^{x-1}ue^{-u}}{(x-1)!} }}$
$\color{black}{\normalsize\mathtt{ ue^{-u}*\sum^{\infty}_{x=1}\frac{u^{x-1}}{(x-1)!} }}$
根据泰勒展开式：
$\color{black}{\normalsize\mathtt{ ue^{-u}*\sum^{\infty}_{x=1}\frac{u^{x-1}}{(x-1)!} }}$
$\color{black}{\normalsize\mathtt{ ue^{-u}*e^u = u }}$

3.3 方差

$\color{black}{\normalsize\mathtt{ Var(x) = u }}$

$\color{black}{\huge\mathbf{连续变量概率分布}}$

与离散型随机变量的根本区别在：

不再讨论随机变量取某一特定值的概率，而是在某一给定区间上取值的概率

在某个给定区间上取值的概率可以被定义为在区间上概率密度函数f(x)曲线下的面积，所以其在某一点取值的概率为0，因为其面积为0

1. 均匀概率分布

一个连续随机变量在任一区间中的任意两个子区间取值的概率是相等的，例如，飞行时间区间中任意两个1分钟长度的子区间，其飞行时间在这两个子区间的概率是相同的，即飞行时间在每个1分钟长度的子区间内是等可能的

1.1 概率密度函数

$\color{black}{\normalsize\mathtt{ f(x) = { { (\frac{1}{b-a}, a \leq b) \choose 0, 其他} } }}$

1.2 期望值

$\color{black}{\normalsize\mathtt{ E(x) = { { \frac{a+b}{2}} } }}$

1.3 方差

$\color{black}{\normalsize\mathtt{ E(x) = { { \frac{(a+b)^2}{12}} } }}$

2. 正态分布

表明被测事物处在稳定的状态下，测量数据的波动是由偶然因素引起的。自然环境和人类社会的很多事物都会自发形成稳定的系统，因此，其分布都服从正态分布。例如，人的身高、体重和智商；各种商品的尺寸和质量；自然环境的温度、湿度和降雨量。正态分布的重要性还体现在样本数据推断总体时，当样本的数量足够大，可以利用样本的某些特征数据服从正态分布，从而能够完成推断过程，得到准确的推断结果

根据经验发现：对于服从正态分布或近似服从正态分布的数据总体，它们的均值为μ，标准差为σ，经验法则可以表述为大约有 68.3%的数据会落在区间μ±σ内，大约
95.4%的数据会落在区间μ±2σ内，大约99.7%的数据会落在区间μ±3σ内

特性一：均值和标准差两个参数的不同让正太分布族中每个分布不同
特性二：正太曲线的最高点在均值达到，其还是中位数和众数
特性三：分布的均值可以是任意数，负，0，正数
特性四：正太分布是对称的
特性五：标准差决定曲线的宽度和平坦，越大曲线越宽越平坦数据有更大变异性
特性六：正太随机变量由正太曲线下面积给出。其总面积是1，左边与右边面积都是0.5
特性七：对于服从正态分布或近似服从正态分布的数据总体，利用经验法则(6)68.3%的值在+/- 1个标准差范围内， 95.4%的值在+/- 2个标准差范围内，99.5%的值在+/- 3个标准差范围内

2.1 正态分布函数

其均值决定位置，方差决定曲线波动
$\color{black}{\normalsize\mathtt{ f(x) = { { \frac{1}{a\sqrt[]{2\pi}}*e^{-\frac{(x-u)^2}{2σ^2} }} } }}$
而标准正太则是均值=0，方差=1,
$\color{black}{\normalsize\mathtt{ f(x) = { { \frac{1}{\sqrt[]{2\pi}}*e^{-\frac{x^2}{2} }} } }}$

2.2 计算正太概率分布

可以将任意均值和标准差的正太分布的概率都可以使用标准正太分布计算，先转换成标准正太分布。然后求Z值：
$\color{black}{\normalsize\mathtt{ z = { { \frac{x-u}{σ} } } }}$

z是作为x距离均值u的距离

2.3 二项概率与泊松概率的正太近似

二项分布

正态分布还能够用来近似其他的数据概率分布类型，比如二项分布和泊松分布，在某些情况下，如二项概率的成功概率越接近0.5，其成功与失败的概率就越接近，二项概率分布就越对称，其就接近均值=np,标准差=np(1-p)的开方的正态分布。
用正态分布近似二项分布计算概率值，需要做连续性修正。用连续型分布的概率密度函数积分计算概率，只能计算数值区间的概率，任何离散点上的概率都为0。因此，用正态分布近似二项分布，二项分布的概率值应为离散值区间的概率，不能计算单个离散值的概率。所以需要一个联系性矫正因子来计算，比如12次成功，可以计算11.5与12.5之间的面积。然后通过计算正太概率分布计算其两个在曲线下面积。

泊松分布
泊松分布是二项分布的特殊形态，所以正态分布也可作用于泊松分布。其参数只有一个参数： $\frac{1}{u}$ （随机事件发生一次的平均等待时间或单位时间内随机事件发生的次数），随着单位时间内随机事件发生次数的增加泊松分布会逐渐近似 $μ=σ^2$ 的正态分布。这个单位次数一般来说是>=5，最好>10

2.4 峰度与偏度

正态分布曲线的形态是一个倒置的钟形，中间是单峰，两边逐渐平缓，但不是所有的单峰分布都是正态分布，这些分布与正态分布的差异在于峰度与偏度的差异

峰度
是研究数据分布陡峭或平滑的统计量，通过对峰度系数的测量，我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。
$\color{black}{\normalsize\mathtt{ kurtosis = { { \frac{\sum^{k}_{i=1}(x_i-u)^4*F_i}{ σ^4 \sum^{k}_{i=1}F_i } } } }}$
$F_i$ 是第i组的频数

偏度
是研究数据分布对称的统计量。通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向
$\color{black}{\normalsize\mathtt{ skewness = { { \frac{\sum^{k}_{i=1}(x_i-u)^3*F_i}{ σ^3 \sum^{k}_{i=1}F_i } } } }}$
${ F_i }$ 是第i组的频数

偏度

3 指数概率分布

指数分布描述的是两次随机事件发生的时间间隔的概率分布情况，这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔，可以理解为：要等到一个随机事件发生，需要经历多久时间
指数分布与泊松分布正好互补。泊松分布能够根据过去单位时间内随机事件的平均发生次数，推断未来相同的单位时间内随机事件发生不同次数的概率

3.1 指数概率分布密度函数

$\color{black}{\normalsize\mathtt{ f(x) = { { \frac{1}{ u }e^{-\frac{x}{u}} } } }}$

3.2 累积概率

离散型概率分布可以直接通过概率质量函数计算概率，而连续型分布则不能，需要通过对概率密度函数曲线下方的面积进行积分，积分面积才是所求的概率：
$\color{black}{\normalsize\mathtt{ f(x) = { { P(X \geq x) = e^{-\frac{x}{u}} \choose P(X < x) = 1-e^{-\frac{x}{u}} } } }}$

4. 伽玛分布(gamma)

指数分布解决的问题是“要等到一个随机事件发生，需要经历多久时间”，伽玛分布解决的问题是“要等到n个随机事件都发生，需要经历多久时间”。所以，伽玛分布可以看作是n个指数分布的独立随机变量的加总

4.1 伽玛分布密度概率函数

$λ = \frac{1}{u}$
$\color{black}{\normalsize\mathtt{ f(x) = { { \frac{\lambda^σx^{σ-1}e^{-\lambda x}}, x>0{\Gamma(σ)} \choose 0, 其他} } }}$
如果 $σ = 1$ ，则是指数函数，所以，伽玛分布可以看作是n个指数分布的独立随机变量的加总

4.2 期望值

$E(x) = \frac{σ}{λ}$

4.3 方差

$E(x) = \frac{σ}{λ^2}$

5. 贝塔分布

是一个连续型概率分布，被限定于区间[0,1]之间。由参数 $\alpha$ 和 $\beta$ 来控制随机变量的指数和分布形状。正态分布，二项分布，均匀分布给出的是符合其条件下的最优概率分布。然而当不知道一个试验的概率的时候， $\beta$ 分布会给出所有概率出现的可能性(概率)：简单说，其是概率的概率分布。
在贝叶斯推理， $\beta$ 分布是共轭先验概率分布为伯努利分布，二项分布，负二项分布几何分布

5.1 分布概率函数

$f(x; \alpha, \beta) = \frac{1}{B(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}$

5.2 期望值

$E(x) = \frac{\alpha}{\alpha+\beta}$

5.3 方差

$Var(x) = \frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^2}$

6. 韦伯分布

是一个连续型概率分布是可靠性分析和寿命检验的理论基础，是指数分布的推广。在于用户流失问题上，一个老会员和一个新会员在未来一个时间点流失掉的概率是一样，这是非常不合理的。因此韦伯分布引进一个参数 $\beta$ ，来衡量之前问题中老用户流失的概率。

6.1 概率密度函数

$\color{black}{\normalsize\mathtt{ f(x; \lambda,k) = { { \frac{k}{\lambda}(\frac{x}{\lambda})^{k-1}e^{(-x/\lambda)^k, x \ge 0} \choose 0, x < 0} } }}$

6.2 期望值

$E(x) = \lambda \Gamma (1+\frac{１}{ｋ})$

6.３方差

$Var(x) = \lambda^2[ \Gamma (1+\frac{2}{ｋ}) - u^2]$

概率分布