概率与数理统计学了好几遍都学不清楚,今天再刷一遍,整理出第一篇学习笔记。
随机变量:随机事件的数量表现,两种类型,离散型随机变量和连续型随机变量
- 离散型随机变量:变量取值有限个
分布律:每个取值的概率
- 0-1分布:取值只有0和1
- 伯努利试验,二项分布:伯努利试验是试验结果只有正反两种结果的试验;二项分布是n重伯努利试验;二项分布当n=1结果就是0-1分布
- 泊松分布:近似二项分布概率的计算方式,当n>20,p<=0.05用泊松分布计算效果更好
离散型随机变量的分布函数:也称累积概率函数,就是分布律用函数总结的形式展现
- 目的是为计算变量取值在某区间上的概率
- 定义为随机变量X<任意实数x的概率函数
- 连续型随机变量:变量取值连续且无限个
概率密度函数:可以理解为计算概率的函数表达式
- 符合条件:f(x)>=0,积分负无穷到正无穷为1
- 分布类型:
- 均匀分布,只有0和1/(b-a)
- 指数分布,只有0和指数函数
- 正态分布,平均值对应概率最大,成对称型,还有(0,1)标准正态分布
连续型随机变量的分布函数:也称累积概率函数,是概率密度函数的积分,用于计算连续型变量取值落在某区间上的概率
- 随机变量的数字特征:
- 数学期望:即均值计算,概率和取值的加乘计算
- 方差:计算随机变量与均值的偏离程度
- 协方差与相关系数:
- 协方差是用来判断两个变量是同向相关还是反向相关
- 相关系数是判断相关程度
- 大数定律和中心极限定理:
- 大数定律:样本数增多,会增加样本平均值接近总体数学期望的概率
- 中心极限定理:独立随机变量的个数不断增加,其和的分布趋于正态分布(数量>=30)
在这些概念的学习过程中,我认为的重点,也是最让我理不清的概率分布,分布律,概率密度函数和分布函数。我来聊聊我的理解。
先说分布律,是离散型随机变量的取值概率对应表。它是一个二维的表格,里面罗列了每个取值对应的概率。离散型随机变量的分布函数,就是用函数归纳总结整体的概率分布情况,可以一目了然概率是怎么分布的。
概率密度函数和连续型随机变量的分布函数却有不一样的分工:概率密度函数曲线看整体概率分布情况,分布函数用来求随机变量落在某区间的概率。概率密度函数是连续型随机变量独有的,概率密度函数曲线代表连续型随机变量的整体概率分布,但是每个取值对应的概率是趋近于零,计算每个取值对应的概率是没有意义的。也就是说概率密度函数曲线表示概率分布的情况,但是计算变量取值落在某区间的概率,用曲线与x轴相交部分的面积表示,而这个面积的计算就要用到连续型随机变量的分布函数。分布函数是对概率密度函数做积分,也是求随机变量X<任意实数x的累积概率。用累积概率代表面积的方式得到结果。
随机变量的概率分布的确很复杂,最初想着看看其他人的笔记,或许会更快的学会。但是现实是,每个人的表述方式不同,不一定能讲清楚每个西街店。我的建议是先看一遍工具书《概率论与数理统计》,根据公式推导大概了解每个概念,然后再看各位小伙伴的笔记,不仅加深印象,还能学到概念的实际运用。最后做总结笔记时,再看一遍工具书,就会彻底明白。