推断统计是研究如何利用样本数据来推断总体特征的统计方法,其特点是根据速记的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断。推断性统计有四个理论部分:概率理论,抽样理论、估计理论和假设检验理论。概率理论和抽样理论是推断性统计的基础,而估计理论和假设检验理论是推断性统计的应用。
基础概念
- 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件。
- 必然事件:在同一组条件下,每次试验一定出现的事件。
- 不可能事件:在同一组条件下,每次试验一定不会出现的事件。
- 基本事件:如果一个事件不能分解成两个或更多事件,则被称为基本事件。
- 随机变量:为研究随机事件的统计规律性,将数学分析的方法引入对随机事件的研究中,可以将随机事件的结果与实际数值对应起来,将结果数量化。根据随机变量所代表的数值的不同,可以将随机变量分为离散型随机变量与连续型随机变量。
- 概率分布:指随机变量的取值与其概率所构成的分布,根据随机变量的分类可分为离散型概率分布和连续型概率分布。
概率确定
- 古典法概率,又称事前概率, 即如果每一个基本事件出现的概率是等可能的,则不需要做任何试验就可以事前计算出事件的概率。但实际生活中,“基本事件出现的可能性相等”这一条件基本不可能满足,必须使用其他确定概率的方法。
- 相对频数法,又称预计频率,是用过去发生的事件的相对频率当作概率。采用相对频数确定概率时,通过增加试验次数,就能提高概率精确性。但使用相对频数确定概率的问题是,人们往往无法获得所需要的重复试验的次数。
- 主观概率法,又称个人概率,是根据个人的主观直觉和经验确定的概率。主观概率不是凭空臆造,而应该是建立在个人经验和知识的基础上,唯有这样才能得到精确的概率。
基本运算
-
加法公式:加法公式
加法公式用于计算时间A发生或事件B发生或同时发生的概率。
-
条件概率: 条件概率
用于计算给定条件B下A的概率。
-
乘法公式:乘法公式
乘法公式用于计算两事件交的概率。
- 贝叶斯定理:贝叶斯定理用来描述两个条件概率之间关系。在运用概率对某一事件进行推断之前,我们可能已经事先掌握了关于这一事件的先验概率。在后续的研究中,可以通过抽样调查样本等方法对先验概率进行修正,使先验概率变为后验概率。这个修正概率的定理就称为贝叶斯定理。贝叶斯推断与其他统计学推断方法截然不同,它建立在主观判断的基础上,你可以不需要客观证据,先估计一个主观概率对部分未知的状态进行描述,然后根据实际结果不断修正,最后再利用期望值和修正概率做出最优决策。贝叶斯定理
概率分布
离散型概率分布的概率函数称为概率质量函数,概率是散布在随机变量的各个离散取值上的,所以二维坐标的纵轴为概率;连续型概率分布的概率函数称为概率密度函数,二维坐标纵轴为密度,随机变量取值范围内任意点的概率为0,随机变量取值范围内任意区间的概率为曲线下积分面积。
主要的离散型概率分布
二项分布:n个独立的成功/失败试验(伯努利试验)中成功的次数的离散概率分布。

二项分布概率质量函数
多项分布:把二项分布公式推广至多种状态,就得到了多项分布。
超几何分布:用于描述有限总体无放回抽样试验中随机事件发生的概率。

超几何分布概率质量函数
泊松分布:用于描述在连续时间或空间单位上发生随机事件的概率。

泊松分布概率质量函数
主要的连续型概率分布
连续型均匀概率分布:在连续型随机变量的取值范围内,随机变量的任意取值的密度为不变的常数,这样的分布称为连续型均匀概率分布。
正态分布:如果随机变量X具有概率密度函数:

正态分布概率密度函数
指数分布:指数分布的概率密度函数为:

指数分布概率密度函数
近似
泊松分布近似二项式分布
正态分布近似二项式分布
正态分布近似泊松分布



