概率是表示事件出现的可能性大小的一种数量指标。
古典概率的看法,建立在“等可能”的基础上,各种可能的结果及其出现的次数都推演得知,而无需经过任何统计试验即可计算各种可能发生的概率。(古典概率的计算主要基于排列组合)
在很多实际问题中,将全部可能事件结果罗列出来是不可能的,同时,结果的等可能性假定也很难成立。无法按古典概率的方式计算概率。所以从实用的角度,就有了概率的统计定义。这是一种通过实验去估计事件概率的方法,可称为试验概率。
在试验概率中,试验所得的频率只是对概率的近似估计,而非概率本身。其认为存在一个数p,当试验重复时,事件E的频率在p的附近摆动,当试验次数无限大时,p是频率的极限。
概率的统计定义实际并不是给出了一种定义概率的方法,而是提供了一种估计概率的方法。进而可以通过试验,来检验理论正确与否。
此外,建立在过去的经验与判断的基础上,有主观概率的概念,反映主观上的可能性。
随机变量
在概率论中,随机变量指其值会随机会而定的变量,而机会则表现为试验结果。
研究一个随机变量,不只是看它能取哪些值,更重要的是它取各种值的概率如何。也就是研究随机变量的概率函数、分布函数。
根据随机变量可能的值的全体的性质,可分为离散型随机变量、连续性随机变量。常见的离散型随机变量分布有二项分布、泊松分布,对连续性随机变量,则有均匀分布、指数分布、正态分布。
随机变量也可以是多维的,对多维随机变量的研究还涉及边缘分布的问题。
有了随机变量的分布,进一步地还有随机变量的函数(或称为统计量)的分布问题。
随机变量的数字特征
在统计中,通过样本数据,可对样本数据的分布情况及特征进行统计性描述。例如均值、中位数、标准差等统计量。对于概率论,随机变量也有类似的数字特征,但与样本的统计性描述指标有本质上的区别。
如概率上的数学期望,也可称均值。但与统计样本均值不同,随机变量的数学期望以概率加权求和所得,是先验的。而统计均值,是观测数据的平均,是后验的。中位数在概率上,指变量值小于它的概率为1/2的那个数,而统计的中位数,是样本中的中间数值。同样有先验与后验的区别。
此外,还有矩,称为 X 关于数 c 的 k 阶矩。时称为原点矩,时称为中心距。
一阶原点矩就是期望,二姐中心距是方差,三阶中心距往往用来衡量数据偏度,四阶中心距衡量数据峰度。
对于多维随机变量,还有协方差、相关系数的概念,反映各维分量间的关系。
概率论与数理统计
如上面数学期望及中位数的例子,概率与数理统计的区别就在于概率论是演绎,从先验知识推出结论,根据已知变量的概率分布(实际中并不能真正的已知概率分布),推出各种结论;而数理统计是归纳的,因为在真实世界里,我们只能通过观测值来预估数学模型,是后验的。
数理统计就是使用概率论和统计数学方法,研究怎样收集带有随机误差的数据,在总体是未知的情况下(有时候是总体分布类型未知,有时候是总体分布类型已知但分布的参数未知),通过从总体中收集的样本,得到关于总体分布的统计推断。
在任何考察的项目中,总体都是需要归纳了解的,需要连接关于总体的数值特征(概率分布参数)。而从总体中抽取的样本时具体的,可操作性的。通过样本的统计量,来估计总体的数值特征(参数)。
而要能通过样本估计总体的特征,只有在样本的特征反映总体特征时才是可行的,根据样本来估计参数才是合理的。要核实这一点,值查看样本是不可能的,但又因不了解总体,所以无法对比样本与总体,来判定样本是否与总体相似。我们能做的,就是查看样本时如何获取的,选取样本的方法至关重要,也就是统计实验中为了避免偏性的实验设计。
而有了合适的样本,数理统计的工作主要涉及到参数估计和假设检验。