期望就是平均数随样本趋于无穷的极限
概率是频率随样本趋于无穷的极限
一、期望和平均值的主要区别?
期望主要是针对大群体数据的计算,平均值主要针对小群体的计算。
均值是不是期望?均值严格来说就是期望。
由于语言等方面的原因,通常人们口中说到均值的时候,是在谈论平均值。因此,以上的混乱事实上是对平均值和期望的混乱。而平均值属于《数理统计》的范畴,期望属于《概率论》的范畴,因此,这种混淆更深层次的反映出人们对这两门学科理解的混乱。
期望的本质是概率的平均值。
1、二者都是总体趋势的一种度量
平均值和中位数、众数、中点距被一起用来描述一组样本的中心趋势,是样本集合的一种中心化趋势的描述。
期望的描述引述陈希孺院士《概率论与数理统计》3如下:
数学期望常称为“均值”,即“随机变量取值的平均值”之意,当然这个平均,是指以概率为权的加权平均。……数学期望是由随机变量的分布完全决定。
2、大数定理将二者连接起来
大数定理说明当样本量N趋近无穷大的时候,样本的平均值无限接近数学期望。
In probability theory, the law of large numbers (LLN) is a theorem that describes the result of performing the same experiment a large number of times. According to the law, the average of the results obtained from a large number of trials should be close to the expected value, and will tend to become closer as more trials are performed.
这里有一个限定条件“样本量趋近无穷大”,往往人们容易遗忘的就是这个限定条件。如果样本较小的时候,使用平均值来代替期望就要计算它可信程度了(置信水平)。
前面引文说过,数学期望又叫均值;而我们的平均值和均值只是一字之差,少一个字就是相同的。而在英语中平均值写作average,均值写作mean,这两个字体上就差别比较大。
数理统计是数学的一个分支,通过数据收集、分析、理解来进行推理;应用于科学、工业、社会问题。通常研究的是统计类总体或统计模型的过程。在进行数据普查的时候,统计学家通过设计特定的实验来进行样本收集。其中,典型性抽样假设可以通过合理的方法将基于统计样本的结论和推论应用于整个总体。实验性研究通过设计系统的评价,并对系统进行修改,之后通过相同的过程对系统进行评价,判断通过这种修改系统的方式能否成功的修改系统的测量值。
数据分析领域有两个主要的统计方法:描述统计和统计推断。描述统计使用一些指标如均值、标准差对数据集合进行总结性描述;而统计推断从数据当中得出关于随机变量的结论,是对随机现象的分析,它的基础是概率论
标准的统计过程是关于测试两个数据样本之间的关系的,一个是真实的数据样本,一个是从理想模型当中采样得到的虚拟样本。
通常人们开始时,都先假设这两个数据集之家没有关联,称关系假设为空。之后通过在数据集上进行统计测验,来对这种假设进行验证,根据验证结果来判断假设是否合理。这种情况下就会容易出现两种错误:“false positive”(假设被错误的拒绝)与“false negative”(假设被错误的接受),引起这些问题的因素非常的多:从获取足够的数据样本到想象够多的假设等。
对系统进行衡量而产生统计数据的过程也同样会面对误差,这些误差被分为随机误差和系统误差,但是其他类误差如人们无意间犯的错误、数据源错误等也同样重要。数据的丢失和删除可能会导致有偏性的估计值,当然现在已经有以下特定技巧对其进行缓解。
平均值就是描述统计当中一个描述性指标,是数据集合总体趋势的一种描述指标。
数理统计以样本数据集合为出发点;概率论则不同,以事件的概率本质为出发点。
概率论是数学的一个分支,主要研究事件的概率。虽然概率论有很多种不同的解释,但对于它的表示则是建立在一组公理之上,这可是非常严谨的。严格讲,它将0与1之间的一个数值分配给输出集合(样本空间),这样在概率空间中形式化的表示概率。输出集合的任意子集就称作为一个事件。
概率论研究的主题主要包括离散和连续变量、概率分布、随机过程。它是非确定性或者不确定性过程的一个抽象表示,是随机方式出现或运行过程的一种可测性度量。
虽然不能完美的对随机事件进行预测,但是依然说明了很多规律。概率论有两个主要成果:大数定理和中心极限定理。
作为统计学的数学基础,概率论在人们关于数据定量分析有关的活动中扮演非常重要的角色。在复杂系统当中,当只提供部分信息时,概率论中的方法也可以用来对其进行描述。
期望就是其中关于随机变量的一种总体性描述,它是事件本质的一种表达。
纵然,世间事物的本质扑朔迷离,对其进行准确的定量描述十分困难。但是经过众多天才科学家的不懈努力,最终找到了一条通往事物本质的大道,那就是大数定理。
大数定理将属于数理统计的平均值和属于概率论的期望联系在一起。通过前文描述我们知道,通过收集大量的样本并计算样本集合的平均值可以无限近似期望,而且事物的其他本质属性则可以通过基于期望的变换得来,因此人们可以通过运用大数定律来接近事物本质。
找到接近事物本质的方法无疑是令人振奋的,其强大的魅力使很多人迷恋。但是,我们知道没有放之四海而皆准的东西,大数定理也不例外。
样本量很大的要求限制了大数定理的应用。大数定理强调需要当样本量趋近无限大的时候,平均值才可以无限接近期望,此时可以使用平均值代替期望,但是很多时候,样本收集具有很大的成本,或是时间成本或是金钱成本,因此只能收集到小样本量的数据。此时根据大数定理采用平均值代替期望的方法可信度就会下降,例如在医学临床试验中样本量太少;在行星轨迹观测中收集时间过长。
为了解决这个问题,人们提出了贝叶斯的方法。
二、频率好概率的区别和联系
当我们抛一门硬币50次的时候,出现20次正面朝上,30次反面朝下,我们有些同学会说,正面朝上的概率是2/5,这就是典型的将频率和概率没有区分出来。
在上面这个例子中,关于20次出现正面朝上,只能说正面朝上的频率是2/5,而不能说概率是多少多少。
因为概率是理想值,频率是实验值;例如抛理想均等硬币10000次正反面出现正面的频率是0.5,-+表示误差。
然而由大数定律可以证明当频率减去概率的模小于任意正数的时候,可以认为在无穷多次实验中的频率值无限收敛于概率值。
概率的定义: 在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附近,则数值p称为事件A在该条件下发生的概率,记做P(A)=p。这个定义成为概率的统计定义。
于是我们可以看出,概率其实是在无限次实验之后,频率的逼近值。而这个逼近过程是通过大数定理作为桥梁连接的。