统计学基础理论

第一章 变量和图形

统计学:科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学;

归纳统计学/统计推断:通过样本分析来给总体下结论

描述性统计学/演绎统计学:值描述和分析特定对象而不下结论或推断

变量、常量、连续变量、离散变量、连续数据、离散数据

自变量、因变量、函数、单值函数、多值函数

第二章 频数分布

数组阵列:原始数据按照数量大小升序或者降序排列,最大值与最小值的差为全距;

组距、组限、组界、组中值、直方图与频率多边形

频率分布=某一组频数/总频数

累计频数分布/累计频数表,累计频数多边形/卵形线

累计频率分布/百分率累计频数=累计频数/总频数

第三章 均值、中位数、众数及其他表示集中趋势的度量

一、中位数

定义/解释:按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小

  # 如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

二、方差

参考百科:方差

 1)定义

   方差(variance):是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量


 2)应用

  1、在统计描述中

方差用来计算每一个变量(观察值)与总体均数之间的差异

在许多实际问题中,研究方差即偏离程度有着重要意义

为避免出现离均差(X - 

)总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度

总体方差计算公式:

:总体方差

:变量

:总体均值

:总体例数

实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:S2 = ∑(X -

)2/ (n - 1) 

S2:样本方差

X:变量

:为样本均值

n:样本例数。

  2、在概率分布中

用来度量随机变量和其数学期望(即均值)之间的偏离程度。

在概率分布中,设X是一个离散型随机变量,若E{[X - E(X)]2}存在,则称E{[X - E(X)]2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。

离散型随机变量方差计算公式:D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2

当D(X) = E{[X-E(X)]2}称为变量X的方差,而

称为标准差(或均方差)。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的统计量 

对于连续型随机变量X,若其定义域为(a, b),概率密度函数为f(x),连续型随机变量X方差计算公式:D(X) =

(x - μ)2* f(x)dx,方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大),若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。


三、标准差

# 参考百科:标准差

 1)定义

标准差(Standard Deviation)又常称均方差,是方差的算术平方根,反映一个数据集的离散程度

 2)应用

概率统计中:最常使用作为统计分布程度(statistical dispersion)上的测量。

标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度

测量到分布程度的结果,原则上具有两种性质

为非负数值, 与测量资料具有相同单位

一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。

公式:

假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值算术平均值)为μ

标准差也被称为标准偏差,或者实验标准差,公式:

 3)其它

简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值



四、均方误差

 1)定义

均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。

设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的方差偏倚


 2)名词介绍

相合估计(或一致估计)是在大样本下评价估计量的标准,在样本量不是很多时,人们更加倾向于基于小样本的评价标准,此时,对无偏估计使用方差,对有偏估计使用均方误差。

一般地,在样本量一定时,评价一个点估计的好坏标准使用的指标总是点估计

与参数真值

的距离的函数,最常用的函数是距离的平方,由于估计量

具有随机性,可以对该函数求期望,这就是下式给出的均方误差:


均方误差是评价点估计的最一般的标准,自然,我们希望估计的均方误差越小越好,注意到

上式说明,均方误差

由点估计的方差

与偏差

的平方两部分组成。

如果 

是 θ 的无偏估计,则

,此时用均方误差评价点估计与用方差是完全一致的,这也说明了用方差考察无偏估计是合理的。

不是 θ 的无偏估计,就要看其均方误差

,即不仅看方差大小,还要看其偏差大小,下面的例子说明在均方误差的含义下,有些有偏估计优于无偏估计。


 3)一致性最小的均方误差估计

定义1

设有样本

对待估参数 θ,有一个估计类,称

是该类中θ的一致最小均方误差估计,如果对该类估计中另外任意一个θ的估计

,在参数空间

上都有

使用情况:

一致最小均方误差估计通常是在一个确定的估计类中进行的,一致最小均方误差估计一般是不存在的。

既然一致最小均方误差估计一般是不存在的,人们通常就对估计提出一些合理性要求,如无偏性就是一个常见的合理性要求。 

一致最小方差无偏估计前面曾指出,均方误差

由点估计的方差

与偏差

的平方两部分组成,当

是 θ 的无偏估计时,均方误差就简化为方差,此时一致最小均方误差估计就是一致最小方差无偏估计。


定义2 :

是 θ 的无偏估计,如果对于任意一个θ的无偏估计

,在参数空间

上都有

则称

是 θ 的一致最小方差无偏估计,简记为UMVUE。 



五、估计量

 1)定义

用来估计总体未知参数用的统计量

统计学中,估计量是基于观测数据计算一个已知量的估计值的法则:于是估计量(estimator)、被估量(estimand)和估计值(estimate)是有区别的。

估计值:当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值,英文是estimator。


 2)举例

设(X1,……,Xn)为来自总体X的样本,(X1,……,Xn)为相应的样本值,θ是总体分布的未知参数,θ∈Θ。

Θ 表示 θ 的取值范围,称 Θ 为参数空间。尽管 θ 是未知的,但它的参数空间 Θ 是事先知道的,为了估计未知参数θ,我们构造一个统计量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值,称h(X1,……,Xn)为θ的估计量。


假设存在一个固定的待估参数。那么"估计量"是样本空间映射到样本估计值的一个函数。

的一个估计量记为

。很容易用随机变量的代数来阐述这个理论:因而如果用X来标记对应观测数据的随机变量,估计量(本身视为随机变量)的符号表示为该随机变量的函数,

。对特定观测数据集(即对于X=x)的估计值为一固定值

。通常使用简化标记,用

表示随机变量,不过这会造成误解。


个人理解:

目的:估计总体数据集 X 的分布情况,即 θ;

方法:从总体数据集 X 中抽取一组样本 h,根据 h 的分布以及θ 的取值范围Θ 来估计总体数据集 X 的分布情况 θ。


 3)误差

对于一个给定样本x,估计量

的"误差"定义为

其中

是待估参数。

注意误差e不仅取决于估计量(估计公式或过程),还取决于样本。


 4)均方误差

估计量

的均方误差被定义为误差的平方的期望值,即为:

它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。


 5)一致性

一致估计量序列是一列随着序号(通常是样本容量)无限增大时依概率收敛于被估量的估计量序列。换句话说,增加样本容量增大了估计量接近总体参数的概率。

在数学上,一个估计量序列 {tn;n≥ 0} 是参数θ 的一致估计量当且仅当对于所有ϵ > 0,不管多小,我们都有

就如,一个人不断地抛硬币,随着次数的增多,任何一面出现的概率(机率)就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量,或者说一致估计值。



六、高斯函数、正态分布

 1)定义

格式

abc实数常数,且a> 0;

c= 2的高斯函数是傅立叶变换特征函数。这就意味着高斯函数的傅立叶变换不仅仅是另一个高斯函数,而且是进行傅立叶变换的函数的标量倍。


 2)积分

任意高斯函数的积分是:

另一种形式是:

其中必须是严格积分的积分收敛;


 3)正态分布

参见百科:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

公式:

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

高斯函数是正态分布的密度函数,根据中心极限定理它是复杂总和的有限概率分布

随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布


定理:

由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。

为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)

定义:

随机变量

服从一个位置参数为

、尺度参数为

的概率分布,且其概率密度函数

,则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作

,读作

服从

,或

服从正态分布。

μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

多维正态分布参见“二维正态分布”。

标准正态分布:当

时,正态分布就成为标准正态分布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,796评论 0 3
  • 考试说明 注重基础知识和概念的理解,因此解题中的计算过程不会很复杂,但是会有推公式的过程。本课程的重点知识包括:贝...
    城市中迷途小书童阅读 1,170评论 0 0
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,647评论 0 3
  • 世上最爱我们的男人,是他! 也许他没有出众的外表, 也许他没有正茂的年华, ...
    孙景升阅读 187评论 0 3
  • 1)简书ID Be_myself 2)打卡时长(打卡10天) 3)打卡日期(0919 0920 0922 0923...
    Be_myself阅读 153评论 0 0