《爱上统计学》——学习笔记

Chapter1

什么是统计学（statistics）？
统计学是描述一系列可用于描述/整理/解释资料或数据的统计工具和技术。
什么是描述统计（descriptive statistics）？
描述统计常用于整理/描述所收集数据的特征。
什么是推论统计（inferential statistics）？
通常是数据收集和汇总后的下一步，常使用较小群体的数据来推论可能的较大群体的特征。

Chapter2-平均数

平均数（average）是最能代表一组数据的数值，也叫做集中趋势量数（measures of central tendency），一般有三种形式：均值（也称为算术平均数 arithmetic mean），中位数和众数。要注意平均数不只是均值，它有很多种不同的类型。

均值与极值
均值对极值很敏感，极值的存在会是的均值向一方或是另外一方倾斜，使得均值对数据组的代表性减弱，同时作为集中趋势量数的有效性减弱。
对样本值和总体值的区别
样本统计值使用罗马字母，而总体参数值使用希腊字母。
百分位点
25百分位点通常用Q1表述，75百分位点通常用Q3表示，Q2即中位数。

中位数

在一些特定的分析中，使用中位数作为集中趋势量数，因为有时候存在太多的极值改变/扭曲了一个数据组或数据分布中心点的情况，因为中位数关注的是有多少个体而不是这些个体的数值，所以极值（奇异值）不会对它产生影响。
均值是一系列数值的中间点，而中位数是一系列个体的中间点。

众数

众数是最笼统/最不精准的集中趋势量数

三种平均数的选用

选用哪一种集中趋势量数要依赖于所要描述的数据类型。
定性数据/类别数据/定类数据（种族群体，眼睛颜色，收入档次，选举次序）的集中趋势只能使用众数来描述。
中位数和均值最适合定量数据（身高，年龄，反应时间）。

三原则
1- 如果数据是分类类型的，且数值只属于一种类型（头发颜色，政治背景），就使用众数。
2- 如果数据中包含极值且不想扭曲平均数，就使用中位数。
3- 数据不包含极值且也不是分类数据就使用均值

Chapter3-变异性

变异性（variability，也被叫做散步/离散度）可被看作是对不同数值之间的变异性的测量，可以看作每个数值和特定值之间的差异程度。
变异性的三种量数：极差/标准差/方差。它们通常用于描述一组数据的变异性/散布/离散度。

极差

极差是对变异性最笼统的测量。

极差有两种类型：不包含极差与包含极差
不包含极差：用最大值减去最小值（h-l）。
包含极差：最大值减去最小值再加一（h-l+1）。

标准差

标准差（standard deviation 缩写为s或SD）表示一个数据组中变异性的平均数量。实际的含义是与均值的平均距离。标准差越大，每一个数据点与数据分布的均值的平均距离越大。

标准差的计算：

为什么是n-1而不是n？

因为s是总体标准差的估计值，但是只有我们用n-1的情况下才是无偏估计。使用n-1会是的标准差大于实际的大小。但在这种情况下，如果不得不出错，我们出差也是过高估计了总体的标准差。

n规模对无偏估计和有篇估计之间的差异的影响

在其他各项一致的情况下，样本规模（n）越大，标准差无偏估计和有篇估计之间的差异越小。
平均偏差（mean deviation）
也叫平均绝对偏差，是均值偏差的绝对值的总和（|-6|+|6|+|1|+|2|+|-3|=18）。
极值
和均值一样，标准差对极值很敏感。
s=0
当s=0时，这组数据没有一丁点的变异性，而且各个数值都一样。

Chapter4-图表

频数分布（frequency distribution）
是记录和展现特定数据出现次数的方法
组距（dess interval）
直方图
累计频数分布（camulative frequency diseribution）：建立组距内数值的累计发生频数。
偏度（skewness）
是对数据分布对称性确实或者分布不平衡的测量。
正偏度：右侧尾巴比左侧尾巴长，相应的就是分布的大数值一端的发生次数较小。
负偏度：左侧尾巴比右侧尾巴长，相应的就是分布的大数值一端的发生次数较大。
偏度的计算：偏度是通过均值减去中位数计算得来。

还有更复杂的公式，它因为考虑了数据分布的标准差，所以计算得到的偏度指标能够相互比较：
峰度（kurtosis）
它与数据分布看起来是扁平还是陡峭有关，而且用于描述这个特征的概念是相对的。

峰度的计算：
柱形图
比较不同分类之间的频数可以使用柱形图。
条形图
条形图与柱形图一样，但是在条形图中，分类项在垂直轴y轴上显示，数值在水平轴x轴上显示。
线图
使用相同的组距来表示数据的趋势。
饼图
表示组成一系列数据点的项目的比例

Chapter5-相关系数

相关系数（correlation coefficient）是反应两个变量之间的关系的量化指标。两个变量的相关又被称为二元相关。本章主要讨论的相关类型是皮尔逊积距相关（Pearson product-momentcorrelation）。
皮尔逊相关系数考察两个变量之间的关系，但这些变量的属性是连续的。不连续的变量可以使用其他相关。
相关反应量间关系的动态性质：如果变量变化方向相同，相关便是同向相关（direct correlation）或正相关（positive correlation）。如果变量变化方向相反，相关是反向相关（indirect correlation）或（negative correlation）。

注意点：
相关系数的值域范围是[-1,1]。
相关系数的绝对值反应相关的强度。
相关适用于反应每个个体至少有两个数据点（或变量）的状况
皮尔逊积距相关系数用小写字母r表示，r的下标表示相关的两个变量。

相关系数反映两个变量共同变化的程度，如果两个变量之间不存在任何一起变化的部分（变异性），那么这两个变量便不相关。
如果限制或控制一个变量的值域范围，这个变量和其他变量之间的相关系数相对于变量的值没有限制的情况来说会更小。

计算简单相关系数

变异性产生影响，不应该人为地限制变异性。

理解相关系数的含义

经验法则：

经验法则依赖主观判断。
更精准的判断方法：
计算决定系数（coefficient of determination）
决定系数是一个变量的方差可以被另一个变量的方差解释的百分比。

两个变量共享的特征越多，它们越相关：

计算决定系数是为了确定一个变量的方差可以被另外一个变量的方差解释的程度，决定系数就是相关系数的平方。

其他重要的相关系数

Chapter6-信度与效度

如果用来收集数据的工具是不可信或无效的，那么任何假设检验的结果都不会有结论。如果不能确定检验能够完成那些应该完成的工作，并且保持一致性，那么怎么知道得到的显著性结果是由于有问题的检测工具，而不是在零假设为真的情况下拒绝了零假设？为了得到一个清白的零假设检验，就应该关注信度（reliability）和效度（validity）。

测量

为什么学习测量
学习测量是为了在分析和解释数据之前，确保得到的数据是自己想要的，是可信的。
为了保证整个数据收集过程以及那些代表一定意义的数据都是有用的，首先要确保用于收集数据的工具能发挥作用。信度和效度便可以用来检测这些。
信度——如何知道每一次使用的检验/量表/工具等都能发挥作用？
效度——如何知道每一次使用的检验/量表/工具等都能够测量想要的内容。
测量
测量是依据一定的规则给观察结果分配一定的数值。
测量尺度（scales of measurement）
测量的尺度或规则是测量观察结果的特定水平。每一个水平都有特定的属性特征集。
测量尺度的四种类型：
定类测量尺度（nominal level of measurement）：是以观察结果的属性特征定义的一个分类/层级。例如：性别（男或女），头发颜色（黑色或黄色）。定类测量水平各个类别是相互互斥的。
定序测量水平（ordinal level of measurement）：“序” 表示次序，而且被测量的事物按照它们的属性特征排序。例如：面试的次序，教育水平。
定距测量水平（interval level of measurement）：指检验或评估工具是基于某种连续的量值。不同数值之间的间距相等。
定比测量水平（ratio level of measurement）：它确立测量对象之间的比率。它是最高层次的测量，除具有定类测量、定序测量和定距测量的特征外，还要求具有实在意义的真正零点（绝对零值）。真正零点：答错了IQ测试的每一道题目，不能意味着IQ为0。
测量尺度的层次
测量尺度是有一定层次的，由定类测量尺度（最低）->定序测量水平->定距测量水平->定比测量水平（最高）
比较高的测量尺度包含所有在其之下层次的测量尺度的特性。
测量的尺度层次越高，其收集的数据越准确，并且包含的细节和信息越多。

信度

信度（reliability）就是一个测试或者使用的其他任何测量工具对事物的测量可以保持一致性。（不同时间/不同工具/不同地点对事物测量结果的一致性）。

信度的类型与计算
再测信度（test-retest reliability）：
用于检测一个测试在不同时期是否可信，是检测不同时间的变化和差异所必须的信度。
可以计算皮尔逊相关系数作为量度。
复本信度（parallel forms reliability）：
用于检测相同测试的不同复本的等价性和相似性。
可以计算皮尔逊相关系数作为量度。
内在一致性信度（internal consistency reliability）：
用于确定测试中的项目是否彼此一致，都只表示一个维度/一个结构/一个关注的领域。
计算：使用科隆巴赫系数。测试中每一项的得分与总分的变化越一致，这个系数的值就越大。系数值越大，就越可以确信这个测试是内在一致的。科隆巴赫系数实际上是计算每个测试者在每个项目上的得分和总的得分之间的相关系数，并与所有单个项目得分的变异性进行比较。

科隆巴赫系数公式：
评分者信度（interrater reliability）：
是两个评分者对观察结果判断的一致程度的测量。

计算：
信度系数的解释：
信度系数是正向的。
信度系数一般很大（在0-1之间）。
信度是代表观察值产生的误差是多少的一个函数，误差越小，信度就越高。

效度

效度（validity）表示工具能够测量想测量内容的程度。

效度的种类：

内容效度（centent validity）：就是测试项目能代表要测量的总体项目的性质。

准则效度（criterion validity）：是评价测试是否在现在和将来的情境中反应一组能力。如果准则是发生在现在，我们就讨论同步效应（concurrent criterion validity），如果发生在将来，我们就讨论预测效度（predictive criterion validity）。
建构效度（construct validity）：建构效度是基于测试或测量工具背后的基本结构或概念的。

信度与效度

效度的最大值等于信度系数的平方根。测试的效度收到信度的约束。

Chapter7-假设

假设（hypothesis）：一个好的假设将问题陈述或研究问题转换为更适合检验的形式。假设检验用于样本（sample），然后才将结论一般化到更大的总体（population）。
抽样误差（sampling error）：测量样本和总体特征近似程度的量数。基本上是样本统计值和总体参数值之间的差异。抽样误差越大，抽样过程中的精确性越低，且应用样本中的发现真实反应总体中预期发现就更加困难。

零假设

零假设（null hypothesis）：是变量间无关的陈述。
零假设是研究的起点，在没有其他信息的情况下零假设就被看作是可接受的真是状态。就算两个群体之间存在任何差异，你必须假定这些差异是出于偶然。
零假设可以提供和观察到的结果进行比较的基准，进而分析是否是由于其他因素引起这些差异。
研究假设（research hypothesis）：是变量间有关系的明确陈述。
它有两种形式：
无方向研究假设（nondirectional research hypothesis）：反映群体间的差异，但是差异的方向是不确定的。（xxx与mmm是不同的）。
有方向研究假设（direction research hypothesis）：反映群体间的差异，且差异的方向是确定的。（xxx大于mmm）。
单尾检验和双尾检验
单尾检验（one-tailed test）：反映有方向假设，假定了特定方向的差异。
双尾检验（two-tailed test）：反映无向假设，假定差异没有方向。

Chapter8-概率

正态曲线
正态曲线（normal curve）也叫钟形曲线就是具备三个特征的数据分布的形象表示：1-表示均值，中位数，众数相等的数值分布。2-以均值为中心完全对称。3-其双尾是渐近的。
z值
我们在一些研究中需要对不同处理的分布进行比较，这时便需要标准化，得到标准值（strandard scores），然后进行比较。

z-score是原始数据与数据分布均值的差除以标准差所得的结果：

z-score表示原始数据点距离均值多少个标准差，越大表示越远。

Chapter9-显著性

在大多数涉及假设检验的科学研究中一定存在一定数量的不可控误差（偶然性因素）。你愿意承担的风险水平或者概率水平就是显著水平。
显著水平（significance level）是不能100%确信试验中观察到的结果是处理因素或需要检验的因素引起的所要承担的风险。
统计显著性（statistical significance level）是指零假设为真的情况下拒绝零假设所要承担的风险水平——犯第一类错误要承担的风险。

不同类型的错误
检定力
检定力是关于统计检验如何很好检验和拒绝一个虚假的零假设的概念。可以用1减去第二类错误的值得到。
重要的统计显著性结论
统计显著性本身或内部是无意义的，除非所执行的研究具有合理的概念基础，可以由此推导结果具有显著性的意义。
统计显著性不能脱离背景进行解释。

选择用于检验的方法

这是一般流程，快速但不总是最好

显著性检验介绍

推论统计的优势是由样本得到总体特征。进行推论的最有用的工具之一就是统计显著性检验。
显著性检验基于：每一类的零假设都与特定的统计类型联系在一起，而每一种统计类型与特定的分布联系在一起。

零假设进行统计检验的步骤：

1-零假设的陈述
2- 设置零假设的风险水平
3- 选择恰当的统计量
4- 计算检验统计量
5- 计算临界值
6- 比较实际值和临界值
7- 如果实际值大于临界值，拒绝零假设，接受备择假设。
8- 如果实际值小于临界值，接受零假设，拒绝备择假设。

Chapter10-独立样本t检验

独立性表示两个群体在任何方面都不相关。

每一个统计检验都有特定的假设支持检验的使用。如t检验的一个主要假设是两个群体中每个群体的变异性的量是相等的（方差齐性假定）。

独立样本t检验的t值计算公式：

群体内与群体之间的变化的数量构成分母

独立样本t检验是检验两个不同群体或独立群体之间的均值差异。

自由度（degrees of freedom，df）：自由度近似于样本规模。
独立样本t检验的自由度是n1-1+n2-1。

效应量

在知道了差异的显著性后，还应该讨论这么做是否有意义。

效应量（effect size）是对两个群体之间如何相互不同的测量（对处理规模的测量），类似于多大才能算是大。

效应量的表现是每个群体相对于另一个群体之间位置。效应量越大就意味着两个群体重叠的部分越少。

计算效应量：效应量的计算方法有许多种

1- 最简单，最直接的方法：以均值之间的差除以任何一个群体的标准差

2- 稍微复杂的公式：使用综合的标准误差作为分母

Chapter11-非独立样本t检验

非独立样本均值检验表明的是相同的群体在不同的条件下进行相同的研究。

非独立样本t检验统计量的计算：

非独立样本t检验的自由度：n-1。n为配对观察的参与者数量。

在选择检验方法流程图里面，因为是两个群体所以选择非独立均值t检验，这里面两个群体不是参与者群体而是相同参与者的两组成绩。

Chapter12-简单方差分析

在需要检验两个以上的群体，并比较这些群体的平均成绩所以使用方差分析。简单方差分析简写：ANOVA。
方差分析的检验统计量是F统计量以建立者B.A.Fisher命名。

方差分析的不同类型
最简单的形式是简单方差分析（simple analysis of variance）：只分析一个因素或者处理一个变量，且有两个以上的群体受到这个因素的影响。也叫做一元方差分析（one-way analysis of variance），因为只有一个维度。
析因设计（factorial design）：是分析一个以上的处理变量。它遵循和简单方差分析一样的基本逻辑和原则，但需要同时检验一个以上的因素的影响以及多因素综合的影响。
选择简单方差分析的条件：

计算F检验统计量：

F统计量是检验 ‘群体之间有差异’ 假设的统计量。MSbetween是组间差异，MSwithin是组内差异

各差异平方和的计算：

最后计算差异平方和的均值：使用各差异平方和除以自由度。
自由度：对于组间估计来说，自由度是k-1（k是群体的数量），对组内估计来说，自由度是N-k（N是总的样本规模）。

在讨论方差分析时，不需要确定单侧或双侧。因为要检验两个以上的群体，且因为F检验是综合的检验（检验均值之间的所有差异）。讨论特定差异的方向没有意义。

t值与F值的关系
t值总是用于两个群体的均值差异的检验，F值总是用于两个以上群体的检验。
两个群体的F值等于两个群体的t值的平方，即 F=t*t 。
事后比较检验/既成事实检验
在进行了群体之间的分析后，知道了群体之间存在差异，但是并不知道差异所处的位置，这时要进行事后（post hoc）比较检验或即成事实（after-the-fact）分析。也就是每一个群体的均值和另外一个群体的均值之间的比较。

Chapter13-析因方差分析

析因方差分析（factorial analysis of variance）：是分析一个以上因素且两个以上群体的一种方差分析方法。

主效应（main effect）：如果数据分析表明某个因素的不同层级之间存在差异，就能说存在主效应。
交互效应（interaction effect）：两个因素之间的不同效应存在差异显著性。
析因方差分析的零假设有多个：
对不同群体之间的零假设
对不同因素之间的零假设
对群体与因素之间的交互效应零假设

Chapter14-相关系数检验

相关系数假设检验的单侧检验便是判断其关系是同向的还是反向的。使用相关系数的t检验，对相关系数的显著性进行检验。在这里，不需要额外的计算检验统计量，计算得到的r值便是我们的检验统计量。

自由度：
n-2，n为计算相关系数的配对数量。
显著性检验：可以查表也可以计算t值检验相关系数的显著性。

Chapter15-线性回归

估计：就是使用已经收集的数据集计算变量如何相关，接着使用相关系数以及x的信息来估计y。
相关系数的绝对值越大，依据相关以一个变量估计另外一个变量的准确性就越高，因为这两个变量共享的部分就越多。
回归线也称为最优拟合线（line of best fit），回归线最好的拟合了数据，它将每个数据点与它本身的距离最小化。

线性回归线公式：

如何评价估计的好坏：
计算标准估计误差（standard error of estimate）：计算每一个数据点偏离与估计的数据点的平均数量。
当相关系数为1或-1的时候，标准估计误差就是0。

多元回归（multiple regression）：使用不止一个估计变量去估计另外一个变量。
一般使用更多的估计变量去估计是因为新加的估计能对估计产生独特的贡献，是不可替代的，在加入这些估计变量后能更好的进行估计。一般不同的估计变量之间的要独立、不想关。

Chapter16-卡方和其他非参数估计

在前面的支持均值之间的t检验是在方差齐性的假定下成立的。很多参数估计都是基于一些最基础的假定才能成立，当假定不成立的时候，则使用非参数统计（nonparametric statistics）
卡方检验不基于一些预定的假设。
卡方检验是进行观察值与随机预期值之间的比较

单样本卡方检验

单样本卡方检验的卡方值计算公式

单样本卡方检验的拟合优度：一个数据集拟合现存的数据集的程度

其他非参数检验

chapter17-其他重要的统计过程

多元方差分析（MANOVA）
用于不止一个依赖变量的情况。如果依赖变量或结果变量之间相关，就很难确定处理变量对单个结果变量的影响，这时可以使用多元方差分析
重复测量的方差分析
协方差分析（ANCOVA）
将群体之间最初的差异等量化
多元回归
因子分析