这一章节是在吴博士、杜小姐姐和畅畅的关爱下学的。还有卢宝宝。
七门科目,三百多个知识点辐射出来3倍以上的记忆和理解范围。而到最后,还要回到反反复复的识记的死记硬背。因为80分是靠写。在这个过程中,你会怀疑自己的智商,怀疑自己的记忆,怀疑自己的自制力、怀疑自己的意识集中精力,可是这一切却都是正常的。
对不起,这不是一场考试。是一场自己跟自己的战争。
可是,先别放弃。我跟你们在一起呢。
杜姐姐说,统计的精髓都在这张图里。
数据特征:集中
数据类型:一致
第一章:研究中常见数据的特点和整理
数据类型
称名数据:属性和类别不同。不能排序,不可以加减乘除
顺序数据:序列。可以排序,不可以加减乘除
等距数据:间隔。可以加减不可以乘除。
等比数据:想等单位。可以加减乘除。
数据的描述:集中/离中/一致性
算术平均数和计算样本算数平均数的条件
算术平均数简称平均数,反映一组数据分布集中趋势的量数,等于数据总和除以数据个数,用字母 M 谬表示。
计算条件如下;
1、数据同质,用同一种测量工具测量某一特质所得。
2、数值明确。
3、数据离散程度不能太大。
算数平均数的特点
1、反应灵敏,计算严密,简单明了。
2、要求相同测量工具所获得的数据。
3、若数据相对集中,对数据总体一般水平的代表性较好。
4、较少受抽样变动的影响。
中数:一组数据按取值大小排序,位于序列中间的数(序列中间位置两个数的平均数)即为中数。当数据个数为偶数时,中数等于位于序列中间位置的两个数的平均数。
众数:是指在次数分布中出现次数最多的数据的值 。
T检验的条件:
简述利用一组原始数据编制次数分布表的主要步骤
相关系数:两列变量相关程度的数量指标
身高与体重的离散程度
第二章:数据的分布及总体参数的估计
正态分布的特点:
1.连续的概率分布
2. x=μ,曲线呈钟形,中间高,两端低,曲线两端与横轴渐变渐进,但是永不相交。
3. x=μ处有最高点,x=μ+-σ有两个拐点。
4. 正态分布是一族分布,曲线形状:μ决定曲线的位置,μ越大,曲线越靠右;σ决定曲线的高度,σ越大,曲线越低阔(数据离散);σ越小,曲线越高狭(数据集中)。
方差及其公式:方差是反映一组数据离散趋势的量数,它等于一组数据离差平方的平均数。总体方差用 σ2 表示,样本方差用 S2 表示。公式:S2=∑(X--x)2/n=∑x2/n.
X 为观察数据,X-为样本平均数,n 为样本容量。称 x=X--X 为"离均差,简称"离差"
标准差的定义、公式、意义、应 用
定义:方差是每个数据与该组数据平均数之差乘方后的均值 ,即离均差平方后的平均数。标准差即方差的平方根 。
标准差的意义:
1、一个班的分数的标准差越大,说明该班学习成绩不齐,好的好,差的差。
2、若一个老师所出的试卷,学生考试成绩标准差大,说明这个试卷把不同学生的水平区别开了。
3、同一团体多次施测,标准差大,说明测量误差较大。
应用:
1、在正态分布下对标准差的解释
平均数X+-1S, 68.26%
平均数X+-1.96S, 95%
平均数X+-2.58S, 99%
2、用于对数据的取舍:落在平均数X+-3S之外的数据,为异常可以舍弃。
标准正态分数正态分布及其曲线的特点
(1)正态分布是连续概率分布。该曲线是以直线 X=μ为对称轴的对称曲线呈钟形,中间高,两端低;曲线两端与横轴逐渐接近但永不相交。
(2)曲线在 X=μ 处有最高点;在 X=μ±σ 处有两个拐点。
(3)正态曲线的位置和形状依两个参数(μ,σ2)不同而不同。μ 决定曲线的位置,μ 越大,曲线越右移。σ 决定曲线形状,σ 越大,曲线越低阔(标准差越大,数据越离散,曲线越低阔);σ 越小,曲线越高狭(标准差越小,数据越集中,曲线越高狭)。
抽样分布
点估计:总体参数不清楚,用一个特定的值对总体进行估计,就是点估计。
一般用样本平均数-x估计总体参数μ,用样本标准差 Sn-1 估计总体标准差σ.
点估计应满足以下四个条件:
(1) 无偏性:用作估计值的统计量可能会大于参数的真值,有时会小于参数的真值,但要求所有可能的统计量与参数真值的偏差的平均值为零。
(2) 一致性:当样本容量无限增大时,估计值会越来越接近它所估计的总体参数
(3) 有效性:若存在一个无偏估计量,对于其他无偏估计量来说,它的方差是最小的,就是说它的取值是比较稳定的,则这一估计值是有效的 。
(4) 充分性:用作估计值的统计量能够反映样本全部数据所反映的总体的信息。
区间估计:用数轴上的一段距离,表示未知参数可能落入的范围。
置信区间:在某一个置信度时,总体参数可能落入的区间,置信度-置信水平:1-α,是指估计的总体参数落入置信区间的可靠性程度。
第三章:假设检验
假设检验:通过样本的差异推论总体差异就是假设检验。
虚无假设: 用H0表示, 又称零假设。与科学假设相反的假设,假设检验就是通过检验的结果对h0虚无假设进行接受或者拒绝。
备则假设:用H1表示,又称科学假设。在统计学中,无法直接验证科学假设H1的真实性,必须通过设立虚无假设H0来验证备则假设。因此,若虚无假设为真,则备则假设为假;若虚无假设为假,则备则假设为真。
假设检验的基本步骤(5步):
1. 建立虚无假设H0和科学假设H1;
2. 选择统计方法,计算检验统计量
3. 根据样本计算统计量的值
4. 规定显著性水平α,根据检验的类型查处临界值。
5. 根据检验统计量观察值决定原假设取舍。比较临界值和统计量的值:如果统计量值小于临界值,小概率事件则接受虚无假设H0, 拒绝备则假设;如果统计量值大于临界值,则拒绝虚无假设H0,接受备则假设。(不超过(小于等于)阿尔法的事件是小概率事件。)
显著性水平:是一种检验标准,用阿尔法表示,阿尔法=0.05或者0.01,概率<不超过阿尔法的事件就是小概率事件。显著性水平是对拒绝虚无假设H0所犯错误给定的标准。
- α错误:I型错误,虚无假设为真,拒绝虚无假设犯的错误。
- β错误:II型错误,虚无假设为假,接受虚无假设犯的错误。
单侧检验的概念及其应用条件:
单侧检验:查统计表时,按分布的一侧计算显著性水平概率的检验。
应用条件:凡是检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设,都用单侧检验。
双侧检验:查统计表时,按分布的两端计算显著性水平概率的测验。
应用条件:凡理论上不能确定两个总体一个一定比另一个大或小的假设检验。双侧检验的备择假设是 H1:u1≠u2
zhihe秩和检验法:将两样本数据混合起来统一排序,排出等级,再分别计算两个样本的秩和。(“秩”又称等级、即上述次序号的和称“秩和”;秩和检验法就是,通过秩和作为统计量进行假设检验的方法。)
秩和检验的基本思路和使用条件:
秩和检验法是非参数检验,适合两总体为非正态分布的独立样本。其研究思路是将两样本数据混合起来统一排序,排出等级(秩次),再分别计算两个样本秩次之和(”秩和“)。
如果两个样本的秩和 大体相等,则两个总体的均值是相等的。
如果两个样本的秩和 相差过大,则两总体均值可能存在差异。
1) 小样本(N<25,N=n1+n2): 将n比较少的样本数据所得等级相加求和为T,查秩和检验表。
(2) 大样本(N≥25): 计算Z值,查正态表,确定差异是否显著。
选用什么统计方法,进行统计检验
积差相关(皮尔逊相关)系统所需要满足的条件:
积差相关又叫皮尔逊积差相关,两列线性关系且正态分布的数据变量,需满足以下几个条件 :
(1) 不少于 30 对成对的数据。
(2) 两列变量都是正态分布的变量。
(3) 两列变量之间的关系是线性的。
卡方检验的三种应用(03, 07)
答:卡方检验是一种非参数检验,对数据的分布形态不作要求。卡方适用于对计数数据的检验。计数数据通常是用列联表的方式给出的。也能处理连续变量的拟合检验问题。卡方检验适合于对一因素多水平或多因素数据的检验。
(1) 配合度检验
指实际观 察次数 与某种 理论次 数之间 差异的 显著性 检验 ,或 检验某 种次数 分数的 总体是 否服从 某一给 定的理 论分布。属于 单因素 检验。
(2) 独立性检验
根据两变 量的交 叉分类 的次数 表,检 验两个 变量是 独立的 还是 有关的 ,属于 双因素 检验。
(3) 同质性检验
检验两个 样本在 同一变 量上的 分类是 否有类 似的分 数分布 模式 ,即这 两个样 本数据 是否同 质的问 题。
第四章:各种研究设计的方差设计
将非正态分布转变为正态分布的方法
方差分析的基本条件
y=a+bx是y对x的一元回归方程。a为回归常数,b为回归系数。
回归系数:指在回归方程中表示自变量 x 对因变量 y 影响大小的参数。回归系数越大,表示 x 对 y 的影响越大,正回归系数表示 y随 x 增大而增大,负回归系数表示 y 随 x 增大而减小。
测定系数
公共因素方差
第五章:一元线性回归