第一章 浅谈统计学
1、几个概念
(1)总体:在统计研究中,总体是所研究的人或事物的完整集合。
(2)总体参数:总体中对某变量的概括性描述。
(3)样本:样本是总体的一个子集。
(4)原始数据:对样本进行实际测量或观测所收集的数据。
(5)样本统计量:描述从原始数据中筛选总结的样本特征的数据。
(6)误差幅度:描述了一个包含总体参数的值域或置信空间。比如,包含总体参数的值域:”(样本统计量-误差幅度)~(样本统计了+误差幅度)“。误差幅度通常给定95%的置信区间,意味着样本落在该值域范围内的概率为95%。
2、统计学分类
描述统计(第25章),推断统计(第610章)。
3、常用的抽样方法
(1)简单随机抽样:
每个容量相等的样本都有同等被抽取的机会。
(2)系统抽样:
通过简单的系统抽取样本,比如在总体中每隔10个或每隔50个抽取样本。
(3)任意抽样:
使用一个碰巧很容易被选择的样本。比如超市试吃沙拉酱,选取本班做样本统计全校学生。
(4)整群抽样
先将总体分成不同的组或群,然后从中随机挑选几个群作为样本。
(5)分层抽样
将总体至少分为两个层级,从每个层级中抽取样本。
4、统计研究的类型:观察研究,实验研究。
5、盲法
(1)单盲试验:参与者不知道他们是实验组成员还是对照组成员,而实验者知道的实验。
(2)双盲实验:参与者和实验者都不知道参与者是属于实验组还是对照组的实验。
6、两种效应
(1)安慰剂效应:是指患者的情况有所好转,仅仅是因为他们相信自己得到了有效的治疗。
(2)实验者效应:是指调查者或实验者通过某些因素影响研究对象,如通过面部表情、声调或态度。
第二章 统计测量
1、数据类型
(1)定性数据,定量数据
(2)离散数据,连续数据
2、测量尺度
(1)定性数据:定类测量,定序测量。
(2)定量数据:定距测量,定比测量。
3、误差分类
(1)随机误差(不可预知不可纠正),系统误差(以相同的方式影响所有测量值,可以纠正)
(2)绝对误差(描述了测量值与真实值之间的差距),相对误差(将绝对误差的大小与真实值相比,通常表示为百分比)
4、准确度与精确度
(1)准确度:描述了测量值与真实值的接近程度。
(2)精确度:描述了测量中数值的详细程度。
5、百分数,指数(多为百分数乘以100)
第三章 数据的可视化展示
1、频数,频率,累计频数
2、数据分布图
(1)条形图、点图、帕累托图
点图是条形图的一个变形,用点数来表示数值(如4个点表示频数为4)。
帕累托图是条形图的一种变形,条形按频数大小顺序排列。
(2)饼图
(3)直方图和折线图
条形图与直方图的区别:条形图的横轴为离散值(70,75,80);直方图的横轴为连续值(70-75,75-80)。
(4)时间序列图,茎叶图
属于直方图和折线图的变形。
时间序列图:横轴为时间段。
茎叶图:类似于横置的直方图,每一行的条形位置是一组原始数据。
3、媒体中的图表
(1)多维条形图和多维折线图
(2)多层图
(3)地理数据图
(4)三维图
(5)组合图
4、关于图标的一些注意事项
(1)认知扭曲:通过美元图片的大小变化,表示美元的增值贬值。
(2)观察刻度:刻度不从0点开始会使得图形变化更加明显,更容易观察到数据的小幅变化趋势。
(3)象形统计图:插图容易产生误导。
第四章 描述数据
1、均值,中位数,众数
Excel中对应函数:AVERAGE, MEDIAN, MODE
2、统计计算中的舍入保留规则
通常相对于原始数据而言,答案应该多保留一位小数。一般来说,在计算过程中只对最终结果数据做保留,而不对中间数据进行保留。
3、均值容易受异常值的影响,中位数和众数则不受异常值影响。
4、加权平均值:(∑▒〖(x∙w)〗)/(∑▒w)
5、通常用3个特征来描述分布的总体形态
(1)众数的个数:单峰分布,双峰分布,三峰分布
(2)对称性(偏态):左偏分布(负偏态),右偏分布(正偏态),对称分布(零偏态)
(3)离散程度:方差越小越密集,峰值越高;方差越大越分散,峰值越低。
6、离散程度的测量
(1)极差:最大值减去最小值的差值。
(2)五数概括法:最小数,下四分位数,中位数,上四分位数,最大值。
常用来制作箱形图。
(3)百分位数:65百分位数,89百分位数
(4)离差:数值-均值
(5)标准差:越小越密集,越大越分散。
7、标准差
8、极差经验法则
(1)标准差≅极差/4
(2)最小值≅均值-(2标准差)
(3)最大值≅均值+(2标准差)
(4)当最大值与最小值为异常值时,极差经验法则不再适用。
9、道琼斯指数,基尼系数
第五章 正态的世界
1、正态分布的特征
(1)单峰、对称的钟形分布。
(2)中位数、均值、众数相同,对应着单峰的峰值。
(3)离散程度用标准差来表示。
2、频率与正态分布
(1)与横轴一定范围内数值相对应的、正态分布曲线下方的面积,是这些数值的频率。
(2)由于频率总和必然为1,正太分布曲线下方的面积之和一定为1,或100%。
3、正态分布需要的条件
(1)大多数数值集中于均值附近,使分布有一个良好的峰值;
(2)数值均匀地分布在均值周围,使分布对称;
(3)与均值的离差越大,出现的频率就越小,形成分布逐渐减小的尾部;
(4)个别数值是由多种不同的因素共同作用造成的,如遗传和环境因素。
4、正态分布公式:
y=e^(-1/2 〖[(x-μ)/σ]〗^2 )/(σ√2π)
其中,均值μ(mu),标准差σ(sigma)
5、正态分布的3σ原则
(1)大约68%(更精确的是68.3%)的数值落在距均值1个标准差的区间内。
(2)大约95%(更精确的是95.4%)的数值落在距均值2个标准差的区间内。
(3)大约99.7%的数值落在距均值3个标准差的区间内。
6、识别不寻常的结果
我们发现大约95%的数值位于距均值2个标准差的范围内,意味着5%的数值距均值超过2个标准差。
那些距均值超过2个标准差的数据,便是不寻常数值。
7、标准分数=(数值-均值)/标准差。
例如,大于均值2.4个标准差处的标准分数z=2.4
8、标准分数和百分位数表
根据标准分数,可以查询得到对应的百分位。例如,你的成绩位于45百分位上,意味着你的成绩高于45%的人。详见标准正态分布表。
9、中心极限定理
(1)解释1:
(2)解释2:
(3)文字描述
假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么:
a 在大样本情况下,均值的分布将近似于正态分布;
b 在大样本情况下,均值分布的均值近似等于总体均值μ;
c 在大样本情况下,均值分布的标准差为σ/√n,其中σ为总体标准差。
(4)
从实际意义上讲,如果样本容量大于30,均值的分布就接近正态分布。
10、中心极限定理的意义
如果我们知道总体的均值和标准差,那么中心极限定理使我们可以研究样本组的均值。这十分有用,但更为重要的是它的反向应用。
统计主要的两个任务在于估计总体均值和对总体均值进行假设检验。假设我们不知道某一变量的总体均值,如果仅仅知道某个较小样本的均值,我们能否对总体均值(比如全部互联网使用者的平均收入)进行良好的估计呢?中心极限定理提供了回答这类问题的关键。