统计学:收集、处理、分析、解释数据并从数据中得出结论的科学
统计学所提供的是是一系列有关数据收集、处理和分析的方法。
收集数据:取得数据
处理数据:图表展示
分析数据:利用统计方法分析数据
数据解释:结果的说明
得到结论:从数据分析中得出客观结论
数据分析
数据分析是利用统计方法对数据进行分析,数据分析所使用的方法大体分为两种:描述统计与推断统计(descriptive statistics & inferential statistics)
一、变量与数据
- 变量(variable):描述所观察对象某种特征的概念,其的特点是从一次观察到下一次观察可能会出现不同结果
观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样
“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量
- 数据(data):变量的观测结果
二、变量分类
-
类别变量(categorical variable)
取值为事物属性或类别以及区间值的变量,也称分类变量(classified variable) 或 定性变量(qualitative variable)比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是事物的属性此外,考虑学生月生活费支出的档次可能分为1000以下、1000—1500、1500—2000、2000以上4档,作为变量的“月生活费支出档次”这4档取值也不是普通的数值,而是数值区间,因而也称为区间值类别变量
类别变量根据取值是否有序分为两种
名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的
顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序
当类别变量只取两个值时也称为二值(binary)类别变量,例如“性别”这一变量取值为男和女。二值变量可以看成名义变量,也可以看成有序变量 -
数值变量(metric variable)
取值为数字的变量,也称为定量变量(quantitative variable)数值变量的观察结果称为数值数据(metric data)或定量数据
数值型变量根据其取值的不同,可以分为离散变量(discrete variable)和连续变量(continuous variable)。离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,当离散变量的取值很多时,也可以将离散变量当作连续变量来处理
三、数据的来源
- 寻找二手数据
- 抽取样本
总体(population):包含所研究的全部个体(数据)的集合
样本(sample):从总体中抽取的一部分元素的集合
样本量(sample size):构成样本的元素的数目 - 概率抽样方法
例如简单随机抽样、分层抽样、系统抽样、整群抽样等。
四、概率抽样方法
概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样
特点:
按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计算出来的
当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率-
简单随机抽样(simple random sampling)
从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 。抽取元素的具体方法有重复抽样和不重复抽样特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
简单随机样本(simple random sample): 由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本
分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
优点:
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematic sampling)
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
优点:操作简便,可提高估计的精度
缺点:对估计量方差的估计比较困难整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差