第一节 分布 统计表 统计图
一、分布
分布(频次分布)概念:一个概念或变量,它的各个情况出现的次数或频次。
变量取值要注意的问题:完备、互斥
多选题怎样满足互斥?
多选项二分法(对每一个选项都判断是否选中)
多选项分类法(挑选有限的几个——计算频次)
加权平均法(被调查者对选项排序,打分)
统计图和统计表都是为了表达变量的分布的【分布】
二、统计表
统计表概念:用表格形式来表示变量的分布
注意:百分比统计表要注明统计总数
对于定距变量:要区分它是连续型还是离散型
离散型:与定序变量的制表方法相同——变量按照取值的大小排列
连续型:由于一一列举会分类多并且每一类的频次少,所以采用组距式统计表
分组要注意的问题?
组数:组数太多会增加偶然因素(p30)
等距分组域非等距分组
低收入的月薪差一千生活水平会差很多,高收入的月薪差一千,生活水平不会差很多,所以低收入组距小一些
分组的精度(将标明组界转化为真实组界,+-0.5)
三、统计图
比统计表直观
不及统计表精确
圆瓣图****************************定类************************************
表示变量取值在总体中占的比例
无法体现出变量取值的排列
条形图**************************定类、定序********************************
用长条的高度来表示资料类别的频次或百分比【高度】
长条的宽度没有意义,画成等宽
对于定类变量,条形是离散的;对于定序变量,条形可以是离散的,也可以是紧挨着的
直方图****************************定距*************************************
直方图是由紧挨着的长条组成的
直方图的宽度是有意义的
长条的面积表示频次或相对频次【面积】
长条的高度为频次密度或相对频次密度
这是因为连续型定距变量可采用非等距分组【非等距分组】
例子:26-27岁结婚的频次密度比40-50岁结婚的频次密度大(通过条形高度可以直观看出)
折线图*****************************定距************************************
用直线连接直方图中条形顶端的中点即可得到
离散型用离散的那个值就可以了;连续型应该用组中心值
四、累计图和累计表
了解小于某一变量值或大于某一变量值总共的频次是多少
比较个体在总体中的位置
例子:考80分,超过了95%的人还是50%的人
五、分布图分析
峰点研究
双峰的话,说明数据的实体不属于同一类型
幼儿园既有阿姨,又有幼儿,比较身高是没有意义的
对称研究
正态分布:单峰、对称
左偏态(负向偏态)——左边尾巴拖得比较长
右偏态(正向偏态)——右边尾巴拖得比较长
除此之外,还有U形曲线和J形曲线
U:人口死亡率和年龄 J:婚姻次数与人数