抓紧复习的👣,单变量分布的一些统计方法
简化单变量的分布有哪些常用技术?
测量层次 | 统计表 | 统计图 |
---|---|---|
定类变量 | 频次表、百分比表 | 条形图、圆瓣图 |
定序变量 | 累计频次表、累计百分比表 | 条形图、累计图* |
定距/定比变量 | 组距式统计表 | 直方图、折线图 |
章节思维导图如下:
图1:单变量分布.png
- 单变量的描述统计
- 单变量分析:仅对单一变量进行描述及推断
- 变量分布:变量各个取值出现的次数或频率
- 描述统计:对总体或样本的分布特征进行概括,描述意味着简化
- 举例:毕业生的毕业出路;小鲜肉是否可以提高票房;中国单身成年的是否男多女少;老夫少妻是否更加普遍;中国人和美国人谁的幸福感更高;城市化过程中,新市民的收入是否上升
- 变量的测量层次:定类、定序、定距/定比
- 统计方法的选择:依据变量的测量层次,适用于较低测量层次的方法亦可以适用于较高测量层次
- 制表规范
- 表号:编号
- 表头:标题、时间、地点
- 标识行:第一列为变量名称;第二列为对应的数据说明(表明单位,也可以放在表头)
- 主体行:注意第一列为变量的值标签
- 合计:百分比允许出现99.9%和100.1%同时需要给出(样本量)
- 整体风格:三线表,两边不封口
- 定类变量
- 指标
- 频次分布:又称频数分布,用f表示。表明变量的每个取值在样本中出现的次数。例如婚姻状态
- 百分比分布:用p表示,计算公式为 频数/样本量*100% 离婚率是千分之几,犯罪率是万分之几
- 比值是部分与部分之间的关系;比例是部分与整体的关系;我的胜算是你的三成,这里是比例
- 统计表
- 频次表
- 用频次信息做表,因受总数的影响,通常说明不了问题
- 百分比表
- 用百分比信息做表,更加直观,应用比频次表广
- 注:合计是否为100%可以进行检测计算 需要标注基数(52943),方便与频次表转换
- 频次表
- 统计图
- 条形图
- 长方形的长度表示频次或百分比
- 注:坐标轴单位,视觉陷阱;如:每日新增确诊人数统计图
- 圆瓣图
- 又叫饼图,把一个圆形平面按照数值的比例分割。360°*所占比例即为角度
- 需要表明基数
- 条形图
- 指标
- 定序变量
- 适用于定类变量的方法一样适用于定序变量
- 累计频次表
- 向上累加 cf↑ :向排序高的方向累加
- 向下累加 cf↓ :向排序低的方向累加
- 目的是获取小于等于某值的次数总和(向上累加);大于等于某值得次数总和(向下累加)
- 累计百分比表
- 向上累加 c%↑
- 向下累加 c%↓
- 累计图
- 向上累计图:如每日累计新增确诊人数
- 向下累计图
5.定距/定比变量
- 适用于定类、定序的方法同样也适用于定距或定比层次的变量
- 组距式统计表:将值分为若干组,计算每组的频次或百分比
- 组数:分组的个数,太多太少都可能看不出规律
- 等距分组&不等距分组
- 组限:包括上限和下限
- 标明组界:又称标示组限,用于统计表上标注
- 真实组界
- 真实下界=标明下界-0.5
- 真实上界=标明上界+0.5
- 组距:真实上界-真实下界
- 组中心值:真实上界+真实下界/2
- 直方图
- 分类
- 频率密度(相对频次密度)&频次密度
- 等距分组&不等距分组
- 频次密度:频数/组距
- 频率密度:频率/组距
- 性质
- 横坐标宽度表示组距
- 纵坐标高度表示频次密度或频率密度
- 各个矩形相连排列,其实就是概率分布
- 分类
- 折线图
- 直方图中矩形中点连线得来
- 更易于看出趋势
- 组距无限小时,就是概率密度函数
- J形曲线&U形曲线
- 正态分布&偏态分布(右偏分布峰在左)