〇、作业要求
某共享单车公司近期对北京市四个城区的用户进行了满意分数调查。在拿到调研数据后,数据团队负责人想看到 不同城区用户所给分数的分布情况 以及 不同城区用户年龄和分数之间的关系 。
该共享单车公司「用户满意分数调查」数据:R项目数据.zip 。在接到需求和数据后,数据分析师小A认为可以使用 R 处理数据并进行可视化,展现不同城区用户所给分数的分布情况 以及 不同城区用户年龄和分数之间的关系。
请同学们下载作业数据,并在R Studio 中完成本次分析工作。
分析思路提示:
步骤1:查看数据的结构、类型;
步骤2:数据处理;预览数据后发现有缺失值,建议使用均值或中位数进行补齐;
步骤3:数据可视化;
可以绘制直方图、箱型图、小提琴图等展示分数的分布情况;
可以通过散点图和线性拟合来展示分数和年龄之间的关系;
步骤4:美化图形;
切分多个子图;
设置散点透明度;
设置图形标题及位置;
修改横纵坐标;
步骤5:得出结论;根据可视化结果展开分析,可以从分数分布规律、走向等方面来说明;
完成本次分析后,请同学提交:
1、填补缺失值的采用的统计量以及填补缺失值大小;
2、不同城区用户所给分数的分布情况的分析及结论(可视化图形+文字);
3、不同城区用户年龄和分数之间的关系分析及结论(可视化图形+文字);
4、请复制你的完整代码 及注释粘贴到作业提交区;
一、填补缺失值的采用的统计量以及填补缺失值大小
我们观察数据发现分数列存在缺失值,考虑本次打分的分值均为整数,我们采用中位数进行补齐。
通过命令
data[is.na(data$分数),]
得到如下缺失信息
利用
median(data$分数,na.rm=TRUE)
计算出整体的分数均值为7,即我们利用分数中位数7来填充缺失的分数,具体命令如下:
data[is.na(data$分数),"分数"]<-median(data$分数,na.rm=TRUE)
二、不同城区用户所给分数的分布情况
从直方图中可以看出,本次调查四个城区高分与低分的频数较高,中间分段的人数较少,调查结果两级分化严重。
三、不同城区用户年龄和分数之间的关系
由下图可以看出用户的打分高低和年龄呈正比关系。年龄越高,给出的满意度分数越高。