R语言数据分析

〇、作业要求

某共享单车公司近期对北京市四个城区的用户进行了满意分数调查。在拿到调研数据后,数据团队负责人想看到 不同城区用户所给分数的分布情况 以及 不同城区用户年龄和分数之间的关系 

该共享单车公司「用户满意分数调查」数据:R项目数据.zip 。在接到需求和数据后,数据分析师小A认为可以使用 处理数据并进行可视化,展现不同城区用户所给分数的分布情况 以及 不同城区用户年龄和分数之间的关系。

请同学们下载作业数据,并在R Studio 中完成本次分析工作。

分析思路提示:

步骤1:查看数据的结构、类型;

步骤2:数据处理;预览数据后发现有缺失值,建议使用均值或中位数进行补齐;

步骤3:数据可视化;

可以绘制直方图、箱型图、小提琴图等展示分数的分布情况;

可以通过散点图和线性拟合来展示分数和年龄之间的关系;

步骤4:美化图形;

切分多个子图;

设置散点透明度;

设置图形标题及位置;

修改横纵坐标;

步骤5:得出结论;根据可视化结果展开分析,可以从分数分布规律、走向等方面来说明;

完成本次分析后,请同学提交:

1、填补缺失值的采用的统计量以及填补缺失值大小;

2、不同城区用户所给分数的分布情况的分析及结论(可视化图形+文字);

3、不同城区用户年龄和分数之间的关系分析及结论(可视化图形+文字);

4请复制你的完整代码 及注释粘贴到作业提交区;

一、填补缺失值的采用的统计量以及填补缺失值大小

我们观察数据发现分数列存在缺失值,考虑本次打分的分值均为整数,我们采用中位数进行补齐。

通过命令

data[is.na(data$分数),]

得到如下缺失信息

利用

median(data$分数,na.rm=TRUE)

计算出整体的分数均值为7,即我们利用分数中位数7来填充缺失的分数,具体命令如下:

data[is.na(data$分数),"分数"]<-median(data$分数,na.rm=TRUE)

二、不同城区用户所给分数的分布情况

从直方图中可以看出,本次调查四个城区高分与低分的频数较高,中间分段的人数较少,调查结果两级分化严重。

三、不同城区用户年龄和分数之间的关系

由下图可以看出用户的打分高低和年龄呈正比关系。年龄越高,给出的满意度分数越高。

四、代码展示

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容