登录注册写文章

R语言数据分析

李啦啦卖报行家

R语言数据分析

〇、作业要求

某共享单车公司近期对北京市四个城区的用户进行了满意分数调查。在拿到调研数据后，数据团队负责人想看到 不同城区用户所给分数的分布情况 以及 不同城区用户年龄和分数之间的关系 。

该共享单车公司「用户满意分数调查」数据：R项目数据.zip 。在接到需求和数据后，数据分析师小A认为可以使用 R 处理数据并进行可视化，展现不同城区用户所给分数的分布情况以及不同城区用户年龄和分数之间的关系。

请同学们下载作业数据，并在R Studio 中完成本次分析工作。

分析思路提示：

步骤1：查看数据的结构、类型；

步骤2：数据处理；预览数据后发现有缺失值，建议使用均值或中位数进行补齐；

步骤3：数据可视化；

可以绘制直方图、箱型图、小提琴图等展示分数的分布情况；

可以通过散点图和线性拟合来展示分数和年龄之间的关系；

步骤4：美化图形；

切分多个子图；

设置散点透明度；

设置图形标题及位置；

修改横纵坐标；

步骤5：得出结论；根据可视化结果展开分析，可以从分数分布规律、走向等方面来说明；

完成本次分析后，请同学提交：

1、填补缺失值的采用的统计量以及填补缺失值大小；

2、不同城区用户所给分数的分布情况的分析及结论（可视化图形+文字）；

3、不同城区用户年龄和分数之间的关系分析及结论（可视化图形+文字）；

4、请复制你的完整代码及注释粘贴到作业提交区；

一、填补缺失值的采用的统计量以及填补缺失值大小

我们观察数据发现分数列存在缺失值，考虑本次打分的分值均为整数，我们采用中位数进行补齐。

通过命令

data[is.na(data$分数),]

得到如下缺失信息

利用

median(data$分数,na.rm=TRUE)

计算出整体的分数均值为7，即我们利用分数中位数7来填充缺失的分数，具体命令如下：

data[is.na(data$分数),"分数"]<-median(data$分数,na.rm=TRUE)

二、不同城区用户所给分数的分布情况

从直方图中可以看出，本次调查四个城区高分与低分的频数较高，中间分段的人数较少，调查结果两级分化严重。

三、不同城区用户年龄和分数之间的关系

由下图可以看出用户的打分高低和年龄呈正比关系。年龄越高，给出的满意度分数越高。

四、代码展示

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

R语言数据分析与挖掘-练习随记（未更新完）
对于R语言的学习是在某位知乎大V的推荐下开始的，自己之前的学习不管是针对数据分析，数据挖掘还是机器学习，都是基于P...
橘子侠阅读 4,262评论 0赞 2
学习笔记：R语言数据分析与挖掘（一）
李慧子 R语言是一门功能强大、广受欢迎的数据挖掘类软件。由于工作需要和个人兴趣，本人利用闲暇时间，采用边学习边实...
慧子_33bf阅读 11,780评论 1赞 7

R语言数据分析 | 那些年，我们一起玩过的小游戏
Hello大家好，我是桃子~ 风靡全球的手游“农药”成为了全球营收最高的游戏，游戏注册用户突破2亿人，换句话说，在...
桃桃桃吱吱吱阅读 2,636评论 0赞 0
喜剧与悲剧的交欢
喜剧与悲剧是最常见的剧种，相比于悲剧，现在的人们更愿意欣赏喜剧，因为喜剧可以使人释放压力，缓解情...
白衣小潘安阅读 720评论 2赞 3
《行山图》
山色青绿间空气清也新行者神各异都为行山来
文子湾阅读 390评论 0赞 3

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文