从零学数据分析:简单数据分析(李强实践笔记)

从零学数据分析:简单数据分析(一块听听的课程)

猴子的一个观点:未必要同时学那么多课程,可以先学习“r语言”在等到觉得统计学有必要开始学习的时候再开始学,否则太枯燥的理论,人们很难坚持下去

月均消费次数:把每个人的所有消费次数合并在除以12

月均消费金额:把每个人消费的钱合并在除以12

客单价:一定时间内所有金额除以所有客人的总数

开始数据分析:

第一步将excel数据读入到r语言中,最常用是“XL Connect”包和“openxlsx"包

个人比较喜欢”openxlsx“包,只要读取文件的路径

大部分的时间都用在对数据预处理中,然后得到想要的数据

install.packages("openxlsx")

library("openxlsx")

readFilepath <- "c:/朝阳医院2016年销售数据.xlsx"

excelData <- read.xlsx(readFilepath,"sheet1")

实际操作时把excel表命名为“朝阳医院2016年销售数据”放在了一个D盘名字为“朝阳医院2016年销售数据”的文件夹中,结果使用raadFilePath读取不出来,报错后把命名为“朝阳医院2016年销售数据”的excel表直接放在D盘中,在使用“readFilepath立马读取出来了,非常高兴,在单位的会议室激动的跑来跑去,大喊大叫,李强厉害,比吃了蜜还甜,真的要记住这样克服了学习困难中的激动时候,真的比”性“,”物质奖励”等刺激都要兴奋,这也是老天对热爱学习的人最好的回馈。



导入数据我都花费了很多的时间,开始是没有"readxlsx"函数需要升级R的版本到3.4.1,各种谷歌搜索,折腾半天升级成功,在R中导入的数据不完整,转身在RSTUDIO中输入,并在google中搜索关于这一讲的学习笔记,终于成功完整导入数据,开心,对别人来说是一个很小的进步,对我来说是很大进步,越来越爱学编程了,感谢自己不嫌起点上的自己的笨拙。



预处理2:列名从命名

在编码的世界里,使用英文会好的多

3.处理缺失数据

在r中缺失值用”na“表示na.omit可以删除所有缺失数据的行

excelData <- excelData[!is.na(excelData$time),]

十个逻辑运算符:

<  小于

<= 小于或等于

> 大于

>= 大于或等于

== 严格等于

!=不等于

!x   非x

x | y   x或y

x & y    x和y

isTRUE(x)   测试x是否为TRUE


4.处理日期格式

我们不需要time中的星期几的格式,我们要做的是如何将这一列的日期字符串格式分开出我们想要的字符串,这就需要使用到R语言中的字符串处理包stringr,以后遇到字符串处理的问题只要google这个包就好了,学会如何解决问题比直接告诉答案更有效,


这里面急了,stringr包没安装完就直接往后面敲代码,开始敲出来的代码是这样的,以为是stringr包没有安装完的原因,谁知道安装完以后还是这样,什么原因????这时候没管那么多心想着先完成往后敲代码吧,一定要多鼓励自己,谁说自己学不好数学和编程的啊,我一定能学的好


class函数用于查看某一列的数据是什么格式,我们需要对日期进行一些特殊计算,我们看到日期还是字符串格式,需要将他们转换为日期格式,as.date函数就可以将字符串转换成日期格式

类型转换函数

is                                                                as

is.numeric()                                      as.numeric()

is.character()                                    as.character

is.vector()                                         as.vector()

is.matrix()                                          as.matrix()

is.data.frame()                                 as.data.frame()

is.logical()                                           as.logical()


数据预处理总结

step1:列名重命名

step2:删除缺失数据

step3:处理日期

step4:数据类型转换

step5:数据排序

总消费次数






似得

经历反反复复的很多次一边听老师的课程一边敲代码,竟然都敲不出来,实在很沮丧,那种熟悉的遇到困难是的“恐惧”与“自责”如期而来,这时候我脑子里想起了笑来老师的话,任何技能的习得,都只能靠“反反复复重复很多次”才能熟练乃至精通,那就再多练一次,在Rstudio中又新建了一个命名为“3”的项目,从头老老实实开始敲代码,这一次如有神助似的一路敲代码过来,一切正常,写到这里,我才深刻理解笑来老师的“每一步都算数”的意思,前面的困惑,迷茫,恐惧,不停的探寻都是有意义的,而且必须经历这样不停探寻的过程,(我忽然想起了自己的前半生都是在跌跌撞撞中探寻着,遇到笑来老师既是偶然又是必然,最要感谢的人其实是自己,最困难的时候没有放弃自己,不停得努力学习,撞得头破血流也没有放弃对生命的探求)只有前面的反反复复才有后面的豁然开朗,“困难是上帝给你的礼物"这句话从来不是”鸡汤“,而是事实,只是在困难的时候要多”鼓励自己“告诉自己我只是”暂时没有成功“而已,一个人的任何东西都可以被剥夺,唯独人性最后的自由,在任何境遇中选择一己态度和生活方式的自由不能被剥夺.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,914评论 18 139
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,926评论 1 10
  • 原文链接 《Python数据分析》(Python for Data Analysis, 2nd Edition)第...
    李绍俊阅读 8,558评论 0 5
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,764评论 18 399
  • 文/二刀 健康是人生幸福的基础,人人想健康。但是看身边的人,真正健康的没有几个,大多处在亚健康状态。一年三百六十天...
    二刀阅读 2,140评论 20 26