从开始学习R语言,到今天,已经过去5个多月了,从最初的新鲜,到后来的初探R语言的神奇,到如今竟然已经到达第五关了。
感谢猴子老师搭建的学习平台和学习闯关模式,回头想想,如果当时没有参加《从零学会大数据核心:数据分析》系列课程,恐怕现在R语言已经与我形同陌路了。
这5个多月,我学习了什么?
各关学习内容:
各关实践和输出如下:
第一关:订学习计划。这关明确学习目的,和订立学习计划。
第二关:以一种独立的姿态开始R语言之旅
主要是《R语言实战》的第一二章的学习。在敲代码中不断地碰壁,不断地遇到“Error”的提示,也只能硬着头皮往前(后来发现,硬着头皮往前是学习中的常态)。解决之道主要是通过网络搜索答案和自己在代码框中“折腾”。这一关,主要是熟悉了R语言的一些基本操作,还看不到R语言能做出的成果
第三关:循序渐进的R语言第二程
这一关还是继续《R语言实战》的学习,第三和第四章的学习就需要拿例子还做练习了,和第一关一样,用书中的代码,但常常还是碰到问题,于是又请教高手,又查阅网络。这次发现了百度和谷歌搜索信息结果的差别,同一个搜索关键词,谷歌中的搜索结果明显就更有用,最终帮我解决了问题。这关练习是有输出图形的,虽然还初级。但是可定制的因素非常多,以此看出,R语言在不同人手中,呈现的结果差别可以是大得惊人的。这点和office中的作图是有很大区别的,office中的数据图绘制图形化界面,但样式相对来说较少。
第四关:
泰坦尼克事件探秘
HADLEY WICKHAM<R for Data Science>13.1-13.3(翻译)
在Kaggle上见到了世界各地的数据分析高手的比拼,实战作业就是以戏剧化的泰坦尼克事件做练习,以train样本预测test样本中各人的存亡结果。开始是一头雾水,同样是在网络上找范例,跟着一步步地敲代码,从当时的传说中推导可能的存亡规律,再到数据中印证,再去预测,再优化条件,再预测,从最初的Kaggle排名6000+跃升至3000+。
第五关:SQL学习
这一关学习SQL,书本是《深入浅出SQL》,不象前几关学习二章内容,因为是学习一本书,因此这是学习时间最长的一关,但也是不可或缺的一步,因为SQL是打下R语言和数据库连接的一关。
同时这关还对泰坦尼克事件预测做了进一步优化,当完成文章在知乎上提交后,很悲催的,竟然消失了。不过优化内容花了很长时间,也是跟着一位大牛的预测一步步做的练习。意义就在于反复地练习,熟悉R语言的预测语句,揣摩预测形成的各判断如何落实为一个个语句。经过这次优化,Kaggle排名上升到2000+。
专栏文章分析
应社群要求,第一关就开始将每一次的学习回顾和作业发布在知乎上,同时部分文章我也在简书上发表了。(这里吐个槽,有一篇知乎文章莫名其妙地消失了,之前和之后都没有知乎通知,最近在知乎上写的文章提交后也莫名消失了,投诉后没有任何回音,非常没有安全感。)
目前可见的知乎主页的访问数是264次,简书上三篇文章的阅读量是197次,点赞数和评论不多,基本上是鼓励为主。从简书上可以看出单篇文章阅读量,最大的是第三关:《循序渐进的R语言第二程》。阅读量主要跟标题有关,入门的文章看来吸引力不大,而“第二程”可能给出的信息是进阶的程度,因此引来了更多的阅读量。
反思
R语言学习中最有收获的还是在有明确目标的实践中,从第三关开始,我们就有具体的案例着手练习,所有的书上的知识点要变成可用的语句,才能出来想要的结果。这个过程中会不断地学,不断地用,然后再回去学。
R语言学习的周期还是不短的,目前学习还只是入门,希望之后用更多的实践去倒逼输入,数据分析能力不断升级!