Day 3-R包安装

2020-10-20, Tuesday


照常,先总结B站教学视频,再总结阅读教材后的读书笔记。


教学视频10: 《基本操作》

实操: 左上角点file新建R scripts,在左上角框上写代码,左下角出来运算结果,右上显示参数环境和历史(环境=当前运算包含了哪些对象,数值是多少),右下角能绘图。

操作指引:

1. Tab键:可用于自动补齐函数命令(弹出框中:蓝色=函数;粉色=内置数据集;表格=数据框?)

2. 快捷键:Alt + shift +K 调出所有快捷键

(ctrl+shift+S=全运行;ctrl+L=清屏;ctrl+上=列出历史记录;esc=中断当前运算)

3. 设置默认工作路径(保存和调取文件、脚本,方便以后将数据放入此盘内直接调用,输入输出放一起更方便)

一种是用表达式方式设置:

getwd()       显示当前默认路径

setwd(dir="....")      修改默认路径,引号内写具体路径(注意斜杠方向!),比如改为存到桌面就写:C:/Users/name/Desktop/RData。  如果永久修改,需要改C盘里rprofile.set文件。

另一种是直接用菜单设置:

选择“Session” → “Set working Directory” → “Choose Directory” → 选择对应路径即可。

以上设置只对当前生效,软件退出后就恢复默认设置了。

所以建议用永久更改的方式:

选择“Tools” → “Global options” → “Choose Directory” → 选择对应路径即可。

在弹出框中“General”菜单,找到Defult working directory,选到你要的文件夹位置即可(路径不要包含中文)。

另外,据说,还可以用改写底层配置文件的方式进行提前预设置(尚未实验成功,待检验)

2.在文件最后面写入:

.first()——尝试用setwd没有成功,待试验!(一脸懵逼??)

.last()


dir()  或者  list.files()    查看该默认路径下存储的文件

4. 变量赋值

x=3  或者  x<-3                              给变量赋值,可在右上角环境里查看,若有两个小于号代表全局赋值:x<<-3

LS()  或者  str(x,y,z)  或者  ls.str()      查看变量赋值

rm(x)  或者  rm(list=ls())                    remove掉变量的赋值(不可撤销)

5. 保存

save.image

6. 退出

q()



Textbook: 《R数据科学》的读书笔记 

(因为是第一次读这本书,因此在这里直接记下书中有用信息,后续review后会尝试将文字转换成脑图 百度脑图 - 便捷的思维工具

前言:本书从数据可视化数据转换开始(因为前面的数据整理太枯燥,容易失去兴趣)

本书内容:编程工具本身不一定很有趣,但它们确实可以帮助你解决更多非常困难的问题。在本书的中间部分,我们会介绍一些编程工具,它们可以与数据科学工具结合起来以解决非常有趣的建模问题。你从本书中学到的工具可以轻松地处理几百兆字节的数据,处理1~2 GB 的数据也不会有什么大问题。如果你的日常工作是处理更大的数据(如10~100 GB),那么你应该更多地学习一下data.table (https://github.com/Rdatatable/data.table)。

本书关注:

1. 先给出一些引人入胜的示例,以便你大体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。

2. 本书仅关注矩形数据,也就是数值的集合,而非图像、声音、树结构或文本;

3. 数据分析可以分为两类:假设生成和假设验证。本书的重点就在于假设生成,或者说是数据探索,结合专业知识生成多种有趣的假设来帮助你对数据的行为方式作出解释;

阅读本书的准备:

1. 如果从来没有编写过程序,那么你应该学习一下Garrett 所著的《R 语言入门与实践》,它可以作为本书的有益补充;

2. 为了运行本书中的代码,你需要4 个工具:R、RStudio、一个称为tidyverse 的R 包集合,以及另外几个R 包。R 包是函数、数据和文档的集合,是对R基础功能的扩展。只有学会如何使用R 包,才能真正掌握R语言的精华。R语言入门与实践-图书-图灵社区

3. R包的安装: 在R studio左下角的控制区输入如下命令:

    a) 安装tidyverse:

install.packages("tidyverse"),这里需要双引号

    b) 加载:

library(tidyverse),这里不需要双引号,

R 包只需安装一次,但每次开始新会话时都要重新加载。

    c) 检查更新:

tidyverse_update()

本书信息请参见图灵社区:http://www.ituring.com.cn/book/1540

4. 如果想要明确指出对象来自于哪个R 包,会在包的名称后面加两个冒号,如ggplot2::ggplot() 明确指出了我们使用的是ggplot2 包中ggplot() 函数。

5. 本书源代码下载:R数据科学-图书-图灵社区

更多R包安装方法,参考:3-R包安装方法及注意事项 - 简书


第一章 使用ggplot2进行数据可视化

Case 1: 大引擎比小引擎更耗油吗?

a) 用命令:ggplot2::mpg,调出数据 (左下运算栏出的结果如下)

b) 用命令:?mpg,调出帮助页面(右下帮助页面截图),展现了表头各项指标的定义

c) 用命令绘制图形,

    命令ggplot() ---创建一个坐标系,括号里引用数据集

    加号连接两个命令,geom_point()是在创建的坐标系中创建一张散点图

    mapping后面括号里将displ (引擎大小,单位:升) 放在X轴,hwy(燃油效率,单位:英里/加仑) 放在Y轴

ggplot(data = mpg) +           

geom_point(mapping = aes(x = displ, y = hwy)) 

d) 上图呈现引擎大小和燃油效率负相关的关系=大引擎更耗油,数据可视化是帮助找结论

e) 总结通用模板:

ggplot(data = <DATA>) +<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))


-END-


P.S.看书第一天的感受:没想象中艰涩,上手直接开讲绘图和可视化,然后再讲代码啥意思,让读者一上来就很有成就感,给人一种我又行了的错觉哈哈。我可以,刚把爹!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容