R语言入门与实践笔记(第一章)

第二章 R包与帮助文档

说明:所有推文中一个#的含义是对这段代码的注释说明,两个##的含义是运行代码后的结果

前言:上一章我们已经有了模拟掷一对骰子的函数,现在我们要对这对骰子加权,使出大点数的概率大于小点数的概率,这样就可以作弊了。加权前我们需要确保骰子原本是均匀的。两个工具可帮助我们:重复(repetition)可视化(visualization)。这就需要我们调用replicate函数来重复掷骰子,qplot函数将重复投掷的结果可视化。

2.1 R包

1、 qplot来自于ggplot2包,所以使用前需安装ggplot2。输入以下命令安装并加载ggplot2

if(!require('ggplot2')) install.packages('ggplot2')
library('ggplot2')
# 如果想查看qplot的源代码,你可以直接输入qplot然后运行。(源代码很长。。。。)

2、 下面我们了解下qplot,其含义是:quick plot(快速绘图)。

# 分别生成两组向量
x <- c(-1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1) 
x
##  -1.0 -0.8 -0.6 -0.4 -0.2  0.0  0.2  0.4  0.6  0.8  1.0

y <- x ^ 3
y
## -1.000 -0.512 -0.216 -0.064 -0.008  0.000  0.008  0.064  0.216  0.512  1.000

qplot(x, y)
Rplot1.png

可以看出来qplot生成的散点图可以直观描述两个变量之间的关系。接下来我们将介绍直方图(histogram)可以很好的可视化单一变量的分布情况。

x <- c(1, 2, 2, 2, 3, 3)
qplot(x)
Rplot2.png

至此我们虽然可以看出趋势,但图形非常不好看所以我们要加一个参数binwidth这个表示二进制宽度)可以调整柱子的宽度,我们将柱子宽度设置为1,可以看到画出的图更好看啦~

x <- c(1, 2, 2, 2, 3, 3)
qplot(x, binwidth = 1)
Rplot3.png

3、练习题:

x3 <- c(0, 1, 1, 2, 2, 2, 3, 3, 4)
qplot(x3, binwidth = 1)
Rplot4.png

4、重新回到骰子的问题,我们通过直方图可以知道,高的柱子对应的数值出现的频率高于低的柱子。下面我们来画下正常掷一对骰子所对应的直方图

# 我们需要用到replicate函数和qplot函数,以及上一篇推文中自定义好的函数roll(),我们假定掷了10000次
# 第一步定义函数roll()
roll <- function(){
  die <- 1:6
  dice <- sample(die, size = 2, replace = TRUE)
  sum(dice)
}
# 重复掷骰子10000次,并把赋值给一个变量rolls,一个新函数不会用时可以查看其帮助文档用?replicate,即可查看replicate的帮助文档。
rolls <- replicate(10000, roll())
# qplot绘图,为什么要加参数xlim大家可以查看下qplot的帮助文档:?qplot
qplot(rolls, xlim = c(1,13), binwidth = 1)
Rplot5.png

通过直方图我们可以发现点数和为7出现的概率最高因为,每个点数和与构成他们的点数组合数成正比

1.jpg

下面我们提高6的出现频率,让非6点数变为1/8,6变为3/8。

点数 均匀概率 加权概率
1 1/6 1/8
2 1/6 1/8
3 1/6 1/8
4 1/6 1/8
5 1/6 1/8
6 1/6 3/8

sample函数可以帮助我们做到,使用?sample查看函数的帮助文档,我们可以发现sample()的参数sample(x, size, replace = FALSE, prob = NULL)仔细看prob参数的含义即可发现它是一个与欲抽样的向量等长的向量,其元素对应被抽样元素的抽样权重,下面我们修改roll()函数

roll <- function(){
  die <- 1:6
  dice <- sample(die, size = 2, replace = TRUE, 
                 prob = c(0.125, 0.125, 0.125, 0.125, 0.125, 0.375))
  sum(dice)
}
rolls <- replicate(10000, roll())
qplot(rolls, xlim = c(1,13), binwidth = 1)
Rplot6.png

至此作弊成功啦~,大点数组合出现的概率远高于小点数出现频率。(以游戏的形式来学习R语言,强烈把这本书推荐给大家R语言入门与实践

2.2 总结

?函数名可以查看该函数的帮助文档,太高深的帮助文档看不懂的话,就运行下帮助文档最下方给的Examples(示例代码)并尝试修改其中参数的值,观察有什么变化来帮助自己理解。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • R语言与数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还...
    __一蓑烟雨__阅读 5,667评论 0 5
  • 1. web端和app端测试的相同点和不同点的是 A:相同===>都是采用功能测试B:不相同====>一个在web...
    缘_v阅读 3,570评论 0 1
  • 1. web端和app端测试的相同点和不同点的是 原文:https://blog.csdn.net/ningmen...
    _若星_阅读 3,418评论 0 0
  • 参考文献: Pertea M, Kim D,Pertea G M, et al. Transcript-level...
    昵称7060阅读 4,149评论 0 0
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    余生动听阅读 13,601评论 0 11

友情链接更多精彩内容