生信第6天——学习R包。
R包是多个函数的集合,具有详细的说明和示例。
学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。包的使用是一通百通的,我们以dplyr为例,讲一下R包。
安装和加载R包
1.镜像设置
两行代码↓可以搞定,但这个方法并不适用于每个电脑,有一部分会失败。随缘,失败的话就每次需要下载R包时运行这两句代码即可。
-
初级模式
在使Rstudio的时候为了加速包的下载,都会配置一个国内镜像,最开始是要在Rstudio的程序设置中
但是这个是CRAN的镜像,如果要下载Bioconductor的包,这个镜像是没有办法用的;另外即使设置了这里,Rstudio也不是每次都能真的从CRAN去下载包,可以通过options()$repos来检验,很多时候还是无奈地回到了R的国外官网,速度超慢😛
-
升级模式
为了保证我们可以自定义CRAN和Bioconductor的下载镜像,其实是可以在Rstudio中进行设置的,只需要运行这两行代码即可:
但是这种方法还是有问题,你下次再打开Rstudio会发现,下载Bioconductor还是会回到官方镜像,可以查询options()$BioC_mirror 试试,如果你的依然是自己设置的国内镜像,就不用管了;如果发现需要再重新运行一遍代码进行设置,那么就需要继续看下面的内容。
- 高级模式
不想每次打开Rstudio都要运行一遍镜像配置,还要找之前的代码去复制,就需要用到R的配置文件 .Rprofile
这个文件的配置其实可以多样(比如linux中我们在.bashrc文件中添加alias 作为快捷命令)
首先用file.edit()来编辑文件:
然后在其中添加好上面👆的两行options代码
最后保存=》重启Rstudio,这时你再运行一下:options()BioC_mirror 就发现已经配置好了,就很方便地省了手动运行的步骤。
2.安装
确保联网再操作。。。不然就尴尬了。
R包安装命令是install.packages("包")或者BiocManager::install("包")。取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。
3.加载
下面两个命令均可。
安装加载三部曲
示例数据直接使用内置数据集iris的简化版:
dplyr五个基础函数
-
mutate(),新增列
-
- select(),按列筛选
-
(1)按列号筛选
-
(2)按列名筛选
-
(3)filter()筛选行
-
(4)arrange(),按某1列或某几列对整个表格进行排序
-
(5)summarise():汇总
dplyr五个基础函数
-
管道操作 %>% (cmd/ctr + shift + M)
(加载任意一个tidyverse包即可用管道符号)
-
-
2.count统计某列的unique值
dplyr处理关系数据
即将2个表进行连接,注意:不要引入factor
-
1.內连inner_join,取交集
-
2.左连left_join
-
3.全连full_join
-
4.半连接:返回能够与y表匹配的x表所有记录semi_join
-
5.反连接:返回无法与y表匹配的x表的所记录anti_join
-
6.简单合并