写在前面:本文为微信公众号:生信星球的数据挖掘线上班的随堂笔记,感谢小洁老师的付出!
小练习
- 如何查看某数据框的前六列:
head(t()) #但t()函数将数据框转换成矩阵,如需返回数据框则应该使用head(as.matrix(t(iris)))
包的安装
设定镜像
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
- 今天遇到了USTC的bioconductor镜像挂掉的情况:临时使用了清华的:
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
options("repos"="https://mirrors.ustc.edu.cn/CRAN/")#这是科大的CRAN镜像
options(BioC_mirror="http://mirrors.cloud.tencent.com/bioconductor")#这是腾讯的
根据来源安装包
- CRAN:
install.packages()
- Biocductor:
BiocManager::install()
包的安装逻辑
- 安装→加载→使用
install.packages("stringr")
library(stringr)
str_detect(x,"a")
已安装的包的函数直接调用
BiocManager::install()
dplyr::filter()
包的名字::install(函数的名字)
常见问题:
- 大片提示信息:如无error则忽略
- package not available:
- 原因1:包名写错
- 原因2:安装命令使用错误(包的来源错误)——去官网查查
- 原因3:本机的R语言版本与包要求不符(极少)——去网页查查,大概率不要升级R包
- 是否更新:no!
- 加载A包,报错B包不存在:安装B包。
-
出现网络连接问题: 出现connection/url/404/http等关键词
网络连接问题
运行以下代码解决
options(download.file.method = 'libcurl')
options(url.method='libcurl')
- 满分操作:判断式操作
'if(!require(包))install.packages("包")'
如何查看包的使用
- 查看帮助文档:描述/参数/实例
?msx ; help("max")
- 找包的官网:CRAN/Bioconductor
- 查看cheat sheet小抄
R语言的符号复习
()函数参数
[]矩阵/数据框子集
[[]]列表子集
$数据框/列表按名称取元素
=,<- 赋值
== 判断
!否定
{}函数内容
# 注释
'' '' 字符串
:: 包 :: 函数 加载R包
文件读取
1.认识csv格式(Comma Separated Values)本质为纯文本
- 使用excel打开
- 使用记事本打开
- 使用vscode/sublime软件打开(适用超大文件)
- 使用R语言打开
test = read.csv("ex3.csv")#读入R语言后成为数据框
2.认识分隔符
- 常见逗号,空格,制表符\t(Tab)
3.将表格文件读取到R语言
read.csv()#读取csv格式
read.table()#常用于读取txt格式
- 如果读取失败则可能需要制定参数。
4.将数据框导出成为表格文件
write.csv(变量名,file = "文件名.csv")
5.R语言特有的数据类型
- Rdata为R语言特有的数据储存格式,保存的是变量的压缩文件而非表格文件,只能用R打开
- 打开'load("xxx.Rdata")'
- 保存'save(变量名,file= "文件名.Rdata")'
< 常见错误:找不到文件——原因1:文件没有存放在工作目录;原因2:拼写错误(用Tab自动补齐)
6.读取文件的其他常用R包
7.可读入R语言的常见生信数据格式
- 如果直接读取不成功:1.查看文件 2.加参数
- 注释行:skip= 注释行, comment.char="注释符号,如!"