写在前面:本文为微信公众号:生信星球的数据挖掘线上班的随堂笔记,感谢小洁老师的付出!
文件读取
-
读取文件常用的R包包
- readFastq()
- writeFastq()
-
可导入R语言的常见生信数据格式
去除提示信息的函数suppressMessages()
读取bam使用scanBam(“文件.bam”)
fread和rio包的读取更加小巧智能,但出错也更难解决。
注释开头的文件(比如#为注释)需要进行comment.char= “#”的设置。
读txt:read.table(“文件名.txt”) ; read_tsv(“文件名.txt”) ; fread(“文件名.txt”)
fread的跳过注释行需要使用skip= “某行”,没有专门处理注释的参数。
读取soft文件:难以直接读取,带有不同符号的注释。
- read.delim/read_tsv后设置跳过注释行
2.使用fread并使用skip=“跳过行所在的列”
3.使用import设置分隔符format= “分隔符比如\t”,加上skip=“跳过行”
- read.csv/table 较慢,但只要设置好参数
- read_csv/tsv 快,性能优于楼上
- fread 智能而且快,但是没有comment设置
- import 同上
作业
- 规整的tsv/csv文件——首选rio包的import文件,但它不能设置行名。
- txt.gz文件使用read_tsv读取,注释使用comment=“注释符”
3.行名的设置可以后期赋值解决,或者使用read.csv读取设置rowname=1。
使用read.table时把TCGA的列名中的"-"改为了".",使用check.names=F搞定它。
绘图
1作图常用R包
-
base
基础包
- 高级绘图函数:绘制整个图的函数
-
低级绘图函数:给图片添加内容的函数
绘图参数 dev.off() #关闭画图板
-
ggplot2
-
入门级的一个通用公式
模板 - 映射就是属性,即可以对图作的更改,属性=列名/手动指定
-
根据列名设置的属性在aes内设置,列名无需引号
映射 -
手动设置的内容作为参数设置,需要在aes外设置,且需要加上引号
手动设置 - 分面:
facet_wrap(~列名)
根据列名切割图成为几个分图 - 分双面:
facet_grid(列名1~列名2)
- ggpubr:以发表为目标的包
2 拼图R包
- base:par的mfrow
- patchwork:好用又好学
- cowplot:权威
- grid.arrange
- customLayout
3 导出图片
- pdf()三段
- ggsave:所用基于ggplot2的图都可以保存
- export:graph2ppt:可以生成矢量图直接调整