cheatsheet

R包说明书

安装tidyr包

install.packages("tidyr")
如果下载很慢，在tools-Global options-Package-CRAN mirror选中国的

加载tidyr包

library(tidyr)

实例一

a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))

说明：

rep，重复，括号中填要重复的字符和重复次数。

试了下括号中的times也可以换成rep

rep

paste，连接两个字符串，括号要填两个代连接字符并指定分隔符（sep），没有分隔符就填sep=“”。

试了下没有分隔符也可以不填sep=“”？

sep=“”

1：3表示从1到三。如需一列中需要填入三个无规律的数字，可以用向量c(1，3，4)，同样如果填的是字符串也需要加双引号，例如c("doudou","huahua","xiaoyu")。

了解概念：key-value--“键值对” ，表示一种对应关系。“键”和“值”都是列名，如SampleName和Expression的对应。

函数后面一般都要加括号，括号里第一个参数是都数据框名

字符串要加双引号（行名和列名也是字符串，但是可以不用加），其他单元格（姑且这么叫了）里出现的字符串要加。

Tidy Data

每个变量（variable）占一列，每个case和observation占一行。

1.Reshape Data
1.1 gather
建立数据框
Damon<-data.frame(country=c('A','B','C'),"1999"=paste(c(0.7,37,212),"K"),"2000"=paste(c(2,80,213),"K"))

列名是数字，不论加双引号、单引号还是反引号都可以，但是不能不加引号，如果列名为字母，则可不加引号。

列名引号

注意这个显示表格的时候，会自动在数字列名前面加上个x(大写的)，所以gather代码应该为：
gather(a,X1999,X2000,key = "year",value = "cases")
括号里顺序分别为：数据框名，需合并的列名（两个），合并后的key列名，value列名。
key，value可以省略，
gather(a,"year","cases",X1999,X2000) #推荐的偷懒做法
gather(a,year,cases,-country) #-country的意思就是合并除country外剩下的列。

1.2 spread
与gather相反，合并case。
spread（向量名，列名1，列名2)
2.Handle Missing Values
处理空值（我曾经的痛啊）
2.1读取矩阵txt推荐：
X<-read.csv('doudou.txt') 默认分隔符是“，”，导出时也不会默认加引号。

导入：X<-read.csv('doudou.csv')
导出：write.csv(X,'doudou.csv')

2.2 删除空值
drop_na()：有空值的，整行/列删除掉
drop_na(X,X2) X2列删掉
2.3 fill()，根据上一行的数值填充上
fill(X,X2)
2.4 replace_na()，空值填进去特定的一个数值
括号里填数据框名，要填的列名=要填的值
replace_na(X,list(X2=2))
ps：我以前在基因矩阵因为有空值，所以每个值加了0.1 囧rz，如下

rt=read.table("damon_0.1.txt",sep="\t",header=T)
rt=as.matrix(rt)
rt=rt+0.1

3.Expand Tables
3.1 complete（把空值的位置补全）
complete(X,nesting(X1),fill = list(X2=5)) 空值等于5，跟前面一样。
注：X1是指所有不用填充的列，可以很多，用逗号隔开
3.2 expand(排列组合)
expand(向量名，列1，列2，列3)

生信星球截图
4.split cells
4.1 separate：按列分割
separate(table3,rate ,into =c("cases","pop"))
4.2 separate_rows：按行分割
separate_rows(table3,rate)