学习小组Day6-YUE

R包的来源

  1. google检索
  2. Rstudio cheatsheet网站 或者bioconductor 以及Github安装

tidyr包的使用

  1. 功能:把目标数据处理程统一的数据框。“统一”:每个变量(variable)占一列,每个情况(case)和观测值(observation)占一行。
    (1)数据框的变形
    (2)处理数据框中的空值
    (3)根据一个表格衍生出其他表格
    (4)实现行或列的分割和合并
  2. key-value--“键值对” ,表示一种对应关系。“键”和“值”都是列名,如geneid和expr的对应
  3. Reshape Data
    (1) gather():
    ▪ gather(数据框名,列名,列名(需合并的),key= 新列名,value = 值新列名)
    eg: 三条命令运行结果一致
     gather(a,X1999,X2000,key = "year",value = "cases")
     gather(a, "year","cases",X1999,X2000)

若为多列合并,可用:

     gather(a,"year","cases",-country)  #-country:合并除country外剩下的列。

(2) spead():moves the unique values of a key column into the column names, spreading the values of a value column across the new columns
▪ spread(数据框名,type(整合后的类),value)
(3) Handle Missing Values
▪ 删除含NA的整行
drop_na():有空值整行删除;drop_na(数据框名,行名)
▪ 填充
fill():根据上一行的数值填充;fill(数据框名,有NA的列名)
▪ 空值填入特定数值
replace_na() :填入特定值;replace_na(数据框名,要填的列名=要填的值) ```

replace_na(X,list(year=2001))

(4) Expand Tables(扩充数据)
▪ 把空值的位置补全
complete():命令应用complete(X,nesting(X1列名),fill=list(X2=5))
▪ 列出每列值所有可能的组合
expand():expand(数据框名,列名(选中的),列名,列名(需列出的列名))

(5) split cells
separate:按列分割
separate_rows:按行分割
unite:分割完了再合并回去

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。