如果GEO数据集的表型信息部分串列了

最近搜到GSE21653,提取临床信息部分，发现，多个行出现了，列之间串掉了；

本来是把整个下载到的.gz文件解压后，在txt部分作了更改，但发现串的行数还挺多的；觉得，grep进行行的提取比较合适；

a<- do.call(rbind,lapply(1:nrow(pd21653),
                     function(x){
  dfs<- as.numeric(gsub('.+:','',grep('dfs evt',pd21653[x,],value=T)))[1]
  dfs.time<- as.numeric(gsub('.+:','',grep('dfs time',pd21653[x,],value=T)))[1]
  patient<- pd21653[x,2]
  re<- c(patient,OS,OS.time)
  names(re) <- c('patient','d'f's','dfs.time')
  return(re)}
  )
  )

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

RNA-seq练习第一部分（原始数据下载，提取fastq文件，fastqc质控）
原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi...
生信start_site阅读 11,516评论 1赞 20
day78-数据分析之pandas及部分linux操作
1pandas库操作 1.1索引对象 Index对象是不可变的，因此用户不能对其进行修改(只能对全体index进行...
barriers阅读 264评论 0赞 3
GEO数据库挖掘—生信技能树B站视频
以下是B站生信技能树GEO数据库挖掘的课程笔记主要内容及学习目的：介绍GEO数据库：了解数据存放位置；介绍G...
黄晶_id阅读 49,716评论 66赞 383
第一部分：第二章：创建数据集
第二章创建数据集本章内容：探索R中的数据结构、输入数据、导入数据、标注数据 2.1 数据集的概念数据集通常是...
催催莎阅读 1,055评论 0赞 0
2018-07-18 先发影响力
推荐指数： 6.0 书籍主旨关键词：特权、焦点、注意力、语言联想、情景联想观点： 1.统计学现在叫数据分析，社会...
Jenaral阅读 5,754评论 0赞 5

赞1赞

赞赏

手机看全文