如果GEO数据集的表型信息部分串列了

最近搜到GSE21653,提取临床信息部分,发现,多个行出现了,列之间串掉了;

  • 本来是把整个下载到的.gz文件解压后,在txt部分作了更改,但发现串的行数还挺多的;觉得,grep进行行的提取比较合适;
a<- do.call(rbind,lapply(1:nrow(pd21653),
                     function(x){
  dfs<- as.numeric(gsub('.+:','',grep('dfs evt',pd21653[x,],value=T)))[1]
  dfs.time<- as.numeric(gsub('.+:','',grep('dfs time',pd21653[x,],value=T)))[1]
  patient<- pd21653[x,2]
  re<- c(patient,OS,OS.time)
  names(re) <- c('patient','d'f's','dfs.time')
  return(re)}
  )
  )
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容