GDAS007-管理与处理大量BED文件


title: GDAS006-管理与处理大量BED文件
date: 2019-09-05 12:0:00
type: "tags"
tags:

  • Bioconductor
    categories:
  • Genomics Data Analysis Series

前言

我们已经通过ExpressionSet类和BamFileList文件(含有BAM比对后的文件)来了解了一些关于数据管理的基本知识。

  • S4类有助于控制某个数据结构中不同组件之间的复杂程度和一致性。
  • R包能够进一步用于协调和发布数据、软件程度和文档。在这个课程的后面部分里我们会学习如何构建R包。

在这个一部分的结尾处,我们来解决一个明显没有最佳解决方案的问题。我们考虑打包GRanges的序列化后的实例以及已经建立了索引的压缩文本文件,这些文件都可以使用GenomicFiles进行并行计算处理。

为什么这是一个比较难解决的问题呢?因为在某些情况下,含有大量功能的GRanges实例将会非常大,加载它们可能会花费大量的时间,并且会占用大量的内存。这可能导致在RAM有限时,在群集节点上使用这些表示方法出现困难。如果数据以允许随机访问的索引格式保存在磁盘上,则根据需要将文件内容的目标提取,并转换为GRanges,就可能为某些应用程度带来更好的性能。创建erma包的一个原因就是获取关于这些不同方法之间平衡后的数据。

erma:表观遗传路线图简介

为了促进对DNA突变体的理解,我们对细胞类型之间的表观基因组变异有所兴趣。NIH表观基因组路线图收集了很多关于ChIP-seq实验分析的数据,在这个公众数据库里记录了数百个不同细胞类型和标志特异性文件供其他研究者使用。

管理这类数据的有效方法是什么呢?其中erma 包就提供了这样一种方法。

BED文件集合

如同Ernst和Kellis使用大量细胞系的数据所报道的那样,他们已经进行了染色质状态的统计“估算”,如下所示:

library(erma)
ef = dir(system.file("bed_tabix", package="erma"), patt="bed.gz$")
length(ef)
## [1] 31
head(ef)
## [1] "E002_25_imputed12marks_mnemonics.bed.gz"
## [2] "E003_25_imputed12marks_mnemonics.bed.gz"
## [3] "E021_25_imputed12marks_mnemonics.bed.gz"
## [4] "E032_25_imputed12marks_mnemonics.bed.gz"
## [5] "E033_25_imputed12marks_mnemonics.bed.gz"
## [6] "E034_25_imputed12marks_mnemonics.bed.gz"

使用GenomicFiles进行管理

我们认为文件名是不变的,但是储存BED文件路径的向量则可以被命名得更详细。通过makeErmaSet函数可以获取元数据,如下所示:

mm = makeErmaSet()
## NOTE: input data had non-ASCII characters replaced by ' '.
mm
## ErmaSet object with 0 ranges and 31 files: 
## files: E002_25_imputed12marks_mnemonics.bed.gz, E003_25_imputed12marks_mnemonics.bed.gz, ..., E088_25_imputed12marks_mnemonics.bed.gz, E096_25_imputed12marks_mnemonics.bed.gz 
## detail: use files(), rowRanges(), colData(), ...
head(colData(mm))
## (showing narrow slice of  6 x 95  DataFrame)   narrDF with 6 rows and 6 columns
##      Epigenome.ID..EID.          GROUP Epigenome.Mnemonic     ANATOMY
##             <character>    <character>        <character> <character>
## E002               E002            ESC            ESC.WA7         ESC
## E003               E003            ESC             ESC.H1         ESC
## E021               E021           iPSC        IPSC.DF.6.9        IPSC
## E032               E032   HSC & B-cell       BLD.CD19.PPC       BLOOD
## E033               E033 Blood & T-cell        BLD.CD3.CPC       BLOOD
## E034               E034 Blood & T-cell        BLD.CD3.PPC       BLOOD
##                TYPE         SEX
##         <character> <character>
## E002 PrimaryCulture      Female
## E003 PrimaryCulture        Male
## E021 PrimaryCulture        Male
## E032    PrimaryCell        Male
## E033    PrimaryCell     Unknown
## E034    PrimaryCell        Male
## use colnames() for full set of metadata attributes.
names(files(mm)) = colData(mm)$Epigenome.Mnemonic
head(files(mm))
##                                                                                                                 ESC.WA7 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E002_25_imputed12marks_mnemonics.bed.gz" 
##                                                                                                                  ESC.H1 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E003_25_imputed12marks_mnemonics.bed.gz" 
##                                                                                                             IPSC.DF.6.9 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E021_25_imputed12marks_mnemonics.bed.gz" 
##                                                                                                            BLD.CD19.PPC 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E032_25_imputed12marks_mnemonics.bed.gz" 
##                                                                                                             BLD.CD3.CPC 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E033_25_imputed12marks_mnemonics.bed.gz" 
##                                                                                                             BLD.CD3.PPC 
## "/Library/Frameworks/R.framework/Versions/3.3/Resources/library/erma/bed_tabix/E034_25_imputed12marks_mnemonics.bed.gz"

使用表格描述染色质状态信息

定义染色体状态与标记概述

下表显示了不同类型的染色质标记是如何组合并用于判断染色体质片段的状态的。那些缩写的意义为:活跃TSS(TssA),两种类型的上下流启动子(PromU, PromD1, PromD2),转录为5'或3‘优先或略强或弱(Tx5’, Tx3’, Tx, TxWk),联合转录或调控(TxReg),优先转录,增强子活性和可能弱(TxEnh5‘,TxEnh3‘,TxEnhW),两种类型的活跃增强子,可能是侧翼或弱的(EnhA1,EnhA2,EnhAF,EnhW1,EnhW2)或由H3K27ac(EnhAc),初级DNase(DNase),ZNF基因和重复序列(ZNF/rpts),异染色质(Het),二价或平衡型启动子(Propp,PromBiv),抑制多梳(ReprPC)或静默(Quies)。

library(png)
im = readPNG(system.file("pngs/emparms.png", package="erma"))
grid.raster(im)
plot of chunk lkxy

erma包中含有的文件包括31个不同细胞系和基因组的信息(原文里面是tilings,这个我的理解就是表示了一些信息),并根据上面显示了状态图将这些信息分配给染色体状态。

下面展示了两个基因BRCA2和Eome启动子区域的状态标记,如下所示:

stateProfile(mm, "BRCA2")
## 'select()' returned 1:many mapping between keys and columns
## Warning: executing %dopar% sequentially: no parallel backend registered
## Scale for 'y' is already present. Adding another scale for 'y', which
## will replace the existing scale.

[图片上传失败...(image-7b3885-1573126148074)]

stateProfile(mm, "EOMES")
## 'select()' returned 1:many mapping between keys and columns
## Scale for 'y' is already present. Adding another scale for 'y', which
## will replace the existing scale.
plot of chunk lkbr2

有两个基因在启动子区域的状态与常规的状态不同,以及与细胞类型的一致性方面也不同。

并行目标查询

虽然可视化很直观,但是我们也希望能够进行文本编辑,从而提取一些信息供下游使用。在这里我们简单地将每个细胞类型的状态制成表格。使用readuceByFile函数就能将文件分配给可用的内核或主机进行并行处理,如下所示:

gm = promoters(range(genemodel("BRCA2"))) # 2000 upstream, 200 down by default
library(BiocParallel)
register(MulticoreParam(workers=2))
library(GenomicFiles)
ans = reduceByFile( gm, files(mm), MAP=function(range,file) {
   table( import(file, genome="hg19", which=range)$name ) } )
ans= unlist(ans, recursive=FALSE)
names(ans) = colData(mm)$Epigenome.Mnemonic
ans[1:4]
## $$ESC.WA7
## 
##   1_TssA 16_EnhW1  2_PromU 25_Quies 
##        1        1        1        1 
## 
## $$ESC.H1
## 
##   1_TssA 16_EnhW1 19_DNase  2_PromU 25_Quies 3_PromD1 
##        1        1        1        1        1        1 
## 
## $$IPSC.DF.6.9
## 
##   1_TssA 16_EnhW1 19_DNase  2_PromU 25_Quies 
##        1        1        1        1        1 
## 
## $$BLD.CD19.PPC
## 
##   1_TssA 16_EnhW1 19_DNase  2_PromU 25_Quies 3_PromD1 
##        1        1        1        1        1        1

因此,我们看到,在某个特定的基因的启动子区域的基因序列方面,不同的细胞类型存在着数量和状态类型的变化。在后面的练习中,我们将会考虑如何以这种方式开发其它潜在感兴趣的信息。

总结

在这一部分中我们看到:

  • 在磁盘中,使用了大量添加了索引的文本来表示基因组注释或实验结果(原文是:“leave on disk” large numbers of indexed textual representations of genomic annotation or experimental result);
  • 使用R包的方式来简化标记这些数据;
  • 使用GenomicFiles来管理有关文件的元数据;
  • 使用reduceByFile来并行处理文件内容。

这些技术避免了创建,加载大量的R对象,从而提供了某种程度的便捷性。在内存资源有限的情况下,对于那些需要大量集群(clusters)的应用来说,这种策略就显得性价比较高。

参考资料

  1. Managing and processing large numbers of BED files
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容