EpiScanpy:一个用于分析单细胞表观基因组数据的工具包

表观遗传学单细胞检测正在成为主流,其产生的数据代表了位于基因组和转录组之间的一个丰富的调控信息层,需要新的分析方法来利用它。近日,来自德国研究人员在《Nature Communications》发表了一个用于分析单细胞表观基因组数据的工具包:EpiScanpy。


EpiScanpy是什么?

EpiScanpy是一种用于分析单细胞表观基因组数据的快速且通用的工具,由于它嵌入了scanpy平台,其为分析单细胞DNA甲基化和scATAC-seq数据以及scRNA-seq数据提供了通用框架。EpiScanpy灵活的数据结构可以处理其他新类型的单细胞组学数据,如Hi-C或NOME-seq以及其他单细胞多组学数据。EpiScanpy不仅可以执行基于表观基因组特征的常见分析,如低维数据可视化、聚类、轨迹推断和差异调用,还具有一系列实用的下游功能,如将感兴趣的表观基因组特征映射到最近的基因,或基于启动子开放性构建基因活性矩阵。EpiScanpy包括一个atlas比较工具,可有效集成不同实验室和/或使用不同平台生成的scATAC-seq数据集。

特征空间和数据预处理:根据.bam文件(scATAC-seq)或甲基化计数文件(单细胞DNA甲基化),EpiScanpy通过量化每个特征中的开放性或DNA甲基化水平,为任何感兴趣的基因组特征生成计数矩阵。在构建计数矩阵后,EpiScanpy继续进行质量控制和数据预处理。

单细胞表观基因组学数据的分析方法:在构建计数矩阵之后,EpiScanpy采用了单细胞数据中常用的分析方法。特别是,为了利用基于K近邻算法(kNN),研究团队实现了基于表观遗传特征的细胞-细胞距离指标。为了评估数据中存在的全局异质性,EpiScanpye使用无监督(或流形)学习算法,如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。为了探索dataset artefacts(如覆盖率)和观察到的变异之间不必要的相关性,EpiScanpye允许检查任何细胞协变量和主成分之间的关系,然后用EpiScanpye函数将发现的技术变异来源回归出来。研究团队还提供了一个函数,用于根据轮廓系数或调兰德指数(ARI)优化Louvain clustering所用的分析参数。最后,为了确定细胞类型,EpiScanpye包括差异甲基化和差异开放染色质调用策略,能够根据基因组特征(如峰值、基因、启动子或其他调控元件)在发现的细胞特性中的相关性对其进行排序。为了便于细胞类型注释,EpiScanpye还包括将任何感兴趣的表观基因组特征分配给其最近的基因或从另一个单细胞数据对象分配给其最近的特征的功能。借助singlecellVR的虚拟现实界面,还可以实现EpiScanpye结果的虚拟现实可视化。


EpiScanpy的应用

研究团队使用公开的scATAC-seq和单细胞DNA甲基化数据集举例说明了EpiScanpy的功能,并将EpiScanpy与其他scATAC-seq分析工具进行了对比,显示了其在区分细胞类型方面的优越性。


单细胞DNA甲基化和scATAC-seq数据的聚类、可视化、细胞类型注释。


scATAC-seq数据的整合、基于分区的图抽象(PAGA)、扩散伪时间分析。


细胞聚类性能的基准测试:研究团队将EpiScanpy辨别细胞类型的能力与其他11种scATAC-seq数据分析工具进行了比较,在所有测试数据集中EpiScanpye的得分处于前列。

此外,EpiScanpy的一个重要特点是它能够在非常有竞争力的运行时间内扩展到大型数据集。例如,分析Cusanovich等人的整个小鼠scATAC-seq图谱,包括81,173个细胞,仅需18.19分钟的运行时间,使用14.19GB的内存。

EpiScanpy在所有数据集的内存消耗方面一直表现出色,在较小的数据集的运行时间方面表现相当,而在较大的数据集上则表现出色。


EpiScanpy是唯一可以为scATAC-seq数据、单细胞DNA甲基化数据以及scRNA-seq数据(通过scanpy)提供所有分析选项的工具;由于它建立在scanpy之上,它使得为scRNA-seq开发的机器学习方法的全部model-zoo可以用于单细胞表观基因组学数据。  

EpiScanpy可通过Github获取:https://github.com/colomemaria/epiScanpy

文档链接:

https://colomemaria.github.io/episcanpy_doc

用于数据分析和基准测试的所有代码可在如下链接获取:

https://github.com/colomemaria/episcanpy-paper


首发公号:国家基因库大数据平台 

参考文献

Danese, A., Richter, M.L., Chaichoompu, K. et al. EpiScanpy: integrated single-cell epigenomic analysis. Nat Commun 12, 5228 (2021).

图片来源于NC官网和参考文献,如有侵权请联系删除。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容