第21周 2018— 10.7-10.13
题目:An atlas of chromatin accessibility in the adult human brain
DOI (url) :10.1101/gr.232488.117
发表日期:2018 Aug
发表杂志:Genome Res(Q1:10.101)
关键词:open chromatin region (OCR), cis regulatory elements (CREs),genetic risk variants,lncRNAs
概述
问题:很多遗传风险的变异与神经性疾病的关联是非编码的因子,它们通过破坏顺式调控元件(如启动子和增强子)发挥功能。染色质通过特定的模式排列呈现出的顺式调控元件参与基因表达的时空调控。因此,为了进一步探索大脑的转录调控机制,他们用冻存的死后样本进行ATAC-seq测序,产生染色质开放数据。
方法:
- 两种细胞类型— 神经细胞和非神经细胞(neurons & non-neurons)
- 14个不同的脑组织区域
- 5个成年人冻存样本
主要结论/结果:
- 神经细胞和非神经细胞的染色质结构明显不同,其中神经细胞的染色质在不同脑区域呈现出更大的差异
- 将人类的ATAC-seq实验中的得到的开放染色质应用到鼠,可以预测细胞类型和不同脑区域的表达模式
- 差异的开放染色质区域与神经性性状的遗传结构重合,并鉴定到他们的分子通路和生物功能
- 结合转录因子的分析,鉴定到细胞特异性和不同脑区域特异性的蛋白质编码基因和lncRNA
-
将他们的数据公开提供了一个在线database—— “Brain Open Chromatin Atlas (BOCA)”
主要内容和结论
1. 不同细胞类型和脑区域在染色质可及性上的差异
首先是分析两种细胞类型和脑区域的开放染色质区域;然后统计这些开放染色质区域在基因组特征区域(启动子/增强子/外显子等)的分布,发现神经细胞在远端区域分布比非神经细胞多;基于t-SNE的方法对ATAC-seq的counts矩阵聚类,可以清晰的将神经和非神经性样本分开。
2. 转录因子的结合对基因表达的影响
通过对转录因子的足迹分析(用的是PIQ)预测不同细胞类型和不同脑部位开放染色质区域的转录因子的结合。然后通过每个TF位点可能被结合的概率和距TSS的距离的加权来评估每个转录因子对基因表达的调控值。接下来又看了不同细胞类型和脑部位在蛋白质编码水平,lncRNA和miRNA水平的调控差异。
主要方法
-
peaks的counts矩阵
这篇文章用MACS2 call peaks后,用RSubread的featureCounts
函数计算每个peak的fragments,最终得到counts矩阵。counts矩阵后期经过标准化用于差异开放染色质的分析。
用的参数如下:
allowMultiOverlap = F,
isPairedEnd = T,
strandSpecific = 0,
requireBothEndsMapped = F,
minFragLength = 0,
maxFragLength = 2000,
checkFragLength = T,
countMultiMappingReads = F,
countChimericFragments = F
-
TF足迹分析
转录因子的足迹分析用的是:PIQ(https://www.nature.com/articles/nbt.2798) -
差异开放染色质分析
limma包voomWithQualityWeights
函数 -
开放染色质区域在基因组区域的分布特征
用的是Y叔的ChIPSeeker -
对开放染色质区域临近基因的富集和功能注释
用的是GREAT R包,GREAT也有网页版http://great.stanford.edu/public/html/, 之前也介绍过第8篇:用网页版工具做功能分析和motif分析 -
机器学习的方法构建表观基因组特征和细胞类型/不同脑部位鉴定的分类指标
他们优化的特征选来源于递归特征消除算法,是基于线性核的支持模型向量机。用caret
R包实现。 - Caret package:https://www.jstatsoft.org/article/view/v028i05
- LIBSVM: a library for support vector machines:https://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf
其他相关资源
神经性基因组学研究:http://www.med.unc.edu/pgc
国际阿尔兹海默研究:http://web.pasteur-lille.fr/en/recherche/u744/
社会科学遗传学联合协会:https://www.thessgac.org/
冠状动脉疾病:http://cardiogramplusc4d.org/
总结
这篇文章属于观察到了现象,但是没有阐述机制的类型。如发现了神经性疾病与非神经性疾病染色质结构的差异,以及不同脑部位染色质结构的差异,也鉴定到大量的表观特征因子,以及编码基因和非编码RNA,但是没有细致地去验证这些因子是否参与以及如何影响脑的发育和神经性疾病的产生。整篇给人的感觉就是结论不明确,发现的这些因子是否真的发挥作用都需要进一步验证。不过也算是提供了一些数据资源,他们将他们的数据也简单整合为一个数据库(https://bendlj01.u.hpc.mssm.edu/multireg/),做相关研究的可以继续深入挖掘。另外上面提到的几个方法可以倒是可以再深入了解和试用。
相关文献
- https://www.nature.com/articles/nbt.2798
- Kuhn M. 2008. Caret package. Journal of Statistical Software 28: 1-26.
- Chang C-C, Lin C-J. 2011. LIBSVM: a library for support vector machines. ACM transactions on 1158 intelligent systems and technology (TIST) 2: 27.