概览
- Title:Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases
- 标题:单细胞表观基因组分析揭示了阿尔茨海默病和帕金森病遗传风险位点的候选致病变异
- Date:2020.10.26
- Journal:Nature Genetics(IF=30.8)
一句话简介
文章对多个脑区进行了bulk ATAC-seq,scATAC-seq和HiChIP,结合这些方法和基于机器学习的pipeline,对GWAS研究中的AD和PD相关SNP进行了筛选和功能推断,解释了已发现和未发现的风险基因中部分SNP的致病机制。
结果
1. Bulk chromatin accessibility landscapes in macrodissected tissue identify brain-regional epigenomic heterogeneity 宏观解剖组织中的散体染色质可及性景观可识别脑区域表观基因组异质性
作者从39 名正常个体的7个脑区中进行了bulk ATAC-seq测序,鉴定了186,559个peak,通过t-SNE降维,确定了四个不同的样本簇,大致按主要大脑区域分组。对这些批量ATAC-seq数据的详细分析主要揭示了染色质可及性的区域特异性差异。(Fig 1a-d)
2. scATAC–seq captures regional and cell-type-specific heterogeneity scATAC–seq 可捕获区域和细胞类型特异性异质性
作者对 10 个样本的多个脑区进行了scATAC-seq,鉴别了6种主要细胞类型(EX,IN,MG,ASC,ODC,OPC)的共24个细胞亚群。这些数据为批量ATAC-seq数据的细胞类型特异性反卷积提供了参考细胞图谱,并确定了神经胶质细胞的脑区域异质性。这部分是很常规的scATAC-seq分析。
3. scATAC–seq identifies diverse neuronal subpopulations scATAC-seq 可识别不同的神经元亚群
作者进一步对scATAC-seq中的神经元细胞进行了更加细致的亚群划分(Fig2ab),这部分也是常规操作。
4. scATAC–seq pinpoints the cellular targets of GWAS polymorphisms scATAC–seq 可精确定位 GWAS 多态性的细胞靶标
接下来作者使用一系列相关的GWAS研究对不同细胞类型的特异性peak进行了LDSC分析,发现小胶质细胞peak中富集AD的SNP,而PD的SNP没有在任何细胞类型特异的peak中富集(Fig2cd)。这部分在现在看来也是常规操作。
5. Identification of putative enhancer–promoter interactions through chromatin conformation and cell-type-specific coaccessibility 通过染色质构象和细胞类型特异性共可及性鉴定假定的增强子-启动子相互作用
以上分析能够识别非编码SNP的靶细胞类型,但无法确定每个GWAS位点的靶基因。因此接下来作者进行了HiChIP测序,鉴定了 6 个脑区中的增强子和启动子loop,平均每个区域识别出 1.58 亿个loops(有亿点多)。
作者还对scATAC-seq进行了co-accessibility(Cicero)分析,确定了ATAC peak之间的290多万个loops,这组相互作用与HiChIP数据显示出约20%的重叠。【Cicero倾向于识别细胞类型特异性调控相互作用,而bulk脑组织的HiChIP更倾向于于识别共享的调控相互作用】。这两种技术共同定义了所研究的各个大脑区域中假定的调控相互作用的纲要,从而使GWAS SNP与假定的靶基因的下游连接成为可能。
6. A tiered multi-omic approach to predicting functional noncoding SNPs 一种预测功能性非编码SNP的分层多组学方法【重点】
为了探究GWAS多态性的功能效应,作者首先在AD和PD中编制了一套全面的推定疾病相关SNP的流程,考虑了附近SNPs基于LD的共遗传倾向:
(1)在最近的GWAS研究中通过全基因组意义(P < 5 × 10^−8)的任何SNP。
(2)任何表现出GWAS共定位和表达数量性状基因座(eQTL)信号的SNPs(FINEMAP/eCAVIAR共定位后验概率>0.01)
(3)根据1000 Genomes数据集中欧洲血统个体的1期基因型计算的LD R2值≥0.8(有点绕:Any SNPs in LD with a SNP in the previous 2 categories based on an LD R2 value ≥0.8 calculated from phase 1 genotypes of individuals of European ancestry in the 1000 Genomes dataset)
总共确定了 9,707 个 SNP,其中包括 3,245 个SNP与 AD 相关的,存在于 44 个loci上,以及 6,496 个与 PD 相关的SNP,落在 86 个loci上。其中 34 个 SNP 出现在两种疾病中
使用这些假定的疾病相关非编码SNP目录,我们开发了一种分层多组学方法来预测功能性非编码 GWAS SNP,方法如下(Fig 3a & SupFig6a):
(1) 将这些 SNP 与我们的批量或 scATAC-seq 数据中的染色质可及性峰值重叠(第 3 层)
(2) 识别也可能影响预测的调节相互作用的第 3 层 SNP 的子集(第 2 层)
(3) 预测哪些第 2 层 SNP 可能直接影响转录因子结合(第 1 层)
为了预测这些可能直接影响转录因子结合的第 1 层 SNP,作者设计了一个机器学习框架来对ATAC peak上SNP的等位基因效应来进行打分。使用gkm-SVM框架,作者对 scATAC-seq 的每个簇(总共24个)训练染色质可及性的预测调控序列模型(图 3b)。我们使用三种互补方法,GkmExplain,in silico mutagenesis 和 deltaSVM 来预测候选 SNP 对每个簇中染色质可及性的等位基因影响,方法是向 24 个簇中每个簇中的每个簇的模型提供对应于每个 SNP 的两个等位基因的序列。三种方法在候选SNP中都显示出预测等位基因效应的高度一致性。【需要细看引用的每种方法】
gkmSVM:使用染色质可及的DNA序列作为阳性集,以及一组GC匹配的随机DNA序列作为阴性集,gkmSVM的目标是构建一个预测模型来对两组序列进行分类。可以用来检测活跃的调节性DNA元件。该模型可以对任何DNA序列的可及性进行评分和预测。
GkmExplain、in silico mutagenesis 和 deltaSVM:用于解释gkm-SVM模型预测的序列模式。通过分析gkm-SVM模型中的核函数权重和DNA序列特征,提供了对预测结果的解释。GkmExplain可以帮助研究人员理解gkm-SVM模型对转录因子结合位点的预测依据,并揭示DNA序列中重要的结构和模式。
作为第 1 层 SNP 的正交指标,我们使用稳健的等位基因特异性定量和质量控制统计框架 (RASQUAL) 对bulk ATAC-seq 数据进行等位基因失衡分析(SupFig 6f)。等位基因失衡是指当一个等位基因更容易被转录因子结合时,两个等位基因之间观察到的染色质可及性差异。
使用这种分层解析的方法,我们确定了可能与AD和PD有关的基因和分子过程。为了避免过度解释,我们将下游分析集中在GWAS基因座的子集上,这些子集最有可能涉及基于编码区中不存在任何LD SNP的非编码调控。
7. Machine learning predicts putative functional SNPs and identifies the molecular ontogeny of disease associations 机器学习可预测假定的功能性SNP并识别疾病关联的分子个体发育
这种多组学方法在我们的第 1 层 SNP 中确定了两大类新关联:(1)已建立的疾病相关基因,其中确切的致病 SNP 仍然未知;(2)以前与疾病病因无关的基因。
对于基因 PICALM ,我们的模型预测了一种潜在的功能变异 (rs1237999),该变异破坏了 PICALM 上游 35 kb 少突胶质细胞特异性调节元件内假定的 FOS/AP1 因子结合位点(图 3c,f)。此外,rs1237999 显示出显着的等位基因失衡,变异/等位基因(variant/effect allele)在来自多个脑区杂合子的bulk ATAC-seq 数据中显示出可及性降低(Fig 3e)。最后,rs1237999 显示出与 PICALM 和 EED 基因的 3D 相互作用,PICALM 和 EED 基因是参与维持抑制性转录状态的多梳组家族成员。这将这种关联的潜在功能作用扩展到一个新基因,并特别指出少突胶质细胞的作用,这些少突胶质细胞以前未与这种表型关联有关。
类似地,SLC24A4位点有一个小的LD块,该块具有46个SNP,这些SNP都位于SLC24A4的内含子内。先前的工作已经将SLC24A4和附近的RIN3基因都与这种关联联系起来,但真正的介质尚不清楚。我们的多组学方法鉴定单个SNP,rs10130373,它发生在小胶质细胞特异性峰内,破坏SPI1基序并与RIN3基因的启动子特异性通讯(Fig 3d,g)。这与 RIN3 在早期内吞途径中的作用一致,该途径对小胶质细胞功能至关重要,并且在 AD中具有特殊的疾病相关性。我们在 BIN1 和 MS4A6A 位点中发现了类似的例子。
此外,研究这些非编码多态性的真正希望是鉴定受疾病相关变异影响的新基因。Fig4说明了STAB1和KCNIP3基因相关SNP的作用机制
8. Epigenomic dissection of the MAPT locus explains haplotype-specific changes in local gene expression MAPT基因座的表观基因组解剖解释了局部基因表达的单倍型特异性变化
相关链接
原文:https://www.nature.com/articles/s41588-020-00721-x
代码:https://github.com/kundajelab/alzheimers_parkinsons