GWAS研究已鉴定出大量与复杂人类性状相关的非编码变异,其致病机制尚不明确。表达数量性状基因座(eQTL)分析为理解这些位点的分子作用机制提供了线索,但仅在表达变化上提供解释。染色质可及性QTL(caQTL)可揭示非编码变异对基因调控的直接影响。然而,以往的caQTL研究多局限于单一组织、样本量较小。公共数据库中积累了大量ATAC-seq数据,可覆盖多种细胞类型和状态,但多数缺乏配套的基因型信息。鉴于ATAC-seq本身包含基因组序列片段信息,研究者提出可从中推断样品基因型,并据此进行大规模的多组织caQTL分析。来自约翰霍普金斯大学的Alexis Battle研究组和来自宾夕法尼亚大学 Christopher D. Brown团队在《Genome Biology》发表标题为“Genotype inference from aggregated chromatin accessibility data reveals genetic regulatory mechanisms”的文章,提出了一种新的计算流程,从ATAC-seq数据中直接推断基因型并鉴定caQTL,从而阐释染色质可及性变异与复杂性状间的遗传调控机制。
一、研究方法
提出了通过ATAC-seq数据进行基因型和caQTL分析的方法。具体来说:
·萃取基因型
使用Gencove和基因型填充策略鉴定ATAC-seq数据中的基因型。
·检测ATAC-seq峰
应用改良版Genrich对每个样本的基因组位置计算p值,然后通过Fisher方法将所有样本的信号合并,从而确定共识的开放峰。
·caQTL分析
通过过滤低质量染色质开放峰,合并个体样本数据后,利用tensorQTL建立线性模型,鉴定调控染色质可及性的caQTLs。
二、实验设计
·数据收集
从公共数据库中收集了10,293个ATAC-seq样本,代表1454个独特的捐赠者个体,来自653个研究项目。这些样本覆盖了多种生物学背景,包括不同组织、细胞类型以及原代组织和细胞系(癌症/非癌症)样本。
·样本选择
样本涵盖了广泛的组织或细胞类型,包括T细胞和大脑等。
三、结果与分析
·萃取基因型
通过ATAC-seq数据萃取的基因型与标准GATK流程相比,显著增加了变异的检测数量,并在71个HapMap计划的淋巴母细胞样细胞系样本中表现出超过0.88的相关性。
·检测ATAC-seq峰
在10293个样本中识别出1659379个峰,覆盖约27%的基因组。这些峰在基因调控元件上富集,表明这些都是高质量的染色质开放峰。
·caQTL分析
在1454个样本中,鉴定出24159个显著的caQTLs,相关信号主要富集在大脑和全血样本。这些定位到caQTL的开放染色质区域显著富集于基因的启动子和增强子等调控元件附近,并与eQTL位点存在广泛重叠,表明caQTL在连接遗传变异与基因表达变化,进而影响复杂性状中发挥着关键作用。
·共定位分析
观察到69个性状发生了caQTL/GWAS共定位事件。caQTLs和eQTLs在多个组织中共享,表明它们在基因表达调控中起着关键作用。
·样本聚类与特异性caQTL
为了发现组织/细胞类型特异的caQTL,本研究使用UMAP降维结合k-means算法对样本进行了聚类,最终样本分为11个簇(如脑组织簇)。共鉴定到15029个簇特异性caQTL,部分未在全局分析中检测到。特异性的caQTLs可以解释额外的基因调控和GWAS信号因果关系。
四、结论
本研究创新性地展示了如何从未预先进行基因分型的公共ATAC-seq数据中联合推断基因型、调用开放染色质峰并鉴定caQTL。该分析流程一方面为无需独立基因分型的caQTL映射提供了可行性验证,另一方面构建了迄今为止规模最大、样本最丰富的caQTL资源。研究表明通过整合caQTL与eQTL/GWAS共定位分析,可以更全面地揭示复杂性状的遗传调控机制,并为后续的精细定位和功能验证研究提供了宝贵线索与数据资源。通过大规模数据分析和创新方法,为理解遗传变异对基因表达和复杂表型的影响提供了新的视角。
原文链接:https://pubmed.ncbi.nlm.nih.gov/40159496/