一、摘要
理解遗传变异的功能后果及其如何影响复杂的人类疾病和数量性状,仍然是生物医学面临的重大挑战。
1、我们提供了对来自175个个体的43个组织的1641个样本的RNA测序数据的分析,这些基因作为基因型组织表达(GTEx)项目试验阶段的一部分而产生。
2、 我们描述了整个组织中基因表达的态势,对成千上万个组织特异性和共享调控表达定量性状基因座(eQTL)变体进行了分类,描述了复杂的网络关系,并从eQTL解释的全基因组关联研究中识别了信号。
这些发现提供了对人类遗传变异的细胞和生物学后果以及各种人类组织之间这种效应的异质性的系统理解。
二、Introduction
1、背景
① 全基因组关联研究(GWAS),该研究已经对影响人类疾病和其他性状的数千种常见基因变异进行了分类(参考文献1-3),然而基因变异与个体易患病之间的分子机制仍然不清楚,这阻碍了治疗干预的发展。
② 大多数GWAS变异体是非编码的,可能通过基因表达的调节来表现它们的作用(4,5)
③ 表达数量性状位点(eQTL)分析(6-8)是分析遗传变异对基因表达影响的最常用方法
④ 因此,了解调节变体的作用及其在其中起作用的组织,对于GWAS基因座的功能解释和对疾病病因学的见解至关重要
⑤ 基因型组织表达(GTEx)项目旨在通过建立样本和数据资源来解决这一局限性,从而能够研究多种人类组织中遗传变异,基因表达和其他分子表型之间的关系(13)。为了方便每个捐献者收集多个不同的组织,该项目通过器官捐献和快速尸检设置,通过同意的近亲捐献获得了已故的捐献者。此处描述的结果是在项目的试点阶段产生的,然后将筹集的规模扩大到900个捐赠者。所有项目数据都通过dbGaP定期提供给合格的研究人员。摘要数据可在GTEx门户上获得(http://gtexportal.org)
2、研究设计
① 血液来源的DNA样本在大约430万个位点进行基因分型,并使用1000个基因组I期推算出其他变异,导致约680万个单核苷酸多态性(SNP),合格后的次要等位基因频率(MAF)≥5%
② 我们对总共1749个样品进行了76个碱基对(bp)的配对末端mRNA测序,其中来自43个位点的1641个样品和175个供体构成了我们在此报告的最终“试验数据冻结”(14)。 每个样品的测序深度中位数为82.1百万个映射读段
3、跨组织的基因表达
① 我们检查了53,934个转录基因在整个组织中的表达模式
② 层次聚类表明,表达谱准确地概括了组织类型,其中血液样品形成了主要的外群
③ 我们通过估计外显子包含水平来量化剪接事件(剪接点,外显子,转录本),以PSI(剪接百分比)分数来衡量(14、18)。虽然不太清楚,但通过PSI分数对样本进行聚类也可以概括组织类型。来自大脑而非血液的样本形成主要的外群(图1B),分为两组:一组227个样本(来自小脑和皮层)组成一个独立的亚群(群1),而较小的一组97个样本(聚类2,其余子区域为主)中的聚类更接近其余组织的样本。
④ 这与同工型调节在定义脑细胞特异性中发挥相对较大的作用相一致(18、19)。这些分析在Melé等人的文章中进行了扩展。 (17)定义组织特异性的剪接特征,并深入研究个体变异在剪接中的作用。
4、eQTL分析:单组织eQTL分析
① GTEx项目的主要目标是为一系列人体组织的所有基因鉴定eQTL
② 由于我们的样本量较小,因此我们主要研究了顺式作用于基因的eQTL(顺式eQTL;请参见框S1),因为反式eQTL的预期效应量(框S1)太小而无法在此有效检测到
③ 我们针对每个基因的转录起始位点(TSS)的T1 Mb内的所有SNP,分别为具有足够样本量(> 80个供体)的9个组织中的每一个分别计算了cis-eQTL
④ 基因型和基因表达水平之间的显着相关性是通过使用矩阵eQTL对已知和推断的技术协变量进行校正后,通过对分位数归一化的基因水平表达值进行线性回归确定的
⑤ 为了获得特定于基因的显着性水平,同时校正每个基因的多个SNP,我们计算了每个基因中每个基因最高SNP的排列调整后的P值(14)
⑥ 我们将“ eGenes”定义为顺式具有至少一个SNP的基因,其虚假发现率(FDR)≤0.05与该基因的表达差异显着相关(框S1)(14)。 可以在GTEx门户(http://gtexportal.org)上找到每个eGene检测到的重要SNP基因对的列表
⑦ 对来自每个组织的连续降采样的供体亚组进行分析,得出eGenes与样品量之间的线性关系
5、eQTL的多组织联合发现:组织特异性和eQTL共享
① 不同组织和细胞类型之间的eQTL的特异性或共享具有相当大的生物学意义(8、22、24),从而深入了解了组织之间的差异遗传调控。此外,交叉引用具有疾病遗传关联的组织特异性eQTL可以帮助识别与疾病生物学最相关的组织。我们使用GTEx试点数据检查了多个组织之间的eQTL共享,并利用较大的组织范围发现了弱但具有组成型活性的eQTL
② 我们调查了九种组织中每种组织的22286个基因(至少10个样本中RPKM> 0.1)的eQTL共享模式,并对每对组织进行了基于模型的简单非基于模型的分析(22个),并针对更复杂的贝叶斯模型进行了分析。对所有九种组织进行联合分析。分析的重点是每个基因在TSS周围的T100-kb窗口,该窗口小于用于单组织分析的窗口,因为这是我们观察到最高eQTL密度的地方
③ 为了评估组织对之外的共享模式,我们应用了两种贝叶斯方法,它们针对每个SNP基因对评估512(29)种可能的null / alternate eQTL配置中每一个的证据。第一种方法(24)是“基于基因的”,并且假设每个基因有一个因果eQTL。我们将模型扩展到(i)支持并非所有GTEx供体都采样了所有组织的事实; (ii)在不需要置换的情况下计算基因水平的FDR(27); (iii)包括跨多个组织的精细映射方法(28)。我们还使用了“基于SNP”的方法(25),该方法分别评估每个SNP基因对的关联,并直接与每个组织中每个SNP基因对的z统计量一起工作[另见(29)]。我们使用边缘后验概率总结了组织特异性的估计,其中随机选择的基因(基于基因的模型)或SNP-基因对(基于SNP的模型)活跃的组织数量(图2C)
④ 我们通过固定表达数据并置换基因型来进行置换分析
6、等位基因特异性表达分析
① 可以从支持每个基因等位基因的大量RNA-seq读数估算ASE,在转录区域内的杂合位点进行测量
7、拼接QTL分析
① 为了识别sQTL,我们使用了Altrans(35)(一种识别与外显子连接表达水平变化相关的SNP(sjQTL;框S1)(14))和sQTLSeekeR(36)的一种方法,该方法可以识别与SQTL相关的SNP基因转录同工型(srQTLs;框S1)的相对丰度变化
8、非编码区域中eQTL的功能注释
9、个人转录组学及其对人类疾病的影响
10、单个破坏基因的变体对剪接和表达的影响
11、GWAS and eQTLs
三、结论
我们已经描述了多组织人类基因表达的大型深度数据集。 我们以在组织中基因表达的多样性和调控方面提供独特见解的分辨率,评估了在大量组织中个体之间转录组的变异性。 该分析提供了广泛的组织类型对基因表达的遗传影响的统一观点,以前大多数尚未针对eQTL进行研究。 我们期待着扩大资源以创建一个数据集,这将改变我们对遗传变异性如何影响不同组织和生物系统以及最终导致复杂疾病的理解。