人肺动脉高压肺转录组的系统分析
一、专有名词(AI整理):
1. 肺转录组学(lung transcriptome)
肺转录组指的是肺组织基因组产生的一整套RNA转录本。它包括在特定时间在肺细胞中表达的所有基因,反映了细胞的功能状态和它们所参与的生物过程。了解肺转录组对于各种应用至关重要,包括疾病诊断、治疗以及对肺功能和疾病分子机制的研究。
以下是肺转录组的一些关键方面:
1. **细胞类型的多样性**:肺由多种细胞类型组成,包括肺泡细胞、支气管上皮细胞、内皮细胞、免疫细胞等。每种细胞类型都有其独特的基因表达集。
2. **动态的表达模式**:肺中的基因表达可能会因年龄、环境暴露和健康状况等因素而大不相同。肺转录组可以响应感染、疾病或其他刺激而发生变化。
3. **在疾病中的作用**:肺转录组的异常与各种肺部疾病有关,包括哮喘、慢性阻塞性肺病(COPD)、肺癌和肺纤维化。研究这些变化有助于理解疾病机制并开发靶向治疗。
4. **技术进步**:高通量测序技术,如RNA测序(RNA-Seq),通过允许同时测量数千个基因的表达水平,彻底改变了肺转录组的研究。
5. **生物标志物的发现**:肺转录组的变化可以导致早期诊断、预后或监测肺部疾病治疗反应的生物标志物的识别。
6. **个性化医疗**:了解肺转录组中的个体变异可以促进个性化医疗方法,根据患者的特定遗传档案量身定制治疗方案。
7. **研究应用**:肺转录组是研究肺发育、功能以及环境因素对肺健康影响的基础研究的宝贵资源。
8. **空间转录组学**:这一新兴领域允许在肺组织结构的背景下研究基因表达,提供肺内基因表达模式的空间组织见解。
研究肺转录组是一项复杂的任务,需要复杂的生物信息学工具和方法来分析和解释产生的大量数据。这是一个活跃的研究领域,有潜力显著提高我们对肺生物学和疾病的理解。
2.系统生物学(systems biology)
系统生物学是一个跨学科领域,专注于研究生物系统内部的复杂相互作用。它结合实验和计算方法来理解生物系统的成分如何协同工作并贡献于系统的整体功能。以下是系统生物学的一些关键方面:
1. **组学数据整合**:系统生物学整合了来自基因组学、转录组学、蛋白质组学和代谢组学等不同组学学科的数据,以提供对生物过程的全面视图。
2. **网络分析**:它涉及构建和分析生物网络,如基因调控网络、蛋白质-蛋白质相互作用网络和代谢途径,以理解不同组分之间的关系和相互作用。
3. **建模和仿真**:使用数学模型和计算仿真来预测生物系统在不同条件下的行为,这有助于理解复杂的生物动态。
4. **系统层面理解**:与专注于单个组分不同,系统生物学旨在理解整个系统,考虑其组分相互作用产生的涌现特性。
5. **动态行为**:它研究生物系统随时间的动态行为,包括信号转导、细胞对刺激的响应和发育过程。
6. **多尺度方法**:系统生物学通常采用多尺度方法,考虑从分子到细胞、组织和有机体不同生物组织水平的现象。
7. **高通量技术**:该领域依赖于能够快速生成大量数据的高通量实验技术,如下一代测序、质谱和微阵列。
8. **数据整合和分析**:使用先进的生物信息学工具和数据库来管理、分析和整合大型数据集,以提取有意义的生物学见解。
9. **预测和预后能力**:系统生物学可以提供对疾病进展、治疗反应和潜在药物靶点的预测性见解。
10. **跨学科方法**:它需要生物学家、物理学家、计算机科学家、工程师和其他专家的协作,以发展对生物系统的全面理解。
系统生物学在包括疾病诊断和治疗、药物发现、个性化医疗以及理解生命基本原理在内的各个领域都有应用。通过整合不同生物学水平的数据和见解,系统生物学旨在揭示驱动生命的复杂机制,并改善人类健康。
3.差异基因表达分析(Differential gene expression analysis)
差异基因表达分析(Differential gene expression analysis)是基因组学研究中的一项基本技术,用于识别在不同生物学条件或状态下表达水平发生显著变化的基因。这种分析对于理解基因如何响应环境变化、疾病状态或发育阶段至关重要。以下是差异基因表达分析的关键步骤和考虑因素:
1. **实验设计**:精心设计的实验是成功进行差异基因表达分析的基础。需要考虑样本选择、生物学重复、实验条件和对照组设置。
2. **数据获取**:通常使用高通量技术如微阵列(microarrays)或RNA测序(RNA-Seq)来测量基因表达水平。
3. **数据预处理**:包括数据清洗、背景校正、标准化和归一化,以确保数据质量和后续分析的准确性。
4. **统计分析**:使用统计方法来评估不同样本或条件之间基因表达水平的差异。常用的统计方法包括t-test、ANOVA、方差分析等。
5. **多重检验校正**:由于同时测试多个基因,需要使用如Bonferroni校正、FDR(False Discovery Rate)等方法来调整p值,减少假阳性结果。
6. **差异表达基因识别**:根据设置的阈值(如p值和fold change)确定差异表达基因。
7. **功能注释和富集分析**:对差异表达基因进行功能注释,并通过富集分析来确定它们是否在特定的生物学过程或通路中富集。
8. **结果解释**:结合生物学背景和现有文献,对差异表达基因进行解释,以揭示它们在特定条件下的作用。
9. **数据可视化**:使用图表如火山图(volcano plots)、热图(heatmaps)、表达谱图等来展示差异表达基因。
10. **验证实验**:通过实验方法如qPCR或Western blot来验证差异基因表达分析的结果。
11. **软件和工具**:使用专门的生物信息学软件和工具,如DESeq2、edgeR、limma、Partek Genomics Suite等,来执行差异基因表达分析。
差异基因表达分析是一个复杂的过程,需要综合考虑实验设计、数据质量、统计方法和生物学意义。随着技术的发展和新工具的出现,研究人员能够更深入地探索基因表达的变化,并为生物学和医学研究提供洞见。
4.微阵列芯片分析
微阵列芯片分析是一种强大的生物技术,它通过在固体表面上排列大量的DNA探针,可以同时检测和分析成千上万个基因的表达水平。以下是微阵列芯片分析的关键步骤和应用:
1. **靶点制备**:从生物样本中提取核苷酸并进行标记,这是微阵列分析的起始步骤 。
2. **杂交**:将标记的靶点与芯片上的cDNA或寡核苷酸序列进行孵育,通过分子杂交原理进行结合 。
3. **数据获取**:通过扫描与探针杂交的靶点,根据荧光或化学发光信号的强度来检测 。
4. **数据分析**:包括质量控制、数据规范化、差异表达分析、聚类分析、功能注释和富集分析等步骤 。
5. **应用领域**:微阵列分析可用于基因表达谱分析、miRNA分析、比较基因组杂交(CGH)、DNA甲基化分析、SNP分析等 。
6. **技术优势**:微阵列芯片的优势在于其高通量特性,能够同时大规模、全面地检测基因表达,为基因组学和遗传学研究提供重要工具 。
7. **数据分析重要性**:微阵列分析产生的大量数据需要通过计算机技术和统计学方法进行有效分析,以得出具有生物学意义的结论 。
8. **临床应用**:微阵列技术已用于发现临床有用的基因组和药物基因组生物标志物,GeneChip System 3000Dx是经FDA批准、符合IVDR要求的微阵列系统,可用于基于RNA和DNA的临床检测 。
9. **数据管理挑战**:尽管微阵列芯片技术发展迅速,但其产生的海量数据还没有统一的全球管理方案,研究结果分散保存在不同的数据库中,需要进一步的整合和管理 。
10. **微阵列芯片分析系统**:该系统采用特定波长的激发和高灵敏度的检测技术,适用于生命科学研究和临床检验中的多种微阵列芯片分析 。
微阵列芯片分析为研究基因功能、疾病机理以及药物反应等提供了一个强有力的平台,尽管在数据分析和数据管理方面存在挑战,但其在生物医学领域的应用前景广阔。
5. 基因表达分类器
基因表达分类器是一种分析工具,它使用机器学习或统计方法来识别和分类基于基因表达模式的生物样本。这些分类器通过分析细胞或组织中的基因活动(即哪些基因被转录成mRNA)来工作。基因表达数据可以揭示细胞的类型、状态或疾病阶段,尤其是在医学研究和临床诊断中,基因表达分类器对于识别不同类型的癌症和其他疾病非常有用。
### 基因表达分类器的关键特点包括:
1. **基因表达数据**:分类器分析的数据通常来源于实验室技术,如微阵列(microarrays)或RNA测序(RNA-Seq),这些技术可以测量成千上万个基因的表达水平。
2. **特征选择**:在构建分类器之前,通常需要选择一组与特定生物学过程或疾病状态相关的基因,这些基因作为分类的特征或标记。
3. **机器学习模型**:使用各种机器学习算法,如支持向量机(SVM)、随机森林、神经网络等,来训练分类器识别不同的基因表达模式。
4. **分类和预测**:一旦模型被训练,它可以用来预测未知样本的类别或状态,例如,区分健康组织和肿瘤组织。
5. **验证和优化**:分类器的性能需要通过交叉验证、独立测试集或临床样本来评估和优化。
6. **临床应用**:在临床环境中,基因表达分类器可以帮助医生做出更准确的诊断,个性化治疗方案,并预测疾病的发展和患者的预后。
7. **研究应用**:在基础研究中,这些分类器有助于理解复杂的生物学过程和疾病机制。
基因表达分类器的成功应用需要高质量的数据、精心设计的实验、强大的计算方法和对生物学背景的深入理解。随着技术的进步和生物信息学工具的发展,这些分类器在精准医疗中扮演着越来越重要的角色。
6.TGF信号通路
TGF-β是一种多功能的分泌型同源蛋白,它通过调节细胞反应如增殖、分化、迁移和凋亡,在胚胎发育、组织修复和稳态维持中起着核心作用。TGF-β信号通路涉及配体、受体、Smads及转录水平的调控。当TGF-β与其受体结合时,它激活了包括Smad蛋白在内的一系列信号传导分子,导致细胞核内Smad复合物的形成,进而调控靶基因的转录。TGF-β信号通路的异常与多种疾病如肿瘤、纤维化、心血管疾病和自身免疫疾病等有关 。
7.TNF信号通路
TNF-α是一种主要由活化的巨噬细胞产生的细胞因子,它通过与其受体TNFR1和TNFR2结合来发挥作用。TNF-α的两种生物活性形式包括跨膜型(tmTNF-α)和分泌型(sTNF-α)。TNF信号通路可以诱导细胞存活、炎症反应或细胞凋亡和坏死,具体取决于所激活的下游途径。TNFR1含有死亡域(DD),能够激活包括NF-κB和AP1转录因子在内的多种信号通路,而TNFR2主要激活NF-κB通路,促进细胞存活 。
8. Wnt信号通路
Wnt信号通路广泛存在于无脊椎动物和脊椎动物中,是一类在物种进化过程中高度保守的信号通路。Wnt信号在动物胚胎的早期发育、器官形成、组织再生和其它生理过程中,具有至关重要的作用。如果这条信号通路中的关键蛋白发生突变,导致信号异常活化,就可能诱导癌症的发生。1982年,R. Nusse和H.E. Varmus在小鼠乳腺癌细胞中克隆得到第一个Wnt基因,最初它被命名为Int1(integration 1)。后来的研究发现小鼠Int基因与果蝇的无翅基因wg(wingless)为同源基因,因而将两者合称为Wnt。H.E. Varmus 本人也因他在癌症研究中的杰出贡献而获得1989年的诺贝尔生理医学奖。
Wnt信号通路是细胞生物学中一个非常关键的信号传导系统,它在胚胎发育、组织再生、细胞命运决定等过程中发挥着重要作用。Wnt信号通路的异常活化与多种疾病包括癌症有关。
Wnt信号通路主要分为三个分支:
1. **经典Wnt/β-Catenin信号通路**:当Wnt配体与Frizzled(Fzd)受体结合后,会激活一系列信号传导事件,导致β-Catenin蛋白在细胞质中的积累,进而入核与TCF/LEF家族转录因子结合,激活下游靶基因的转录。
2. **Wnt/PCP通路**(Planar cell polarity pathway):这个通路通过小G蛋白激活JNK(c-Jun N-terminal kinase)来调控细胞骨架重排。
3. **Wnt/Ca2+通路**:通过释放胞内Ca2+来影响细胞粘连和相关基因表达。
Wnt信号通路的主要成分包括Wnt家族蛋白、Frizzled家族受体、Dishevelled(Dsh或Dvl)蛋白、GSK3β、Axin、APC、β-Catenin以及转录因子TCF/LEF家族。Wnt信号的激活涉及到Wnt配体与膜表面受体的结合,进而激活胞内蛋白DVL,抑制GSK3β等蛋白形成的β-Catenin降解复合物的降解活性,稳定细胞质中游离状态的β-Catenin蛋白。
Wnt信号通路的异常活化可能导致肿瘤的发生,例如,维生素D可以影响黑色素瘤细胞的发育过程,通过增加VDR减少Wnt/β-catenin通路的活性,减缓黑色素瘤细胞的生长。此外,Wnt信号通路与其他信号通路如RTK/Ras/MAPK和PI3K/ILK/PKB通路相互整合,共同作用于GSK-3β,上调Snail的水平,降低E-Cadherin的表达,促进EMT的发生和肿瘤转移。
Wnt信号通路的研究不仅有助于我们理解其在正常生理过程中的作用,也为开发针对相关疾病的治疗策略提供了重要的基础。
9.SRY-box 17(SOX17)
SRY-box17是一种属于SOX(SRY-related HMG-box)家族的转录因子,对胚胎发育和细胞命运决定具有重要作用。SOX17编码的蛋白可以与其他蛋白形成复合体,并作为转录调节因子发挥作用。它能通过结合目标启动子DNA并使DNA弯曲来调节转录,并且能够结合特定的DNA序列,如5'-AACAAT-'3或5'-AACAAAG-3'。
SOX17在多种生物学过程中发挥作用,包括但不限于:
- 抑制Wnt信号传导
- 促进β-catenin的降解
- 在胚胎发育中的调控作用,例如肠内分泌层的正常发育和胚胎心脏管的正常环化
- 在胚胎和出生后血管发育中的重要作用,包括动脉的发育
- 在出生后血管生成中的功能冗余性,与SOX18功能重叠
- 对于胎儿造血干细胞的产生和维持以及胎儿造血过程的必要性
- 在减数分裂前的生殖细胞中可能作为转录激活因子
在癌症研究领域,SOX17在不同类型癌症中的作用存在差异。在某些情况下,SOX17作为肿瘤抑制因子,通过抑制Wnt/β-catenin信号通路来减少肿瘤形成和细胞增殖。例如,在宫颈癌细胞中,SOX17的表达降低,而通过直接结合到β-catenin的启动子区域,SOX17可以抑制Wnt/β-catenin信号通路的活性,从而抑制肿瘤形成和细胞增殖。此外,SOX17的表达降低与宫颈癌组织中β-catenin表达的增加呈负相关,这进一步支持了SOX17在临床宫颈癌组织中作为β-catenin的负调节因子的角色。
在其他类型的癌症中,如乳腺癌、结直肠癌、肝细胞癌、胃癌、食管癌、胆管癌、子宫内膜癌和宫颈癌,SOX17的启动子高甲基化可能导致Wnt/β-catenin信号通路的异常激活,进而影响肿瘤的发生和发展。
SOX17的研究有助于我们理解其在正常生理和疾病过程中的作用,为开发针对相关疾病的治疗策略提供了重要的基础。
10.炎症百分比
"炎症百分比"这个术语在不同的生物学和医学背景下可能有不同的含义。以下是一些可能的解释:
炎症细胞的百分比:在组织样本或血液样本中,炎症细胞(如中性粒细胞、单核细胞等)占总细胞数的比例。
炎症介质的相对水平:在生化分析中,特定炎症介质(如细胞因子IL-6、TNF-α等)的水平与参考范围或其他生物标志物水平的比较百分比。
炎症反应的强度:在临床评估中,炎症的严重程度或反应的强度可以用百分比来描述,例如,一个患者可能表现出中度炎症(50%)。
受影响组织的比例:在某些情况下,炎症百分比可能指的是受影响或受炎症改变的组织区域占总观察区域的比例。
炎症性疾病的患病率:在流行病学研究中,炎症百分比可能指的是在特定人群中患有某种炎症性疾病的比例。
炎症相关基因表达的百分比:在基因表达分析中,与炎症相关的基因表达变化占所有检测基因的百分比。
炎症治疗反应的百分比:在临床试验中,治疗后炎症改善的患者占总患者人数的百分比。
了解"炎症百分比"的确切含义需要具体的上下文信息。在医学研究和临床实践中,准确测量和解释炎症的百分比对于评估疾病状态、监测治疗反应和进行科学分析至关重要。
二、用到的生物信息学工具介绍(AI整理)
1. Partek Genomics Suite 6.6
Partek Genomics Suite (PGS) 是一款综合性的生物信息学软件,用于分析基因组数据,尤其是在转录组学研究中。PGS 提供用户友好的界面和多种高级分析工具,使用户能够处理从简单的基因表达分析到复杂的遗传变异分析等多种类型的数据。以下是 Partek Genomics Suite 6.6 版本的一些关键特性:
1. **数据整合**:能够整合和分析来自不同平台的基因表达数据,包括微阵列和 RNA 测序技术。
2. **标准化流程**:提供了数据预处理的标准化流程,包括背景校正、数据归一化和转换。
3. **差异表达分析**:支持差异表达基因的检测,包括统计测试和多重检验校正。
4. **富集分析**:提供了 GO (Gene Ontology) 富集分析,Pathway Analysis 等,帮助用户理解基因集的生物学意义。
5. **可视化工具**:提供了多种数据可视化工具,如热图、散点图、箱线图和主成分分析 (PCA) 等。
6. **多组学数据探索**:允许用户结合基因表达数据和其他组学数据,如蛋白质组学或代谢组学数据。
7. **用户定制报告**:用户可以根据需要生成定制化的分析报告。
8. **支持多种数据格式**:兼容多种数据格式,包括 Affymetrix、Illumina 等平台的数据。
9. **高级统计测试**:提供了多种统计测试方法,如 t-test、ANOVA、非参数检验等。
10. **技术文档和支持**:提供详细的用户手册、在线帮助和技术支持。
Partek Genomics Suite 6.6 版本可能还包含了一些特定于版本的更新和改进,包括用户界面的优化、分析算法的更新以及新功能的添加。如果您正在使用或考虑使用 PGS 6.6,建议查看最新的用户手册和软件更新说明,以获取所有最新功能和优化的完整列表。
2.Enrichr (http://amp.pharm.mssm.edu/Enrichr/)
Enrichr 是一个广泛使用的在线生物信息学工具,它提供了一种快速且用户友好的方式来进行基因集富集分析。这个工具背后的主要思想是确定一个基因列表是否在特定的生物学过程、分子功能或细胞组分中显著富集,这些通常基于基因本体(Gene Ontology, GO)术语或通路数据库。
以下是 Enrichr 的一些关键特性:
1. **基因集富集分析(GSEA)**:Enrichr 允许用户提交一个基因列表,并检查这些基因是否在预定义的生物学通路或功能类别中过度表示。
2. **多种数据库**:它集成了多个数据库,包括 KEGG、Reactome、GO、BioCarta 等,用于富集分析。
3. **用户界面**:Enrichr 拥有一个直观的网页界面,用户可以通过简单的复制和粘贴或上传文件的方式来提交他们的基因列表。
4. **自定义基因集**:用户可以利用自己的基因集或使用公共数据库中的基因集进行分析。
5. **统计显著性**:Enrichr 提供了统计测试来评估观察到的富集是否可能仅仅是偶然发生的。
6. **可视化结果**:分析结果通常以条形图或气泡图的形式展示,每个条目代表一个富集的通路或功能类别。
7. **高级分析**:Enrichr 还允许用户进行更高级的分析,比如使用预排名的基因集分析(Pre-ranked Gene Set Analysis, PRGSA)。
8. **编程接口**:Enrichr 提供了 REST API,允许用户将该工具集成到他们自己的脚本或工作流程中。
9. **多物种支持**:Enrichr 支持多种物种的基因集富集分析,不限于人类。
10. **社区驱动**:Enrichr 拥有一个活跃的社区,用户可以贡献新的基因集或数据库,以丰富工具的功能。
Enrichr 是研究基因功能和疾病机制的强大工具,尤其适用于那些寻找基因表达数据背后生物学意义的研究人员。通过使用 Enrichr,研究人员可以快速识别可能在特定生物学过程或疾病中起作用的基因和通路。
3. Ingenuity Pathway Analysis (IPA)
Ingenuity Pathway Analysis (IPA) 是一款由 QIAGEN 提供的综合性生物信息学软件,广泛应用于从转录组学、蛋白质组学到代谢组学等多种组学数据的分析和解释。以下是关于 IPA 的一些关键信息:
1. **核心分析**:IPA 的核心分析功能允许用户将分子数据集与 QIAGEN Knowledge Base 中的信息联系起来,从而揭示信号和代谢通路的富集情况、预测上游调控因子的激活或抑制状态、识别生物学功能和疾病的预测变化趋势、构建网络以描述数据集中分子的潜在分子相互作用 。
2. **Causal Network Analysis**:这是一种综合性的上游调控因子分析方法,可以鉴定控制数据集中基因表达的上游分子,并揭示与数据集靶点相关联的调控因子网络 。
3. **Comparison Analysis**:通过热图快速可视化不同条件下(如剂量、时间)经典通路得分的变化趋势,并可通过得分、层次聚类或趋势来确定优先级 。
4. **BioProfiler**:该工具可以快速对疾病或表型进行分析,通过理解与其相关的基因和化合物,识别潜在的靶点或与毒性、已知药物、生物标记物和通路相关的靶点 。
5. **Downstream Effects Analysis**:利用基因表达结果来识别显著的下游生物学过程是否上调或下调 。
6. **Pathway Analysis**:包括经典通路、重叠通路、通路导入和评分等分析,以确定受影响最大的通路 。
7. **Toxicity Lists and Toxicity Functions**:将实验数据与临床病理终点联系起来,支持药物作用和毒性机制的假设生成 。
8. **Molecule Activity Predictor (MAP)**:通过选择感兴趣的分子并指示其上调或下调,模拟下游分子的方向性后果,以及网络或通路中上游推断活性 。
9. **Isoform View**:使用 Isoform view,可以识别 RNAseq 数据中显著调控的异构体,并使用有关功能蛋白域和异构体特异性文献的信息来确定其潜在影响 。
10. **Gene and ChemView**:提供搜索和探索功能,访问有关基因、药物、化学物质、蛋白质家族、正常细胞和疾病过程以及信号和代谢通路的最新发现 。
11. **Biomarker Filter**:基于与发现研究最相关的生物学特性,快速识别最佳生物标记物候选 。
12. **Path Designer**:将网络和通路转换为具有丰富颜色、自定义文本和字体、生物学图标、细胞器和自定义背景的出版质量通路图形 。
IPA 软件不断更新,以适应生物医学研究的需求。例如,2018年3月9日的应用版本 build 463341M,提供了上述多种分析功能,帮助研究人员深入理解他们的组学数据 。
4.Evaluation of Differential DependencY (EDDY)
Evaluation of Differential DependencY (EDDY) 是一种用于分析基因集的统计方法,它用于检测在不同条件下基因集之间的依赖性变化。EDDY 的核心思想是评估基因表达数据中基因对之间的相互作用或依赖性是否在实验组和对照组之间存在显著差异。
以下是 EDDY 方法的一些关键特点:
1. **基因集依赖性分析**:EDDY 通过分析基因对之间的表达水平,来评估一个基因的表达是否依赖于另一个基因的表达。
2. **统计测试**:该方法使用统计测试来确定基因集之间的依赖性是否在不同的生物学条件或实验处理之间有显著差异。
3. **多重检验校正**:与所有统计分析一样,EDDY 需要对多重检验进行校正,以控制假阳性率。
4. **应用于基因调控网络**:EDDY 可以揭示基因调控网络中的潜在变化,这对于理解复杂的生物学过程和疾病机制非常有用。
5. **GPU 加速**:为了处理大规模的基因表达数据集,EDDY 可以利用 GPU 加速计算,提高分析的效率和速度。
6. **结果解释**:EDDY 的结果可以帮助研究者识别在特定生物学过程或疾病状态下可能起作用的关键基因集。
7. **与其他分析方法比较**:EDDY 可以与其他基因集富集分析方法(如 GSEA 或 GSCA)进行比较,以确定其在特定数据集和生物学问题中的表现。
8. **软件实现**:EDDY 通常有可用的软件实现,可能包括命令行工具或图形用户界面,以方便研究者使用。
9. **应用范围**:EDDY 可以应用于各种类型的基因表达数据,包括但不限于微阵列、RNA 测序等。
10. **研究和出版物**:EDDY 方法已经被多篇科学论文引用,证明了其在生物信息学和系统生物学研究中的实用性。
EDDY 是一种强大的工具,它通过分析基因集之间的依赖性变化,为研究基因调控和生物学功能提供了新的视角。随着系统生物学的不断发展,EDDY 及其衍生方法将继续在揭示复杂生物学系统中的基因相互作用和调控机制方面发挥重要作用。
三、这项研究做了什么?
肺动脉高压(PAH)是一种罕见的肺部疾病,特点是平均肺动脉压力(mPAP)达到或超过25毫米汞柱。正常肺血流的物理阻塞导致肺血管阻力增加和右心室适应不良,最终导致右心衰竭,这是最常见的死亡原因。目前的治疗方案通常侧重于症状缓解而不是疾病进展干预。作者认为像PAH这样的疾病是由复杂的分子过程网络驱动的。目前流行使用分子分析来理解疾病的分子机制。由于病变肺组织获取困难,转录组学数据的开发研究已经放缓。该研究利用各种基因分析技术,应用于大量PAH肺组织标本与对照组的比较。这些结果提供了对当前治疗方法的验证,以及对通路的连接和重构的预测,为病理学和治疗提供了潜在的新见解。
四、这项研究得到了什么结果或结论
1. 微阵列数据集特征
微阵列数据集有大量的批次和性别效应,这些效应通过Partek的"批次去除"功能进行了校正。在批次/性别校正后,完整的微阵列数据集(n = 33297个转录本ID)通过ANOVA建模(Partek)分析了PAH和FD之间的差异表达(DE)基因,随后进行了q值(False Discovery Rate,FDR)校正。有1140个转录本ID满足FDR q值小于0.001的截断值(称为PAH分类器,表E2),并显示为监督表达热图和火山图(图1和图E2)。本研究分别对对照组与PAH肺表达数据集测试了PAH分类器,并使用文献来源的PAH基因网络进行了测试(见参考文献14和图E3和E4)。此外,我们还通过qRT-PCR验证了微阵列分析预测的特定基因表达差异(图E5)。
PAH肺转录组内的证据支持这三种治疗选择的重要性。PDE5A和其他PDE家族成员被发现显著上调(表2和图E5)。另一种治疗策略是使用刺激剂(例如riociguat)针对可溶性鸟苷酸环化酶,可溶性鸟苷酸环化酶的一个亚单位(鸟苷酸环化酶1可溶性亚单位Beta 1 [GUCY1B1])被下调(表2)。EDN途径拮抗剂(例如bosentan)是PAH的另一种已建立的治疗方法。EDN1和EDN受体A都上调(表2)。最后,L型电压门控钙通道,CACNA1C,是二氢吡啶类药物,用于在表现出血管反应性的PAH患者中,显著上调(表2)。这些基因家族的附加列表,以及BMPs/BMPR1A、S100钙结合蛋白(S100s)和Toll样受体(TLRs)显示在表E3中。
2.PAH分类器基因数据集富集分析
PAH分类器被导入到IPA(Ingenuity Pathway Analysis)中进行通路分析(表3和表E4)。PAH分类器描述的前四个典型通路包括G蛋白偶联受体(Fisher精确P值 = 1 × 10^-26)和三种免疫学反应,IL-8信号(P值 = 4.6 × 10^-25)和两个固有免疫途径(吞噬体形成和模式识别受体的作用;P值分别为8.5 × 10-7和6.8 × 10-26)。利用其大量数据库已发表的数据以及自然语言处理和对已发表的文献的精选文本挖掘,IPA可以将划分出的基因列表放入潜在上游调节因子的场景中。预测的上游调节因子本身可能是差异表达的(DE),尽管这不是包含的标准。雌激素受体1(ESR1)是一个特定的预测上游调节因子的例子,它本身在PAH中被发现上调(图2),并被认为在PAH中发挥重要作用,即通过PAH发病率的女性偏倚以及女性更好的存活率(26, 27)。女性激素β-雌二醇被识别为潜在的上游调节因子,表明可能具有多效性作用。
最一致的是,PAH分类器的上游调节因子被发现对应于免疫学功能,包括已知基因(见参考文献28;TNF,高分辨率图E6)、集落刺激因子(CSF)3和IL-10受体A(IL-10RA;图3A和3B),以及小分子(β-雌二醇、LPS和地塞米松)。统计分析确定TNF具有最低的P值(1.2 × 10-14),而CSF3、IL-10RA和IL-10显示出较小的P值(分别为3.8 × 10-12、3.8 × 10-8和8.5 × 10-8),并在IPA中被评分为抑制(CSF3 z分数 = -2.4;IL-10 z分数 = -2.4)或激活(IL-10RA z分数 = +2.5)。在IPA中,通过考虑来自PAH分类器的下游基因的观察效应来推断上游通路状态。其他识别出的排名靠前的上游调节因子包括额外的细胞因子(IL-13、IL-10、IL-5、IL-15和IFN-g)、两个固醇调节元件结合转录因子(SREBF1和SREBF2)和TGFB1。
3. 基因表达与临床和病理资料的相关性
PHBI项目提供了一个独特的资源,即肺组织的肺转录组数据与同一个体的详细病理生理评估的结合。共有53名PAH患者具有这两种数据类型,基本的临床和病理资料导入Partek。然后,基因表达数据与每个个体的临床和病理数据进行成对相关性分析(使用截断值r > 0.50;表E5)。图4展示了几个临床和病理变量的例子。CD1C和鸟氨酸脱羧酶(ODC)1的表达与平均肺动脉压(mPAP)有显著相关性(图4A;CD1C相关性r = 10.58, P = 2.6 × 10-26,ODC1r = -0.56, P = 6.5 × 10-26),而CD27、丝束蛋白(SEPT)6和T细胞受体相关适配子(TRAT)1与炎症评分百分比相关(图4B;CD27相关性r = 10.73, P = 7.3 × 10-11,SEPT6 r = -0.63, P = 1.1 × 10-7,TRAT1r = -0.60, P = 8.0 × 10-7)。对炎症百分比的相关性分析检索到164个转录本ID,这些ID被导入到Enrichr进行GO生物过程(GO-BP)分类。不出所料,这个基因列表突出了免疫反应GO-BP类别,但有趣的是,前10个类别(表E6;校正P < 2.0 × 10^-6)集中在T细胞相关过程,这得到了最近PAH和对照肺免疫表型的证实(29-31)。
PHBI项目提供了足够的PAH临床亚组样本,包括APAH(n = 18)和IPAH(n = 31),以完成临床亚组DE(差异表达)和通路分析(表4)。HPAH亚组样本数量较少(n =6),生成了一个简短的DE基因列表,不足以进行通路分析。PAH亚组分析显示,APAH更依赖于BMP3、肝细胞生长因子(HGF)和TGFB3,IPAH则依赖于C-X-C趋化因子配体(CXCL)9和早期生长反应(EGR)1,HPAH则依赖于PDE8B、碳酸酐酶(CA)1、多梳体1增强子(EPC1)和Pim-2原癌基因激酶(PIM)2。表4还包括PDE4B作为APAH特有的基因,与PDE8B作为IPAH特有的基因形成对比,尽管其倍数变化(FC)仅增加了1.263。在Enrichr中对APAH和IPAH的比较使用了严格的q值截断值(q值 < 0.001)进行GO-PB基因集富集分析,与PAH分类器截断值一致(表E7)。APAH与FD的比较发现了82个APAH特有的DE基因,IPAH与FD的比较发现了308个IPAH特有的DE基因,两者共有119个DE基因。表5突出了每个基因列表过度表达的前五个GO-BP类别(Enrichr综合得分> 20)。IPAH特有的DE基因在中性粒细胞和树突状免疫细胞类型中过度表达。APAH特有的DE基因在磷脂酰肌醇激活和细胞外基质组织中过度表达。两者共有的DE基因表明了先天免疫的作用,因为各种TLRs被代表。
4.使用EDDY在PAH中发现通路重连
如方法部分所述,经过预处理的基因表达数据被使用EDDY算法分析(见参考文献21,图5和表6),以识别在PAH和FD对照肺中富含差异依赖性的已知生物学通路。
在REACTOME数据库中表示的已知生物学通路(共472个)通过EDDY在PAH和供体表达阵列数据集的背景下进行了查询。在16个具有统计学意义的REACTOME通路中,重连的程度相当大,从46%到100%的整个通路显示出一定程度的基因相互依赖性变化(图6A)。
此外,在四个已识别的差异依赖性网络中,超过40%的依赖性以前是未知的,但携带了以前研究中从未编目过的统计派生的联系。
对于一些在PAH中已知的关键通路,例如TGF信号通路,重连的广度仅依赖于已知基因相互作用的变化,这些在PAH中从未具体定义过。图6B提供了这样一个例子,其中定义了PAH依赖的基因相互依赖性的变化,这些依赖性是针对特定E3泛素连接酶(SMURF)1的,一个最近才与PAH联系起来的基因(33)。EDDY识别TLR3和TLR4是IFN调节因子(IRF)-3和-7激活的REACTOME通路的核心,是治疗开发潜在的靶点(图6C)。此外,在其他最近被描述为在PAH发病机制中重要的通路中也特别观察到了重连,例如谷氨酰胺代谢及其对酶谷氨酰胺酶(GLS)1的病理依赖性(见参考文献34,图6D)。正如在FD组织基因依赖性网络中特别说明的那样,我们的发现识别了GLS和一个必需性介质基因,磷酸甘油酸脱氢酶(PHGDH)之间尚未描述的基因联系。然而,在PAH组织的基因依赖性网络中,这种联系消失了,取而代之的是GLS和鸟氨酸转氨酶(OAT)之间已知的联系,以及与谷氨酸-氨合成酶(GLUL)之间的新联系。这些通路结果可在线上公开获取(http://www.sychanlab.pitt.edu/ sysbio/eddy/phbi/)。
5.PAH中性别特异性基因表达的特征
由于PHBI患者收集的性别比例极端不平衡,我们在初步分析中同时校正了性别和批次,这使得确定基于性别的PAH基因表达变得困难。为了克服这个困难,我们完成了一个使用基于性别的差异表达(DE)在人类肺组织中的监督分析(n = 213个基因[35])。有趣的是,有71个DE基因在PAH患者和FD患者之间存在差异(P < 0.05;表E7)。正如我们校正数据集所预期的,当按性别分析时,这些基因都没有剩余的显著性。
当这个基因列表被导入到Enrichr进行GO-BP富集分析时,排名最高的类别是“对过氧化氢的反应”,同时存在一个明显的WNT相关过程负向调节模式(表7和表E8)。
四、体会
1.知识盲区太多,尤其是专有名词不理解,借助AI工具能大致理解。
2.统计学知识欠缺,对表格和图形信息理解不透。
3.利用生信工具分析与绘图有待学习。