生信小课堂
研究概述:
多囊卵巢综合征(PCOS)是一种复杂的内分泌代谢紊乱,PCOS患者免疫细胞的功能障碍可能导致免疫系统的持续刺激,增加促炎细胞,从而复发性植入失败(RIF)
本研究旨在探索PCOS和RIF发展中涉及的潜在生物标志物和潜在途径。作者从GEO数据库中获得了3个PCOS和RIF数据集,通过WGCNA、功能富集分析和三种机器学习算法分析差异表达基因和模块基因,从而确定了2个诊断基因GLIPR1和MAMLD1。接着使用ROC曲线评估PCOS和RIF验证数据集。最后收集了健康和PCOS不孕妇女的颗粒细胞以及健康和RIF患者的子宫内膜组织,采用RT-PCR验证GLIPR1和MAMLD1的可靠性。此外,通过GSEA和免疫浸润,发现PCOS和RIF患者都存在与TCA循环相关的代谢物紊乱,最终导致免疫细胞的大量激活。
研究结果:
一、差异表达基因DEGs的鉴定
1. 作者在GEO数据库中选择GSE10946和GSE34526为PCOS的发现队列,GSE103465和GSE111974为RIF的发现队列。表1是四个数据集的详细信息。此外,GSE80432和GSE26787分别为PCOS和RIF的验证队列。本研究中将这两个疾病组简称为PCOS和RIF。
2. 在生物信息分析之前测试了数据集,发现两种疾病的批量效应明显(图2A、E),故使用“sva”包剔除了PCOS组(图2B)和RIF组(图2F)的批量效应,得到了可靠的分析结果。
3. 使用LIMMA包来表征两组之间的DEGs。
PCOS(图2C)上调基因101个,下调基因100个;
RIF(图2G)上调基因167个,下调基因86个。
4. 图2D, H通过热图显示两组中所含的DEGs。
二、WGCNA对关键模块的筛选
1. 本研究采用WGCNA方法构建了一个共表达网络
2. 在PCOS组中,确定了20个共表达模块,P<0.05的模块视为关键模块。图3C,antiquewhite4模块正相关最强,包含180个基因。
3. 同样将WGCNA应用于RIF组,共鉴定出19个模块:dark grey, dark green, 和royal blue模块呈强正相关,green-yellow, salmon, dark turquoise, 和light yellow模块呈强负相关(图3E、F)。
4. 在RIF组这7个关键模块的基因中,作者进一步筛选出了334个|MM| > 0.8和|GS| > 0.5的基因,可能被用作候选的细胞类型特异性标记。
三、共享基因分析与功能富集
1. 图4A:PCOS和RIF的DEGs共有11个基因重叠,图4B:只有一个基因与WGCNA分析的基因重叠,图4C:这12个基因可能与PCOS和RIF的发病机制有关,且具有共享关系。
2. GO对共享基因的分析显示,它们在与早期胚胎器官形态发生相关的途径中被过度代表。此外T细胞凋亡过程的调节、肥大细胞激活和白细胞稳态等生物过程途径显著富集,表明免疫细胞的激活和凋亡可能在PCOS和RIF的共同发病机制中发挥了重要作用。KEGG富集与GO分析一致 (图4D, E) 。
3. 此外,与卵泡发育相关的几种通路被富集,如p53信号通路、FOXO信号通路、hippo信号通路和PI3K-Akt信号通路。
四、基于机器学习算法(LASSO,SVM-RFE和随机森林)识别潜在的共享诊断基因
1. 在PCOS组中,基于LASSO发现了8个基因。将上述12个基因输入RF分类器,在重要性量表上显示前10个基因,选择0.9作为重要筛选阈值,共鉴定出9个基因(图5B)。
2. SVM算法识别出5 个基因,其5点CV误差最低,准确度最高(图5C)。
3. 通过这三种算法结果的交集,为PCOS组开发了5种共享生物标志物(CHST11, GLIPR1, SLC16A6, MAMLD1, HAPLN1, GAS1)(图5D, I)。
4. 同样,当 LASSO 分析RIF组获得7个特征基因(图5E)。图5F显示重要性量表上排名前10的基因,选择重要性>0.9的9个基因作为RM结果。
5. 使用SVM-REF算法鉴定10个枢纽基因的子集(图5G)。这三种算法交集,为RIF组开发了7种共享生物标志物 (图5H, I)。
五、诊断基因的预测价值和有效性
1. PCOS和RIF组的机器学习结果进行交集,得到2个共享的诊断基因GLIPR1和MAMLD1(图6A)。
2. 图6B显示GLIRP1在RIF组中表达水平较低,在PCOS组中较高;MAMLD1在两组的表达均较低(图6F)。
3. 图6C, G采用ROC分析,两种靶基因对两种疾病诊断的预测性能都很稳健。
4. 图6D通过外部验证,证实了GLIPR1和MAMLD1作为PCOS和RIF核心诊断基因的可靠性:两个验证组中基因表达水平与发现组中的表达水平相匹配(图6H、E、I)。
六、诊断基因的单基因GSEA
1. 分别对PCOS和RIF数据集中的两种生物标志物进行了单基因GSEA分析,并通过“GSEA”软件包可视化前5个上调和下调通路。
2. 图7显示,在两种疾病组中,这两个基因都参与了甘氨酸、丝氨酸、苏氨酸代谢、α -亚麻酸代谢、丙酸代谢等代谢途径。此外都富集了与PCOS和RIF相关的炎症相关通路。
七、共享诊断基因的免疫浸润分析
1. PCOS和RIF的特征是高免疫反应,故采用CIBERSORT分析不同组免疫细胞丰度。在每组中,22个免疫细胞的比例以条形图表示。
2. 条形图清楚地说明了PCOS(图8A)和RIF(图8E)之间T细胞,巨噬细胞和NK细胞群的百分比的显著差异。与对照样品相比,PCOS样品中活化的树突状细胞增加(图8B),RIF样品中,NK静止细胞,M0巨噬细胞增加,NK γδ细胞,树突状细胞活化减少(图8F)。
3. PCOS样本中,GLIPR1与CD8 T细胞呈显著正相关,与M0巨噬细胞呈负相关(图8C)。MAMLD1与记忆B细胞呈显著正相关,与M2巨噬细胞、静息树突状细胞和单核细胞呈负相关(图8D)。
4. RIF样本中,GLIPR1与静息NK细胞呈显著负相关(图8G)。MAMLD1与中性粒细胞和NK细胞呈负相关(图8H),可见免疫功能在PCOS和RIF的发生发展中至关重要。
八、通过RT-PCR验证人体组织中的GLIPR和MAMLDs
对正常女性和PCOS患者的卵泡液来源的颗粒细胞,以及健康和RIF女性的子宫内膜组织进行RT-PCR。与数据分析一致,PCOS患者颗粒细胞中的GLIPR1表达上调,MAMLD1表达降低(图9A),而RIF患者子宫内膜组织中GLIPR1和MAMLD1表达均降低(图9B)。
研究总结:
本研究应用WGCNA和三种机器学习方法,鉴定了GLIPR2和MAMLD1作为疾病诊断标志物的潜力,为PCOS和RIF患者的诊断和治疗提供了新的临床见解和指导。此外,通过GSEA分析发现PCOS和RIF两种疾病的共发病机制在于与TCA循环相关的许多代谢物的异常代谢,导致疾病组中免疫细胞的异常激活和免疫反应。