Nat Biotech | 从DNA片段谱推断基因表达
原创 榴莲不酥 图灵基因 2022-04-14 07:03
收录于话题#前沿分子生物学技术
撰文:榴莲不酥
IF= 54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
无细胞DNA测序的表观遗传表达推断(EPIC-seq)是一种使用目标基因启动子的靶向测序的方法。EPIC-seq可以实现无创、高通量的组织起源表征,具有诊断、预后和治疗潜力。
2022年3月31日,nature biotechnology杂志上发表了一篇名为“Inferring gene expression from cell-free DNA fragmentation profiles”的文章,通过评估预测基因表达的额外血浆中循环的游离DNA(cfDNA)片段特征来推断,通过高分辨率分析关键区域的cfDNA片段、关键片段组学特征以捕捉基因水平与整个基因组表达水平的关联,并为预测转录输出提供了准确的模型。
cfDNA分子主要来自于体内各种组织内稳态过程中伴随细胞死亡的染色质断裂。因此,已经建立了用于检测实体器官移植后组织排斥反应、妊娠期间胎儿非整倍体的无创性产前检测和无创性肿瘤基因分型的cfDNA图谱,以及检测多种癌症类型的早期证据。事实上,基因序列的这种变异可以为循环肿瘤DNA(ctDNA)的免活检肿瘤基因分型和疾病负担监测提供大量信息,有可能用于早期癌症检测。尽管cfDNA分析在无创检测突变方面有很多应用,即使在肿瘤突变负荷高的癌症中,甚至在疾病负担高的患者中,大多数癌症衍生片段都是未突变的。因此,利用表观遗传学特征询问这些cfDNA片段可能有广泛的用途。
肺癌患者的cfDNA片段由正常的主要造血cfDNA片段与衍生的片段混合,组成来自经历凋亡的LUAD细胞。另一方面,B细胞高度表达MS4A1,而NKX2-1的表达水平非常低。因此,B细胞淋巴瘤患者的cfDNA片段由正常的cfDNA片段与B细胞衍生的ctDNA混合而成,MS4A1的过度表达导致TSS处cfDNA片段长度值的覆盖率较低,多样性较高。研究发现,启动子碎片熵(PFE)和表达之间的相关性比正常核小体缺失区(NDR)深度和表达之间的相关性更强。PFE也优于其他先前定义的碎片组学指标。通过检查与TSS的距离是否影响cfDNA片段组学特征和表达之间的相关性,观察到与NDR相比,PFE的相关性具有更广泛的分散性。通过考虑先前在较低全基因组测序(WGS)深度分析的肺癌患者的碎片组学特征,进一步证实了cfDNA深度WGS分析的观察结果。图1:基因表达与cfDNA分子特征的相关性
为了更好地解决cfDNA片段熵和表达水平之间的关联,研究团队接下来研究了它们在单个基因体之间的关系。当考虑与转录起始位点(TSS)和外显子、内含子组织的距离时,研究发现峰值cfDNA片段熵以TSS为中心,这种效应对于高表达基因最为显著。在考虑基因体时,虽然第一个外显子显示出与TSS相似的熵信号,但对于随后远离TSS的内含子和外显子,该信号急剧下降。因此,侧翼TSS区域的cfDNA片段化特征与整个转录组的表达水平高度相关。在区分SCLC患者和健康成人对照参与者的候选差异表达基因(DEG)中,研究团队确定了几个众所周知的SCLC标记物,包括ASCL1、ANK1和ASTN1。事实上,通过RNA-seq分析,从cfDNA推断差异表达的基因在原发性SCLC肿瘤和PBMC中表现出高度显著且一致的差异表达。从cfDNA进行表达推断是可行的,并且可以在基因水平上忠实地捕获实体肺癌组织中的肿瘤特异性表达。图2:与基因结构相关的片段大小熵为全外显子cfDNA图谱的表达推断提供信息
通过设计一种新方法EPIC-seq,它将基于混合捕获的cfDNA中TSS侧翼区域的定向深度测序与预测RNA表达的机器学习相结合。EPIC-seq实验中靶向的TSS区域被定制为包括预期在感兴趣的条件下差异表达的基因。通过评估NSCLC腺癌(LUAD)与肺鳞状细胞癌(LUSC)以及DLBCL生发中心B(GCB)与活化B细胞(ABC)样亚型中差异表达的基因,确定了亚型特异性基因。通过评估NKX2-1(TTF1)的表达,发现NSCLC-LUAD患者血浆中NKX2-1的预测表达水平显著升高。总的来说,通过使用EPIC-seq靶向深层cfDNA-seq来推断表达是可行的,并且该框架可以在单基因分辨率下恢复组织衍生表达的预期差异。图3:EPICseq设计和工作流程
使用EPIC-seq分析弥漫大B细胞淋巴瘤(DLBCL)患者的预处理血样,并测试cfDNA中的表观遗传信号是否允许无创检测DLBCL病例,从而将癌症患者与健康对照者区分开来。在EPIC-seq数据上训练的分类器,用于区分DLBCL患者和非癌症对照参与者,显示了稳健的表现。通过计算95%特异性下的灵敏度,评估了不同ctDNA水平下的分类性能。虽然EPICseq的敏感性与平均房颤密切相关,并且在ctDNA水平高于1%时表现出最稳健的表现,但结果观察到大约40%的DLBCL病例检测到平均房颤<1%。为了评估DLBCL治疗期间的表观遗传信号和体细胞突变之间的关系及其随时间的稳定性,接下来使用EPIC-seq和CAPP-seq分析了两名患者在诱导治疗后不久的系列血样,观察到两名患者的DLBCLEPIC-seq评分和ctDNA浓度随着时间的推移呈现出强烈且显著的相关性。总的来说,这些结果表明EPIC-seq的表达推断可以无创地检测组织来源,DLBCL信号并准确反映DLBCL治疗前后的疾病负担。图4:EPIC-seq在DLBCL检测中的应用
在本研究中,介绍了EPIC-seq这一种利用cfDNA片段模式进行基因表达无创推断的方法,可用于多种临床相关应用,具有预后意义的基因分析。与EPIC-seq相比,先前描述的cfDNA片段技术和特征的敏感性不足以解决具有高可信度的单个基因的表达。本文描述的方法通过使用PFE作为指标,以及通过靶向捕获感兴趣基因的启动子区域,实现了更高的测序深度,从而显著提高了性能。
教授介绍
Maximilian Diehn博士,斯坦福大学医学院放射肿瘤学科教授,放射肿瘤学住院医师。美国放射治疗和肿瘤学会成员,北美放射学会成员,国际干细胞研究学会成员,国际肺癌研究协会成员。曾获得多丽丝杜克临床科学家发展奖,肺癌研究计划有前途的临床医生研究奖和伦琴居民/研究员研究奖等。所在实验室专注于两个主要领域:1)癌症干细胞生物学及其对治疗的影响;2)基于基因组学的生物标志物的开发,用于识别恶性细胞的存在(诊断)、预测结果(预后)和预测对治疗的反应(预测)。研究领域包括肺癌、乳腺癌和胃肠系统癌症。同时也有兴趣对正常和癌症干细胞进行更深入的分子理解,包括识别对生存和自我更新重要的途径和基因。
参考文献
Esfahani MS,Hamilton EG, Mehrmohamadi M, et. al. Inferring gene expression from cell-freeDNA fragmentation profiles. Nat Biotechnol. 2022 Mar 31. doi:10.1038/s41587-022-01222-4. Epub ahead of print. PMID: 35361996.