本篇文献的基本假设:
In this work, we hypothesized whether human plasma DNA ends might have a preponderance of certain nucleotide contexts, i.e., preferred fragment end motifs。
即人类血浆中cfDNA的end motifs是否代表了一种独特类型的血浆DNA片段特征,血浆cfDNA的end motifs是否可以作为癌症诊断的一种指标。
文章主要计算了每个血浆DNA末端基序的频率,用于下游分析,试图确定某些end motifs是否在某些器官或选定的生理或病理条件中over- or underrepresented。
end motifs定义如下:
3端突出的片段进行消化,5端突出的片段进行延长补齐,文库构建时不进行片段大小选择,保证了最后测序得到的数据保留了原始的5端序列特征。
通过WGS并计算end motifs的频率,得到一个类似表达谱的矩阵,总共包括4^4,即256个motif的谱:
随后,针对这个end motifs profile进行各种分析,比如
某个end motifs 频率差异箱线图:Alteration of Plasma DNA Motif CCCA in Patients with HCC,携带Dnase1l3缺失的小鼠的CCCA血浆DNA末端基序的减少
不同分组中end motifs差异热图,可以对样本进行聚类图3A:Heatmap analysis of motif frequencies between non-HCC and HCC samples
多个end motifs 频率组间差异箱线图S1:Box-plot analysis of plasma DNA end motifs between HCC and non-HCC groups showed that there were a number of motifs exhibiting the significant differences between these groups
根据end motifs计算Shannon熵
我们采用归一化的Shannon熵,通过比较256个 motifs的频率来获得 motifs多样性评分(MDS)。MDS值越高,说明血浆中具有不同末端基序的血浆DNA分子种类越高。相反,MDS值越低,表明血浆DNA末端基序种类较少。
Shannon熵计算公式如下:
作者观察到:血浆DNA末端多样性的增加可以在各种癌症类型中普遍观察到,说明MDS在不同癌症类型中的变化具有普遍性。作者随后采用ROC曲线分析来研究使用血浆DNA末端基序对癌症检测的潜在诊断能力,如下,在HCC和非HCC识别中AUC=0.86。
血浆DNA end motifs的Classification性能
为了进一步探索是否可以利用血浆DNA end motifs 建立一个分类器来检测癌症患者,我们基于256个血浆DNA end motifs谱使用支持向量机(SVM)和逻辑回归(考虑每个端基序的大小和方向)建立了一个分类器来区分癌症患者(n = 55)和非癌症患者(n = 74),为了尽量减少过拟合的问题,我们采用了留一法,通过ROC曲线分析来评估其性能。
文献信息:
doi: 10.1158/2159-8290.CD-19-0622 Cancer Discov 2020;10:664–73
Plasma DNA End-Motif Profiling as a Fragmentomic Marker in Cancer, Pregnancy, and Transplantation