前面已经介绍过基于甲基化靶向捕获技术路线的泛癌早筛产品(国内泛癌早筛产品梳理之甲基化靶向测序篇):这个路线也是现在比较公认的主流的技术路线。既然是靶向捕获,那么只会筛选一部分甲基化标志物进行高深度测序(100x+),可以说甲基化标志物的筛选是该技术路线的根本,决定着后期产品的性能。
人的整个基因组甲基化CpG位点数目高达28.2M+,也就是2820万多,全部测序深度达到100x以上的话,成本及计算量巨大,另外大部分CpG位点并没有目标的癌症信号或者组织溯源信号,会造成数据量的极大浪费。因此在如此多CpG位点中筛选少量的具有强信号的癌症标志物和组织溯源标志物至关重要,然后对这些少量的标志物再进行靶向捕获高深度测序,一方面可以节约成本,另一方面则可以放大信号强度。
那么现在影响比较大的两个公司(Grail VS 燃石)是如何筛选甲基化标志物的:
首先声明,Grail是筛选的覆盖50多个癌种的甲基化标志物,燃石筛选的是覆盖了6个癌种的甲基化标志物。
Grail:
使用的样本:3508个深度30x的WGBS的样本,其中2628个(1493 癌症 VS 1135 非癌对照)为血浆cfDNA样本,582个FFPE(组织切片)样本,70个WBC(白细胞)样本,另外还有从别处购买的227个组织和细胞系样本,1个非癌对照的细胞系样本。
最值得一提的是2628个血浆cfDNA的样本,WGBS测序对DNA投入量要求较高(一般100ng以上),而血浆中cfDNA含量较低,10ml血液一般能提取到20-50ng cfDNA,那么就需要更多的血液。Grail采用了75ng的DNA投入量,如此多样本,每个样本还需要抽取比平常更多的血液,再加上如此大的数据量(考虑到比对率,WGBS数据一般比对率80%左右,会损失20%左右的数据,另外序列重复率可能有10%-20%,去重时也会损失一些数据,每个样本至少需要100G以上的测序数据量才能达到30x左右的深度)。放眼国内,谁能搞的起。。
另外Grail也使用了TCGA中的450k甲基化芯片数据,将两者筛选得到的标志物加到一块,筛选信号最强的区域组成探针捕获的Panel。
至于如何筛选标志物,虽然Grail文章中没有描述详细的筛选标志物的步骤,但有不少现成的软件包, 也可以写脚本自己筛选。癌症标志物就是筛选每个癌症中癌症与非癌对照样本甲基化差异最大的区域,组织溯源标志物就是筛选不同的组织之间具有显著差异的标志物。WBC样本又是做啥的?癌症患者血浆中的cfDNA只有1%左右来源于癌细胞,其他都是来自正常细胞包括WBC,那么筛选标志物的时候就同时要考虑WBC背景,避免WBC的影响。
Grail筛选到了多少个标志物呢?最后筛选到了10w+(103,456)甲基化区域,覆盖了111多万(1,116,720)个CpG位点,其中高甲基化探针68,059个,CpG位点363,033个;低甲基化探针28,521个,CpG位点585,181;两者共捕获探针6,876个,218,506个CpG位点。每个探针覆盖至少一个CpG位点,低甲基化探针覆盖CpG位点数目中值为6个,高甲基化为3个。从这里可以看出筛选到的高甲基化区域虽然多,但是低甲基化的CpG位点数目更多。低甲基化位点很可能在癌症鉴别和组织溯源上的信号更强。
那么这些位点主要集中在基因组的什么区域呢?17%的位点分布在TSS(转录起始位点)上游的1-5kbp之内,24%的分布在启动子区域(TSS上游1kbp内),43%的区域分布在内含子区域;25%的分布在外显子区域,21%的分布在内含子和外显子交界区域,16%的分布在基因间区。可以看到接近一半的CpG位点在内含子区域。
燃石:
燃石只使用了TCGA中的450k数据(2018个癌症组织 VS 195 非癌症组织,另加656个WBC样本),在使用的数据上就逊色了Grail至少两个level:
450k芯片数据只有45万个CpG位点,只占全部CpG位点的不到1/60,甚至450k全部位点数都不到Grail最后筛选到位点的1/2。
未有纳入cfDNA样本,众所周知,组织里的信号不一定会入血,就是说组织里筛选出的信号很强的标志物在血液里不一定强。
燃石最后筛选到了14,415个CpG位点,然后在CpG上下游各外扩60bp设计探针,最后一共覆盖7558个区域中的161,984个CpG位点。其中有507个高甲基化区域和59个低甲基化区域在所有6个癌症中都具有显著的癌症信号,可以看出相比Grail占大多数的低甲基化CpG位点,燃石筛选到了更多的高甲基化区域。
那么燃石的这些位点在基因组分布如何呢?35%的区域分布在启动子区域,28%分布在内含子区域,13%分布在外显子区域,3%分布在内含子和外显子交界区域,19%分布在基因间区。同Grail筛选到的标志物还是有显著的不同,450k芯片限制太大。
不得不感叹Grail的“钞能力”,在筛选甲基化标志物上下了血本,啥时候国内也能有大钱搞一搞。。。
参考文献:
1.Grail: Liu M C, Oxnard G R, Klein E A, et al. Sensitive and specific multi-cancer detection and localization using methylation signatures in cell-free DNA[J]. Annals of Oncology, 2020, 31(6): 745-759.
- 燃石:Gao Q, Lin Y P, Li B S, et al. Unintrusive multi-cancer detection by circulating cell-free DNA methylation sequencing (THUNDER): development and independent validation studies[J]. Annals of Oncology, 2023, 34(5): 486-495.