续言
在这个转化医学专题的第四篇文章——《肿瘤突变负荷(TMB)与panel设计--part1》中,一方面只做了4个模拟panel,panel大小和用于模拟的基因来源都比较有限;另一方面只展示了增加gene的结果,缺少downsample层面的内容;最后也缺少一个明确的结论。再加上最近国内有研究报道肺癌上150 gene的panel,其tTMB与WES数据以及bTMB与tTMB之间均能达到很好的相关性,甚至还可以有效评估免疫治疗的疗效!这与国内外相似的TMB模拟研究结论相差甚远。接下来就对以上遗留问题进行补充回答。
一. 扩大gene范围并增加基因数目梯度进行模拟
1.1. 用于模拟的基因集合选取
a. 业内同行相关产品:FMI+MSK产品中的基因和基因表达免疫panel;
b. CIVIC数据库;
c. 2018年以来的4个肿瘤基因组学研究数据:遗传性肿瘤(cell1,cell2),drivergene(cell文章报道的299个驱动基因),HRD(DNA损伤修复中的同源重组缺失信号通路基因)和cas9抗癌药物靶基因筛选;
d. 以a,b,c做核心gene集合,随机引入基因组中其它基因迭代;
1.2 以上五个基因集合共有基因比较
在遗传性肿瘤和免疫panel以外的五个基因集合范围内:三个集合共有基因:167个,四个集合共有基因:51个,五个集合共有的基因只有3个:ATR,BRCA2和ERCC2(# 以基因名称而非位置进行比较,忽略误差) 具体见图1
二. 10个模拟panel在32个癌种上与WES数据TMB的相关性比较
2.1 将模拟基因集合从原来的500个~800个的3个梯度,扩展至500个~3000个gene的10个梯度
TMB计算方式沿用上一篇文章,10个梯度的模拟panel在32个癌种上与WES数据TMB的spearman相关数据见图2,波动情况见图3。
2.2 本次模拟结果显示:
a.对于皮肤黑色素瘤、肺腺癌和子宫内膜癌,500个gene规模的panel(522 gene,FMI+MSK),其TMB已经能够很好的代表WES数据结果,spearman相关>=0.9;
b. 体外肿瘤细胞系上cas9筛选得到的628个候选抗癌药物靶基因单独作为一个panel,其TMB与WES数据的相关性在大部分癌种上都较差,结合venn图中的基因交集比较,进一步显示体外细胞系与病人癌细胞的真实状况差别较大;
c. panel越大其TMB与WES数据相关性越高,但对于葡萄膜黑色素瘤等十多个TMB与WES相关性较差的癌种,其TMB方面的研究应该不是panel能够应对的;
三. 模拟panel的downsample分析
如果能从现有panel包含的gene范围内,通过大规模的迭代优化,找到比原来整个基因集合更有代表性的部分子基因集来计算该癌种的TMB,相较于重新开发一个更大的panel,似乎是一个弯道超车的好办法?
从以上10个模拟panel中选取FMI+MSK,Mimic579和Mimic1328三个,以50个gene为数量级(感兴趣也可以尝试以exon为单位写程序迭代),从100个gene开始:设定 100 gene、150 gene、200 gene至模拟panel规模的不同梯度,每个梯度上迭代计算1021次,每次迭代均输出基因集合,样本TMB值以及相关分析结果。经过4万多次计算,最后以各子基因集与WES数据的spearman相关结果为准,分别选取top1和top20的结果,从以下三个方面进行downsample层面的TMB比较:
3.1. 最优子基因集与原始基因集合的TMB与WES数据相关性;
3.2. top20的子基因集中基因数目与其TMB相关性数值分布的比较;
3.3. 最优子基因集与WES以和原始基因集合TMB波动性的比较。
3.1 最优子基因集与原始基因集合的TMB与WES数据相关性比较
本次选取的FMI+MSK,Mimic 579和Mimic1328三个模拟panel,经过大规模downsample迭代得到的最优基因子集,其TMB与WES数据相关性相较于原始基因集合,在32个癌种上均可获得不同程度的提升。
与 FMI+MSK和Mimic 579 这两个500个gene规模的panel相比,1000个基因规模的Mimic1328 最优基因子集的TMB与WES数据的相关性在32个癌种上均趋于稳定;
FMI+MSK和Mimic 579最优gene子集的TMB与WES数据的相关性在部分癌种上可以超过Mimic1328的原始gene集合, 但32个癌种上都无法超越 Mimic1328的最优子集;
在间皮瘤等panel与WES 数据 TMB相关性较低的癌种上,top20子gene子集与WES数据TMB相关性数值分布波动较大;
3.2 top20子基因集中基因数目与其TMB相关性分布比较
从32个癌种中选取常见的18个癌种,对FMI+MSK,Mimic579 以及 Mimic1328三个模拟panel top20 gene子集中的基因数目与其TMB相关性数值的分布情况进行比较。
对常见的肺鳞癌和肺腺癌,top20最优子集中基因数目仍在500个左右,而对于乳腺癌以及皮肤黑色素瘤,约300个的基因就达到与原500多个基因相似的TMB相关性( 对于乳腺癌,300-500个基因的panel,其TMB的 spearman 相关系数均不高,0.62~0.65,鉴于乳腺癌方面用于预后评估的基因表达panel——Oncotype DX ,Mammaprint等推进很快,或许对乳腺癌来讲,二维层面的基因表达调控相较于一维层面的DNA序列突变更值得关注)
3.3 最优子基因集与WES以及原始基因集合TMB的波动性比较
FMI+MSK,Mimic579 以及 Mimic1328三个模拟panel downsample得到的最优子gene集虽然相关性都优于原始基因集合,但理论上基因集合的减小会引起实际个体层面波动性的增加,因此需要对TMB数值层面的稳定性进行进一步的比较:
选取 FMI+MSK downsample结果中的top1的肺腺癌和皮肤黑色素瘤,Mimic579 downsample 结果中top1的肺鳞癌和乳腺癌的模拟结果,仍以1为单位,在TMB 从5.5到16.5的11个固定区间外,引入TMB<5.5和TMB>16.5,共13个TMB细分区间,选取以上4个癌种分别落入13个区间中的病例数目在15个以上的部分区间,通过对WES,原始基因集合和downsample的 top1子集三组TMB数值的均值比比较来衡量最优子集得到的TMB的稳定性情况。
对以上4个癌种17个TMB区间分析显示,与原始基因集合相比,虽然downsample 后的top1 gene子集的TMB与原始基因集合的TMB整体无差异,( p value在17个区间中的16个都大于0.05),但是与WES基线相比,p value均有减小的趋势,也就是与WES基线的差异增大了。可以推断downsample后的其它top1基因集合在其它癌种上的稳定性也是下降的。那么500个gene层面的panel,其downsample后的结果又一夜回到解放前了— — 相关系数会变得好看,但实际上不稳定性却增加了;而更大的1000个gene层面的panel,从downsample后top1的子基因集合在32个癌种上的TMB趋于稳定,以及top20基因集合中的基因数目还都维持在1000个左右来推断,其子基因集合在对应癌种类上的稳定性应该受影响不大,具体但还需要补充分析。
4. 总结
抛开体外细胞系上cas9筛选抗癌药物靶基因的特例, 单从TMB研究的角度看:对于肺腺癌、皮肤黑色素瘤和子宫内膜癌,500个基因左右的panel性价比已经较高;对于直肠腺癌、卵巢癌这些癌种,1000个基因左右的panel应该才会有较好的预测一致性;而对于前列腺癌等癌种研究,或许其发病机制本就不在DNA一维序列(仅外显子区域中的SNV/INDEL)层面。另外,对于大Panel TMB的可靠性,不能单看基因数目的多少——除非该大panel是全外显子设计而非热点突变密度设计。
写于2019年5月19日