背景
随着2017年底MSK和FMI的两个大panel分别获得FDA批准;2018年国外——百时美施贵宝的欧狄沃(CFDA:非小细胞肺癌)、的科瑞达(CFDA:黑色素瘤和ALK阴性的非鳞状非小细胞肺癌)国内——君实的特瑞普利单抗(CFDA:黑色素瘤)、信达的信迪利单抗(CFDA: 霍奇金淋巴瘤)以及恒瑞5月份刚获批的卡瑞丽珠单抗(CFDA:霍奇金淋巴瘤)先后上市(图1A,图1B)。 同时鉴于PD-1/PD-L1抗体只对每一种癌症的一部分病人有效果(例如在肺癌中仅对大约30%的肺癌患者起效)。肿瘤突变负荷(TMB)作为PD-L1表达、MSI/dMMR 等之外的PD-1/PD-L1药物疗效的标志物之一必然会受到进一步的重视。
目前不少基因检测公司直接将MSK和FMI两家产品的基因取并集后再做简单的增添,推出500多个基因的大panel产品用来检测TMB。但同时市面上一些先行者则在已有的400-500个gene的panel产品上直接升级到800-1100个基因的panel。最后市面上各家公司的大panel都宣称适用于泛实体瘤的TMB评估,这个“泛实体瘤”的癌种范围到底有多“泛”也值得推敲。接下来在该转化医学专题中分两篇文章尝试对TMB与panel设计进行分析,本篇着重回答以下3个TMB相关问题,下一篇着重分析panel设计:
Question1: 不同数量级别的panel在不同癌种上的TMB与WES金标准的相关性差异以及指定TMB区间内不同panel的TMB波动情况又是怎么样?
Question2: 大panel是否在各个癌种上与WES数据TMB相关性都比小的panel高?
Question3: 市面上从WES 的2,1000多个gene中抽取 1/40~1/20做出来的500-1000 gene 的各种panel,其TMB在“泛”癌种上都能代替WES测序?
a. 数据来源:2018年TCGA数据挖掘文献和2015年肿瘤纯度分析综述文献;
b. TMB计算方法: CCDS区域的突变频率在5%以上的插入/缺失、错义和无义突变(本次不采用FMI的去除热点突变同时引入同义突变的TMB计算方法);
c. 模拟panel基因数目梯度设计:S1: ~580 genes(MSK+FMI+其它),S2: ~670 genes (580+90);S3: 707genes (580+127); S4:~800 genes (580+90+127);S5: WES: 21,000 genes;
d. 外显子区域: WES:下载current.CCDS.txt,提取exon区间后liftover转换为hg19版本, panel:以gene为的单位提取(严格来讲应根据染色体位置来匹配,本次偷懒,暂时不考虑约3%的一基因多名称的干扰)。
一. 不同大小梯度的panel TMB与WES TMB在各癌种上的相关性分析
1.1 TMB数据分布特征分析
指定癌种病人TMB理论上整体偏低,数据不呈正态分布特征,Q-Q图和Shapiro-Wilk正态分布检验也支持以上推断,因此后续相关分析结果以spearman为准,同时列出pearson相关系数以作比较。
1.2 四个不同梯度 panel TMB与WES TMB 在32个癌种上的相关性分析
固定TMB计算方法和输入数据,实际变量为panel大小,分析不同大小panel在不同癌种上的TMB与WES的相关性。
在葡萄膜黑色素瘤(UVM)、胰腺癌(PAAD)、直肠腺癌(READ)等癌种上pearson相关系数比spearman相关系数高了不止一点点,由于pearson相关对异常值敏感,猜测本次分析的这些癌种TMB存在异常值。分析原始数据,不管是用x±3S,还是其它方法,确实存在TMB异常高的个体,参考异常值处理中的四分位距替换法,以上三个癌种处理异常值后的pearson相关系数大幅下降,而对spearman相关影响不大。推测其它癌种效果相似,总之实际问题中如果想省去数据分布特征及异常值情况评估这一步,应直接使用spearman相关。
50%的癌种(16/32)上panel TMB与WES TMB的spearman相关性低于0.65,只是在常见的肺鳞癌、肺腺癌、皮肤黑色素瘤、结肠癌等癌种上有较好的spearman相关性(注意弥漫性大B淋巴细胞瘤本次只有33个数据),市面上各种 panel的TMB可能只适用于部分实体瘤相关的免疫治疗评估;
临床入组前准确的肿瘤诊断分型很重要--例如:葡萄膜黑色素瘤与皮肤黑色素瘤、子宫内膜癌与子宫肉瘤、结肠癌与直肠腺癌等,spearman相关系数相差很大(#准确翻译TCGA上的癌种英文名称也很重要,第一版的翻译就不准,后续图中的癌种中文名以上面表格中的名称为准);
从近600个基因增加到近800个基因后,大部分癌种上panel TMB与WES TMB的spearman相关性是有一定提升的(如上图4),如肾嫌色细胞癌(KICH)上相关性提升了接近10%;但是在一些癌种如弥漫性大B淋巴瘤(DLBC)上,相关性反而降低5%左右(如下图5)。所以本次模拟增加的基因只是提高了弥漫性大B淋巴瘤和胸腺癌以外其它30个癌种 TMB与WES相关性。
798 panel 和 579 panel在32个癌种上TMB相关系数近似正态分布;bartlett.test 方差齐性检验 p-value = 0.7411,显示两组数据离散程度相当,直接采用配对样本T检验做进一步分析:WES和panel TMB spearman相关性均值之差为0.027,!=0,95%置信区间为:(0.017,0.038),p-value = 1.157e-05。将panel从600个gene级别增加到800个级别从32个癌种整体上看确实可以提高其TMB与WES的相关性。
二. 不同梯度panel 在给定10个区间上与WES TMB的比较
虽然2019年第一版的非小细胞肺癌NCCN指南中指出如何衡量TMB阈值目前还没有达成共识(图8A),但借鉴CheckMate-227研究中Opdivo(nivolumab)+ Yervoy(ipilimumab)联合疗法一线疗法,对于高TMB(TMB≥10个/Mb,无论PD-L1表达如何)的晚期非小细胞肺癌(NSCLC)达到了无进展生存期(PFS)的结果(图8B),本次的TMB区间应在10左右上下浮动。
以给定TMB区间的WES样本为准,与落入该区间的样本在各个模拟panel的TMB进行比较,分析不同大小panel在同一批病人上检出TMB的稳定性:
随着基因数目的增加,与WES 数据的TMB相比, panel TMB值分布的四分位图中的离群点、上边缘、下边缘等指标在指定10个区间中的5个区间有较为明显的好转:5.5-6.49,6.5-7.49,8.5-9.49,9.5-10.49,10.5-11.49(也可以对10个TMB区间的四分位距做个Wilcoxon test,但本次划分区间少,同时也反映不出来异常值信息,暂不做定量判断);
常规TMB计算方法得到的TMB,panel都要比WES高一截,这其实正常--panel毕竟都是从2,1000多个基因中挑选肿瘤相关基因设计的,本身就带有偏好性,如果接近程度很好就有些奇怪了--用bootstrap的方法从基因全集里面迭代出部分子集应该可以做出好看的结果。
三. 小结
a. 不同癌种,影响其TMB的基因集合差异也较大,设计大panel前可以充分利用TCGA相关的开源数据,反复调试迭代,找到既能均衡部分癌种 panel TMB与WES TMB的相关性,又可以使得该 panel TMB在各个指定区间内波动较小的基因集合,简单的将FDA已公布的MSK和FMI的基因取交集是不够的;
b. panel包含的gene越多,其TMB与WES的相关性越高、稳定性越好的结论实际上是因癌种而异的,例如本次模拟的798panel,其TMB与WES的相关性在弥漫性大B淋巴瘤上的表现反而大幅下降(**注意本次仅使用33个DLBC样本,而信迪利单抗和卡瑞丽珠单抗相关的霍奇金淋巴瘤的WES数据本次未引入);
c. 800个gene规模的panel得到的TMB确实会比500-600个基因的panel 稳定一些;
d.不同的癌种存在不同的TMB cutoff值(如下图8), 其具体数值必然受该panel设计的gene影响,大而全的panel在计算TMB时似乎可通过取子集的方式保证足够的冗余度(仅限于部分癌种) ;
e. 如果不谈销售渠道提成,直接上500X的WES可能也是个行的通的办法:一方面PD-1/PD-L1药物的适应症一直在拓展,另一方面与panel相比,毕竟WES测序成本没高多少,而且在近一半的癌种上panel TMB其实并没有较好的反映WES金标准 。
但是大panel基因数目的多少往往只是表象——考虑到测序成本,市面上400个gene以上的大panel一般都是以热点突变密度为单位设计,非全外显子设计,这种情况下,实际外显子的区域大小才是影响TMB的根本,非基因数目的多少。
写于2019年4月8日
补充于2019年5月28日