Corresponding author: Hidewaki Nakagawa
-
Whole-genome sequencing of 300 liver cancers and mutation distribution
组织学上,样本由268例肝细胞癌(HCCs)、24例肝内胆管癌(ICCs)和8例cHCC/ICCs(混合型)组成。
从病因学上看,有159例患者为丙肝肝炎背景,82例为HBV肝炎背景,4例为HBV和HCV肝炎背景,55例血清学检查(NBNC) HBV和HCV阴性。
肿瘤全基因组测序平均深度为39.2倍,正常组织全基因组测序平均深度为33.4倍。
平均在HBV阳性样本中识别出9718个点突变、271个indel、40.6个STVs和2.5个HBV整合位点,其中一个样本(RK308)由于不匹配修复缺陷而表现出超突变表型。
点突变数量与患者年龄、肿瘤直径、吸烟情况呈正相关。较大的肿瘤点突变数量较多,这可能是由于肿瘤内异质性较高所致。
DHSs的数量和复制时间与点突变的数量相关(染色质可及性的测量):DHSs越少和复制越晚的区域,点突变的数量越多。 -
Mutational signatures
[图片上传失败...(image-1d3327-1554394821332)]
应用非负矩阵因子(NMF),在HCC队列中识别了7个突变特征,大部分特征与之前研究发现的一致,除了W6外,W6是一种T>A突变,可能是一种新的突变特征。
多元线性回归分析确定了这7个特征与临床背景和遗传改变的关系。W3和W4与诊断年龄呈显著相关,与此相反,在其他肿瘤类型中被鉴定为年龄依赖性突变特征的W1与年龄无显著相关性。W4与TP53突变的存在、吸烟状况、肝癌与膀胱癌或输尿管癌的同时发生相关,而W5与饮酒相关。W3和W5与TERT启动子突变的存在显著相关,W2与ARID突变的存在相关,W4、W6、W7与二核苷酸取代有很强的相关性,W4和W6与CC>AA取代物的相关性尤其显著。
根据突变特征的贡献,分层聚类法确定了9组肿瘤,这些簇的特征是富集了特定的突变特征,这些簇与特定的临床类型相关。 -
Pathogen detection and virus integration
74个样本≥10个reads映射到HBV基因组。发现了223例HBV整合事件,事件反复发生的TERT 、KMT2B 、SOX5 基因及基因启动子区 。观察到HBV基因组中HBx基因下游整合断点的积累。每个样本中HBV整合位点的数量与STV的数量呈正相关,考虑到HBV整合优先发生在DNA双链断裂的位点,STV数量越多的样本整合HBV的机会越大。
De novo assembly of the unmapped reads from RNA-seq generated some long contigs that aligned to AAV腺相关病毒,还有一些HBV, HCV, and several bacterial genomes。带有AAV病毒整合基因组的3个病例T感染了HBV (RK112) 或 HCV (RK236 and HX032). The integration events occurred in the KMT2B gene, an intron of the CCNE1 gene, and an intergenic region on chromosome 5. The samples with AAV or HBV integration had significantly higher expression of KMT2B。 -
Recurrently mutated protein-coding genes
为了确定肝癌的驱动基因,我们检测了蛋白质改变突变的数量。25个基因,包括TP53、CTNNB1、ARID2、ARID1A、RB1、AXIN1、RPS6KA3、SETDB1、NFE2L2、BAP1和HNF4A,都有大量的蛋白改变突变。HCC中CTNNB1突变频率明显高于ICC。功能缺失突变显著富集14个基因,包括ARID2、ARID1A、AXIN1、TP53、BRD7、RPS6KA3、RB1、HNF4A,提示其具有抑癌作用。SETDB1编码一种染色质调节剂,控制黑色素瘤的发生。HNF4A编码与肝脏代谢相关的核转录因子,调控肝脏发育和分化。25个反复突变基因的基因集富集分析(GSEA)显示,染色质调控因子和细胞周期调控因子显著富集。 -
Recurrently mutated noncoding elements
非编码区域的突变数量分析发现,29个区域的突变数量明显高于预期,在这些区域中,TERT启动子的P值最低。此外,六个长基因间的非编码RNA (lincRNA)基因也有很多突变。在19个显著的启动子和UTR区域中,TFPI2启动子突变与基因表达显著降低有关,TFPI2编码一种丝氨酸蛋白酶抑制剂,有报道称该基因在几种癌症中具有抑制作用。NEAT1和MALAT1在1号染色体上相邻,分别在66例(22%)和18例(6%)肝癌样本中发生突变,ICGC研究也发现,它们在≥5%的胃癌、肺腺癌、乳腺癌和B细胞淋巴瘤病例中也发生了突变。NEAT1在构建亚核结构(准核结构)中起着至关重要的作用,在一些癌症中有不同的表达,在HepG2细胞中下调NEAT1或MALAT1可以降低细胞的侵袭性,但对细胞生长没有显著影响,ALAT1基因敲除改变了5706个基因的表达,其中与细胞骨架相关的基因明显富集。 -
Mutational clusters in noncoding regions
将整个基因组划分为500 kb的窗口来寻找突变簇,将每个窗口的突变频率与相邻的1-Mb区域进行比较。通过对每个区域的平均测序深度归一化,确定103个区域为显著的局部突变区域,我们从进一步的分析中移除了16个位于自链中的区域(短的低拷贝重复),其余87个区域包括3个已知癌症相关基因的5个外显子——TP53、CTNNB1和NFE2L2。有趣的是,在ALB基因体中检测到22个区域,在TERT、WDR74和MED16的编码区上游有三个显著突变的区域,被DENCODE预测为启动子,这些区域的启动子或增强子活性通过报告基因检测得到证实,这些区域的一些突变被证实会改变调控活性,但这些突变结果方向是不一致的。
我们选择了超过3%的突变,且ENCODE注释为DHSs和/或ChIP-seq转录因子结合位置的区域。这些标准确定了12个窗口,包括18号染色体上连续的4个区域,3个CTCF结合位点,3个ABHD5内含子中的3个区域,以及17号染色体和14个非编码区域。8号染色体56,119,001-56,121,500位连续区域的indels数高于点突变(78.7%,63/80),且包含一个在25个case中recurrent的g.56119805_56119807delAAG缺失。该区域位于MIRNA122下游∼1kb,这是一种高表达的肝脏特异性肿瘤抑制miRNA,然而,MIR122的表达与这种缺失的存在之间没有显著的关联,而且这种复发性突变的后果尚不清楚。在2号、3号、18号和20号染色体上的4个CTCF结合区发现了明显的突变簇,CTCF ChIP-qPCR分析和竞争电泳迁移率转移(EMSAs)验证了这些区域的CTCF活性。17号染色体64,206,001-64,206,500位点的区域被证实具有增强子活性,受观察到的突变影响,该区域位于APOH的下游和PRKCA的上游,两者均包含在同一三维染色质结构中,APOH与PRKCA在肝癌组织中的表达呈显著负相关,在17号染色体非编码区发生突变的样本中,APOH表达显著下调,PRKCA表达显著上调,我们的荧光素酶检测表明,该区域内的单个突变可以同时影响APOH和PRKCA的表达,这取决于突变相对于每个基因的位置。 -
Characterization of STVs and recurrently mutated genes
The distribution of STVs showed a pattern distinct from that of point mutations。串联重复多发生在早期复制区,缺失多发生在晚期复制区。这一结果与之前关于癌症拷贝数改变(CNA)的研究结果一致。早期复制区染色体易位比例较高。
我们在32个样本中识别出43个kataegis候选,其中27个位于STV断点10kb内,•G>T•A和C•G>G•C取代显著富集,这可能是APOBEC活性诱导的,对STV断点序列的分析表明,长度为2-4 bp的微同源性富集,表明这些STV是由微同源介导的端连接引起的。
为了研究STVs是如何影响编码基因的,比较了不同样本中在500kb bin内发生STVs的情况。LRP1B、TERT、CDKN2A、CCND1、MACROD2和TTC28基因座的基因箱内含有≥15个样本(5%)的STV断点。在这些基因中,CDKN2A是已知的抑癌基因,CCND1是已知的致癌基因。LRP1B是一种可能的肿瘤抑制因子,受反复缺失和点突变的影响。TTC28染色体易位常见于结直肠癌和小细胞肺癌中,在TTC28内含子1的L1HS逆转录转座子下游区域观察到一个断点簇。MACROD2位于脆性位点,通过其在多聚(ADP)核糖体中的活性与DNA修复系统相关。此外,在≥9个样本中,RB1和染色质调节因子(ASH1L和NCOR1)重叠的箱体存在STVs(3%)。
然后,我们将关于点突变、indels、STVs和CNAs的信息结合起来,测试每个基因的突变数量的重要性。38个基因突变数量明显较多。肝癌已知的驱动基因(TERT、RPS6KA3、RB1、ARID1A、ARID2、PTEN)除了点突变和indels外,还存在复发性STV断点,说明考虑STVs可以提高检测驱动基因的统计能力。TTC28, MTAP, CPS1, NSMCE2, TBL1XR1, ASH1L, ERGIC1, and NOCR1在两个细胞系的敲降实验中有7个影响细胞生长。 -
Influence of STVs on gene expression
除了基因结构的改变,STVs还可以通过改变与增强子的基因距离、改变拷贝数和结构破坏来改变基因表达。我们在≥6个样本(2%)中选择了4,940个转录起始位点或转录结束位点在500 kb范围内的基因,并比较了带有和不带有STVs的样本中RNA-seq读图到基因的数量。其中538个基因经多重矫正调整后基因表达差异显著。结果表明,STVs除了改变基因结构外,还影响基因表达,促进肿瘤发生。 -
Clinical implications and association with prognosis
最后,我们研究了编码或非编码区发生显著突变的所有类型的突变与临床背景因素之间的关系。TERT启动子突变与吸烟相关,CTTNB1突变与HCV相关,BRD7突变与HBV相关,LRP1B突变与HCV和酒精摄入相关。使用多变量生存分析总体生存,我们发现在校正几个协变量后,TP53突变和HRASLS的5 ' UTR 突变存在关联。在胃癌中,启动子甲基化沉默了HRASLS,提示HRASLS可能是一种肿瘤抑制因子。
当我们使用NMF共聚类与蛋白-蛋白相互作用数据库进行聚类时,我们发现,与没有任何相互作用知识的标准聚类方法相比,聚类更紧密。在已鉴定的聚类中,有6个可以被驱动基因突变所表征,如TP53、CTNNB1、CDKN2A、MACROD2和ARID2或PBRM1,我们观察到,经年龄、性别、肿瘤分期、术前或辅助治疗调整后,这些聚类与无病生存之间存在显著相关性。
结论
与以往肝癌突变特征的研究相比,我们没有观察到日本肝癌病例中马兜铃酸突变特征,而中国肝癌病例中经常发生马兜铃酸突变特征。同样,我们的signature W2、W3、W6和W7在之前的法国HCC样本研究中也没有发现。相比之下,在法国HCC中发现的一些signature在日本HCC样本中没有发现。
我们还发现了突变和复制时间之间的重要联系。点突变在晚期复制区域更为频繁,这可能是因为早期复制区域往往具有开放的染色质结构,更容易被dna修复因子所利用。然而,STVs表现出不同于点突变的模式:缺失在晚期复制区更为频繁,扩增和染色体易位在早期复制区更为频繁。之前的一项研究表明,dNTPs在复制后期的缺失导致了缺失事件的发生,这可以解释在复制后期区域中观察到的频繁缺失。串联重复的模式很难解释,但是压力或DNA在复制叉起始阶段的高阶结构可能导致在早期复制区域中串联重复的发生率更高。我们还观察到在早期复制区域染色体易位的数量更多,这可能是因为染色体易位伴随着串联重复。
除了已知的司机基因受到STV影响,包括我们的研究在内,越来越多的证据表明,由NEAT1和MALAT1编码的lincrna是由细胞应激(如缺氧)诱导的,并在多种癌症中促进细胞增殖或侵袭。虽然这些基因突变的功能影响尚不清楚,但突变可能影响蛋白质的结合亲和力,包括NEAT1的SWI/SNF色素重构复合物,或这些lincRNAs55的高阶结构。
值得注意的是,我们发现基因表达和STVs之间有很强的关联。邻近癌基因(CCND1、CBL、MET)表达水平升高,而抑癌基因(CDKN2A、APC、AMER1 (FAM123B))表达水平受到抑制,提示STVs通过改变癌基因和抑癌基因的表达促进肝癌发生。除了CNAs,逆转录和染色体易位也会影响基因表达。