病人样本数:360
测序深度: 80 (测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。)
整体体细胞突变数从0.05到16.1(per megabase),中位数1.24。
promoter区间定义为:TSS上游400bp到下游250bp。
Discovery of recurrently mutated promoters
探索不正常的突变需要细致地考虑背景突变率,它很容易被多种基因组因素所影响。
编码区:
- 病人特异的覆盖率信息
- 病人特异的整体突变率
- 基因组上突变率的协变量
- 突变簇
启动子区采用类似的策略,但不像编码区是基于沉默编码和附近非编码区突变进行估计,因为不知道哪些是非功能性的,所以非编码区基因基因组所有突变进行估计。
考量启动子的几个标准:
- 整体突变超过预期
- 不寻常的突变簇;同时考虑特定的转录因子结合位点
研究考虑到乳腺肿瘤中一些由apolipoprotein B messenger RNA-editing enzyme catalytic (APOBEC) cytidine deaminases (载脂蛋白B信使RNA编辑酶催化的胞甘脱氨酶)调控的突变进程的高度活动。
这些突变享有共同的特征序列语境(TCW,W指代A/T)。因为不大可能对此建立完美的模型,作者通过他们开发的SignatureAnalyzer工具(1)识别整体突变谱表面为高APOBEC活动的病人;(2)基于病人中APOBEC整体的活动度,给由APOBEC引起的突变赋予一个概率。APOBEC概率大于80%的突变都被移除。
研究分析找到了9个热点突变的promoter元件:FOXA1 (an established breast cancer oncogene), TBC1D12, RMRP/CCDC1107(bidirectional promoter), NEAT1, LEPROTL1, ALDOA, ZNF143, CITED2, 以及 CTNNB1 (错误发现率FDR<0.1)。
(Figure1 | Identification of significantly mutated promoters)
图a可以看到有10个筛选出来的重要突变,其中有两个是双向promoter(?)。所以可以一一对应到b图中9个子图。
b图非常复杂,我们观察单个子图理解含义。
横轴表示碱基的位置,下方绘制了它对应或临近的基因组元件。
左侧纵轴表示突变数,对应图中的棒棒糖高度;右侧纵轴为覆盖率,表征白色背景下的灰色峰变化;最右侧标尺为探测的灵敏度,对应了图中蓝色变化曲线。
b图9个子图中有6个为hotspot突变,3个为突变簇(三个左侧纵轴为0-3|4的)。
图中的核心是堆砌的棒棒糖图,红色代表文章研究找到的突变数,绿色代表TCGA全基因组突变数,紫色代表BRCA560这个项目的突变数。
这些图表达的分析思路是:通过预期和实际观察突变率的不同找到了一些有用的promoter突变位点,进一步通过其他两个数据集进行对比验证。
既然已经找到了,接下来便是通过实验检验一下一两个重要的突变位点。
Mutations affect expression and affinity
两类实验:
下面看下实验结果和分析:
(Figure 2 | Functional characterization of promoter mutations)
a,b图可以看到突变后酶活性增强,蛋白结合能力增强,表明序列突变增强了对转录因子的招募;这和我们已知的FOXA1基因是原癌基因(原癌基因突变后获得功能,gain-of-function),RMRP在上皮细胞中显著扩增是统一的。报道称RMRP参与了转录调控,这里对于乳腺癌的影响未知。
c图与a,b图相反,可以看到4个突变中的3个突变都导致了酶活性的下降和蛋白结合能力下降。另一个活性轻微增强。与功能丧失的表型一致,发现8%乳腺癌中该基因有针对性地被删除,外显子区域也出现了重复突变。
其他突变的promoter序列荧光素酶活性都有显著性下降,但是蛋白结合结果差异不明显。它们都被放在附加数据中进行讨论。
FOXA1 promoter mutations act through E2F
因为大家对FOXA1在乳腺癌中的作用所知甚深,所以这里作者选择它对promoter突变所造成的功能影响进行更精确的分析。
(Figure 3 | FOXA1 mutations act through E2F and increase tolerance to anti-oestrogen receptor treatment)
Motif分析发现它的突变可能为E2F家族创造了一个更强的结合位点(Figure 3a)。
为了验证,作者做了4个实验:
- 重复EMSA实验,选择对E2F有强亲和力的DNA片段作为竞争物,以不结合的探针作为对照。可以发现,在WT E2F竞争物存在的情况下,E2F不跟野生或突变的promoter结合,实验表明E2F参与了FOXA1 promoter的结合。有意思的是,作者没有提到加上突变竞争物和核提取物时,突变的promoter有比较好的结合力,但是加野生竞争物和核提取物时反而没有了,这一点怎么解释呢?
- 用子宫外共表达的E2F3和它的协因子(co-factor)DP1重复了荧光素酶报告基因实验。Figure 3c 可以看到加入E2F/DP1共表达后,酶活性都有显著性上升,特别是突变promoter组。
- pull-down实验(Figure 3d, 3e),用生物素标记的FOXA1的WT和突变体pull down细胞核提取物。发现突变的FOXA1探针与E2F1或E2F3/DP1蛋白结合能力比野生型强。
- ChIP-seq检测MCF-7乳腺癌细胞,发现了6bp的高亲和motif(Figure 3f),t检验显示突变与野生型有显著性差异。
这些实验的结果都表明了E2F的结合至少部分调控了由FOXA1 promoter突变导致的表达改变。
FOXA1是一个转录先驱因子,它打开染色质以便于ER(雌激素受体)接近它的基因组靶点。在恶性肿瘤和乳腺癌转移中有观察到FOXA1的高表达,它重编程了ER结合谱(binding landscape)。
作者假设FOXA1蛋白的富集会增强ER的活性。为了检测这一假设的正确性,作者用MCF-7细胞系过表达FOXA1,并用ER的拮抗剂fulvestrant(一种复合物,用来治疗激素受体阳性乳腺癌)进行treat。发现过表达的细胞比对照组长得快(Figure 3g),说明乳腺癌中上调的FOXA1水平提升了细胞对抗ER治疗的容忍度。
(Figure 3 | FOXA1 mutations act through E2F and increase tolerance to anti-oestrogen receptor treatment)
最后作者调查了FOXA1的突变环境(Figure 3h)。整体上有35个病人(9.7%)携带FOXA1突变,9个携带promoter热点突变,13个携带基因突变,14个携带局部扩增。这个图还包含其他信息(主导突变特征,家族病史等等)。
子图i是FOXA1的promoter热点突变的作用机制模型。
Power to discover promoter mutations
找到候选的驱动元件(driver mutation)既需要足够的深度测序覆盖率以检测可靠的突变,又需要足够大的样本群(cohorts)以达到统计显著性(不然样本不能或不足以反映总体情况)。
那么问题来了,promoter区域富含GC,导致很低的测序覆盖率。即使这篇文章研究的探测灵敏度已经非常高了,但是总体上promoter的覆盖率只有44%,那么很可能检测到的突变只是总体突变的一半左右。
之前也有不少关于乳腺癌的全基因组测序,但是都没有发现文章中提到的重要promoter突变。作者分析有两个原因:
- 富含GC的promoter灵敏度太低。像TCGA的包括100个左右样本,50X的标准肿瘤测序深度,总体平均灵敏度为93%,但是FOXA1那里只有1%。
- 样本容量不够,导致功效很低(TCGA 5%的样本中54%,该文章研究10%/20%的样本中69% Figure 4a)
(Figure 4 | Power analysis of ExomePlus patient cohort)
有意思的是,虽然病人携带这些重要promoter突变的比例很难与coding基因的相提并论,但是就单个突变频率来讲,promoter突变足以排进前列(Figure 4b)。原理上讲,低突变率反映了该突变了的作用目标少,没有选择性优势。为了评估作用目标大小的有效性,作者比较了已知为cancer driver的编码区和文章中promoter的可能导致功能改变的事件突变率($\mu_f$)。除了TP53和PIK3CA,promoter的突变率超过一些已知的coding driver或者与它们相似,表明promoter观察到的低突变率至少部分是由于它们有更小的功能基因组印记。
总结
我对文章的评价——
- 文章核心是找到了有重要生物意义的FOXA1 promoter突变,并进行了系统详细的功能验证。
- 文章亮点在于功效分析和对比分析:解释了为什么重要promoter突变难找;进一步确定了功能调控元件突变的重要性,具有一定的前瞻性。