The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes
多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性
作者从TCGA中采集了2808个病人,7种癌症的假基因表达谱(自己研发的pipeline),通过监督学习证明了假基因区分亚型的能力,并用分子实验验证。在肾癌中,假基因与病人的生存密切相关.
1. 知识积累:
(1)假基因 蛋白质编码基因发生了有害的突变,不能编码蛋白质了,就变成了假基因。
a 假基因具有转录活性,并不是没有用的,可以做转录因子
(2) 匹配得分 (alignability score )???
(3) BAM file BAM文件是SAM文件的二进制版本,用来储存相似序列达到128Mb的文件。
(4)卡方检验 两个变量间有没有关系 如男性和女性在购买线上生鲜食品时有没有区别
(5)multivariate Cox proportional hazards model 多变量cox比例风险模型 评估几个因素对生存的影响,预测变量称为斜变量。
2. 流程:
(1)创建新的假基因筛选流程
将耶鲁的假基因数据注释和gencode的假基因注释结合
筛选出与任何已知蛋白质编码基因相交的假基因外显子
查找这些外显子是不是重复的
将外显子的可对齐性得分(alignability score)< 0.95的留下来
筛选出reads数匹配到TCGA基因组数据库BAM文件的假基因
(2) 监督学习:假基因亚型间的表达
将数据集分成训练集和验证集
在训练集中运用五折交叉验证,通过三种机器学习方法RF,SVM和LR进行预测
在训练集中画出三种机器学习的AUC曲线
将效果最好的机器学习方法,通过整个训练集对验证集进行重新验证
(3)假基因区分肿瘤亚型的效果评估
为了研究假基因的预后效果,将肾癌的病人分成两个亚型。
a 卡方检验:假基因亚型和TCGA的分子亚型
b 乳腺癌中,效果的评估
(4)肾癌中假基因的预测效果
用NMF无监督学习区分肾癌的亚型
生存分析
multivariate Cox proportional hazards model
3. 结果与结论
(1)假基因在各个亚型中的分布情况
a : 总共是所有的假基因,黑色是在不同亚型间差异表达的假基因
b: 选取乳腺癌中ATP8A2P1的表达箱线图
(2)机器学习
SVM效果最好