在肿瘤研究领域,biomarker的研究以及相应试剂盒的开始,是服务于肿瘤临床的一个方向。这类研究项目依赖于大量肿瘤临床样本和机器学习算法。由于众多高通量数据库的建立,使得大临床样本信息的获取不再那么艰难,使得很多科研工作者都可以开展此类项目。在肿瘤领域,TCGA数据库自然是用的最多的,结合机器学习,挖掘biomarker已经是稀疏平常之事,今天摘自多篇相关文章中的结果,提炼出在这类研究思路下最为常见的结果展示。
1. 样本信息的Table基线表
目的:主要用来展示样本的基本情况,比如下图,涉及样本的基础信息,如性别、年龄、肿瘤大小、分期等诸多信息。
例图1
例图2
2. 单因素Cox回归的Table基线表
目的:为了从众多自变量中筛选出显著性的影响因子,然后以表格形式呈现出来,涉及的结果参数主要是HR和P value值。
例图1
例图2
例图3
3. 多因素Cox回归的Table基线表
目的:分析从单因素cox回归中的显著性自变量是否能作为独立影响因子!同时得到各个自变量的回归系数,用于后期风险比例方程的构建。
例图1
例图2
4. Cox回归分析的森林图
目的:展示单因素/多因素Cox回归结果、更直观更美观!
例图1(单因素cox森林图)
例图2(多因素的cox回归森林图)
5. Nomogram模型的列线图
目的:用于评估每个变量引起的风险
6. Nomogram预测模型的校准曲线
目的: 校准度,即预测值和真实值之间的差异
7. 风险模型的生存点图
目的:展示风险因素与生存之间的关系
8. 生存曲线
目的:用于直观展示变量因素与生存之间的关系!评估以上变量选择/风险模型构建的实用性!
9. TimeROC
目的:评价变量选择/风险分类模型对预后风险的评估能力!
10. C-index
目的:评价变量选择/风险分类模型对预后风险的评估能力!
11. Lasso回归和交叉验证
目的:Lasso回归用于缩减变量,选择最佳变量进入下游的分析。交叉验证核实lasso结果中的取值是否最佳。
以上这些结果呈现都是这类型文章中比较常见的类型,为方便记忆,做了简单的罗列汇总,初步了解这些结果分析的先后顺序,各自分析的目的是什么,以便快速了解这类型文章的研究分析思路!
今天的内容就到这里~~,更多内容可关注公共号“YJY技能修炼”~~