临床生信文章普遍存在的两个统计问题

临床预后模型,大多包含风险分层和独立预后分析两个验证分析,而很多文章在两个分析上存在不严谨。下面介绍一些分析的关键点。

1. 风险分层与cutoff

一般而言,预后模型会有训练集和验证集,有一些还分为了训练集、验证集和测试集。首先,在有多个数据集的情况下,对于表达谱数据,需要进行批次校正;其次,如果仅有训练集和验证集(两个独立队列),cutoff不必保证相同,而如果有训练集、验证集和测试集(其中训练集和验证集是一个队列的拆分),训练集和验证集的cutoff需要保持一致,测试集的cutoff不强求。

2. 独立预后分析

(1) PH假定

很多文章都会在构建了prognostic scoring system的基础上,将临床病理性状纳入做单因素和多因素回归,也就是独立预后分析,有的还会基于多因素Cox模型构建nomogram,但事实是大多数文章的结果不可靠。我们知道Cox回归需要满足PH假定,而对PH假定的检验主要有LML曲线法、KM曲线法和Schoenfeld's 检验法。
对于分类数据,如性别、病理分级、组织学分期、有无突变等等,用LML曲线法和KM曲线法检验,若曲线互不相交、互相分离,则一般认为满足PH假定,可以纳入Cox模型;对于连续型变量,如年龄、构建的评分系统、肿瘤大小等等,最好使用三种方法都进行检验,其中Schoenfeld's 检验的p值需要>0.05,若p<0.05,则纳入该因素的结果是不可靠的。

如果想探索的因素不满足PH假定怎么办?

网上有一些解决办法,如分层回归和时依回归,但这两种方法操作起来相对困难且结果不易解释。有一种比较简单的方法大家可以试一试,但仅针对于连续变量。可以将连续变量变为分类数据,如年龄分为>60和<=60岁,risk score分为高低风险组,此时再用LML和KM检验法进行验证。如果对于分类变量还不满足PH假定,那只能考虑剔除这个因素或者进行分层/时依回归了。

(2) 等级变量

对于分期、分级这样的等级变量,很多文章直接将数据变为0、1、2、3等,这是严谨的。应该将该变量设置成哑变量,设置其中一个哑变量为参考组 (reference),在数据科学中,称作热编码 (one-hot encoding)。

虽然以上分析比“不严谨”的方法操作起来多了一些步骤,但一旦被审稿人抓到把柄,返修起来将更加繁琐,所以还是一次做到位吧!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 1.1假设检验,估计和预测 统计学包括了对其它领域研究的设计、假设检验、估计和预测等方面。本书着重讲述估计和预测,...
    王子威PtaYoth阅读 3,964评论 0 0
  • 一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究...
    Seurat_Satija阅读 12,731评论 0 12
  • 统计学词汇中英文对照完整版 A Absolute deviation, 绝对离差 Absolute number,...
    生信F3阅读 11,602评论 0 4
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 11,686评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 11,931评论 0 2

友情链接更多精彩内容