一、导读
今天开始小编将更新seer数据库挖掘相关文献解读,具体方式便是按照各个癌种连续更新,感兴趣的小伙伴可以关注更新,一起学习。今天分享的文章题目为《Risk stratifification in patients with anaplastic thyroid carcinoma: role of age》。
最近看了不少seer数据库相关的文献,总结为4个字的套路:
提,根据指南或者临床实践提出需要解决的临床问题;
收,在seer数据库中收集数据;
建,预测模型建立,这是最常见的一种发文方式,当然部分文章也只是根据具体问题进行了一些统计分析,并未构建预测模型;
验,验证模型,有自己数据的可以用自己的数据作为外部验证,这是最好的方式,但是真实世界的数据可是相当稀少而珍贵的,很少有文章将自己的数据作为验证集的,至少在我常看的3-5分段的文献中很少。
在这几步当中,个人认为较难的便是”提“,因为这需要我们具备一定的专业背景,熟悉指南,了解厄待解决的临床问题,当一个好的问题提出来之后,后面便是数据分析来解决问题。只要有数据,就会有结果(阳性或阴性,ps:阴性结果也是可以发表的,这就考验写作能力咯)。所以我在文献解读中的重点也将是“提”,碰到新颖的数据分析方法的话也会重点介绍。好了,咱们现在开始一起学习吧。
二、提:提出问题
1.年龄很重要!!!
甲状腺癌是唯一一种认为年龄是甲状腺癌特异性生存率(CSS)的重要预测因子的癌症。第8届美国癌症联合委员会(AJCC)分期系统将分化型甲状腺癌(DTC)的年龄界限从45岁提高到55岁,以更准确地预测预后。
2.ATC是甲状腺癌中恶魔
我们都知道分化型甲状腺癌的预后较好,但是未分化甲状腺癌(ATC)是人类最恶性的癌症之一。发病率低,仅占所有甲状腺癌的2%左右,但预后较差,中位生存期为3-5个月,1年生存率为20%。
甲状腺未分化癌是甲状腺癌中恶性程度最高的一种,发病率约占全部甲状腺癌的10-15%,多见于年老体弱者,发病迅速, 早期可发生全身转移,一般认为多发生自良性肿瘤或低恶性肿瘤。甲状腺未分化癌(undifferentiated carcinoma)又称间变性癌(anaplastic carcinoma)或肉瘤样癌(sarcomatoidcarcinoma),较少见,多发生在40岁以上,女性较多见,生长快,早期即可发生浸润和转移,恶性程度高,预后差。
3.问题来了
既往研究表明,60-80岁的ATC患者的生存曲线急剧下降,但结果主要基于预先确定的年龄组(如60岁、65岁或70岁),意思就是没有将年龄作为一个连续变量,去探究其cut value,并且最新指南对分化型的年龄做了改动,但是未分化型的相关内容还很模糊,那么年龄在未分化型甲状腺癌的预后中究竟扮演什么样的角色。
三、收:收集数据
作者构建了两个队列,第一个队列纳入排除标准相对宽松,旨在描述ATC的发病年龄分布,随后在队列1的基础上进一步排除病例,用X-tiel软件确定了两个年龄的cut value,随后在各个年龄中进一步探讨了影响患者生存的因素,构建了多因素cox模型。
队列1:用于描述ATC的年龄分布
仅限于2004年至2015年诊断的ATC患者(AJCC分期系统直到2004年才在SEER中使用);
排除无组织学阳性诊断确认、无积极随访、无生存月、仅报告尸检来源/死亡证明的患者。
队列2:确定每个年龄组中与CSS相关的最佳年龄截止值和CSS的预测因子;
排除了队列1中数据缺失的患者,包括未知的种族、肿瘤大小、肿瘤扩展信息、治疗和TNM分期;
排除不是首次恶性原发性肿瘤患者;
排除不是因ATC或其转移以外的原因死亡的患者。
四、建:建立模型
第一部分:总体描述
首先描述了患者总体生存,临床资料,临床资料表太长就不放了,下图就是患者的总体生存。
第二部分:确定年龄的cut value
第三部分:分层研究
作者随后比较了三个年龄组的基线临床资料,发现大部分临床资料都存在差异,意思就是不能放到一起探究了,那么作者就在三个年龄组分别研究了哪些因素可以影响患者的生存,大于85岁组由于患者人数较少,不能再才分为训练集和测试集,就直接作为一个整体去分析,而小于64岁和64-85岁这两组又分别按照7:3随机抽样分为了训练集和测试集,并比较了训练集和测试集的临床特征无差异,可以用于验证。训练集和测试集的临床特征比较就不放,影响篇幅,意思就是没差异,可以比较。
ps:再R语言中可以非常方便地绘制三线表和这种分组分层带有统计检验的临床资料表,网上也有一些教程,需要的小伙伴也可以留言,我可以去总结一下在R中快速绘制临床资料表的方法。
第四部分:建立模型及验证
在两个年龄组中分别构建了多因素cox模型,并绘制了诺莫图。组1的CSS训练集和测试集的C-index值分别为0.735[95%CI,0.696–0.774]和0.733[95%CI,0.663–0.804],而组2的值分别为0.767[95%CI,0.730–0.804]和0.783[95%CI,0.718–0.848]。此外,校准曲线(补充图)对6个月、1年和2年CSS的训练和测试组显示,所有曲线几乎接近45°对角线,表明列线图有适当的校准。因此,所提出的列线图在两个年龄组中表现良好。
虽然列线图中包含的四个预测因素在两个年龄组中是相同的,但各个因素的权重不同,这表明ATC患者应评估不同年龄组的死亡风险。(这里写得就很厉害:意思就是两个年龄组虽然经过多因素cox分析,最终纳入了相同的四个临床特征来预测患者的生存,但是呢,这两个模型中每个因素的权重是不同的,我们是需要在不同的年龄组中分别去预测患者的生存,这就是点睛之笔,直接阐明了本研究的贡献)
前面一直没有提到大于85岁组的结果,因为在85岁组没有发现有价值的预后因素,我们来看看作者是怎么讨论的呢,主要是学习一下怎么分析阴性结果的原因。(我直接翻译成中文,方便阅读)
无论如何,根据我们的研究、ATA指南和以往的研究,联合治疗(如果有需要和适用)可能是ATC患者的最佳选择,特别是对于85岁以下的患者。然而,对于年龄大于85岁的患者,本研究中没有发现与CSS相关的预测因子,并且基于SEER数据库的数据分析,该年龄组的患者没有从任何针对ATC的治疗中获益。一些原因可以解释这一结果:由于他们的健康状况、社会经济因素等,包括手术、化疗和放疗在内的干预措施可能不适用于85岁以上的患者。因此,该年龄组患者的最佳治疗策略有待进一步研究。
五、结语
这篇文章到这里就结束了,下面谈谈感想吧。最近我都在学习seer数据库的文献,因为我想自己做一篇seer数据库挖掘+真实世界数据验证的文章,但是苦于还没有idea,然后看到好多人在说seer数据库挖掘的文章很难发了之类的,但是我看到今年seer相关的文章也不少,有的是依靠新的数据分析方法,比如机器学习,但是我认为一个好的临床问题才是关键,正如这篇文章最后的结论,提示我们在不同年龄阶段预测因子的权重是不同的,不能粗暴地使用一个预后模型去判断患者的预后,这就很符合现在精准医疗的概念啊。