SEER数据库(网址:https://seer.cancer.gov/)是美国国家癌症研究所和人口科学部门于1973年发起的监测流行病学和生存结果的项目。
该数据库记录了各种9大类癌种信息:乳腺肿瘤、结肠与直肠肿瘤、其他消化系统肿瘤、女性生殖系统肿瘤、淋巴系统肿瘤与血液系统肿瘤、男性生殖肿瘤、呼吸系统肿瘤、泌尿系统肿瘤及其他尚未确定的类型。
近年来,通过SEER数据库挖掘数据发表的文章数量急剧增加:
(PubMed检索SEER数据库发文量)
(知网检索情况SEER数据库发文量)
我们通过PubMed和知网检索了SEER数据库相关的文章(见下图),
发现用SEER数据库发表论文,也有一定的规律可循。
(PubMed检索SEER数据库相关文章)
(万方检索SEER数据库相关文章)
使用SEER数据库发表论文的第一步,就是要学会如何下载数据。
今天,我们就和大家一起学习从SEER数据库下载数据的全过程。
NO.1
账号申请(以个人邮箱为例)
(1)进入seer网站,页面如下,依次点击SEER Data& Software, How to request assess to SEER Data,Continue to Request Form。
(2)在个人邮箱处填入自己的邮箱,进入如下界面,填好相应的信息然后点击submit提交。
注意这里的initials 是自动生成的,需要把右边的滚动条拉到最下边才可以填写(备注把原来自动生成的名称重新输入一遍即可)。(3)提交之后,会收到如下邮件:
打开邮件中的链接,继续填写信息:
最后点击request download。之后会收到分别含有登录用户名,登录密码,SEER Stat 软件下载链接的三封邮件。软件图标如下图所示。
数据下载
(1)软件下载好后,打开软件,点击菜单栏的Profile ,找到并单击Client-Server Login登录。
进入登录页面,填入用户名和密码:
(2)点击表格的图标,软件开始加载数据。
加载完数据的窗口如下图所示:
每一行都是一个数据集,选中想要的数据集(下图蓝色表示已选中)。考虑到数据的量,一般选用1975-2019年的数据,之后再筛选一下数据。
(3)筛选数据时,第一步先点击Selection ,第二步点击Edit。
来到如下界面。is=to 是等于的条件,is=not to是不等于的条件,例如:下图所示,是选中了年龄15-19岁且不为Male的患者。
也可以点击Find,弹出查询窗口,在search text 栏里填入选择的字段,然后根据需要选择相应的条件。点击OK 之后,就把条件联合到之前已经选中的条件里了。
选中条件之后可以copy出来所有的筛选条件(如图所示),点击clear可以清除选中的条件。
(4)点击Table选项卡,进入Table窗口。然后在变量处(标记2),选中需要的变量,点击Column(标记3)之后,便加入到下载列表中(标记4)。另外,up和down是变量排序 ,Del是删除变量 ,Both是表格排序。
(5)数据输出。点击闪电的符号,会生成表格,之后可以复制粘贴到Excel里再进行处理。提示:如果出现表格中没有数据的情况,可能是筛选条件太多,所以在selection栏里尽量不要纳入太多条件。
或者通过点击Matrix导出文件。
备注:常用变量包括年龄、性别、婚姻状态、肿瘤ICD-O-3编码、肿瘤大小、T/N/M stage、治疗信息(化疗,手术,放疗等等)、生存时间及状态等。
以上小编带大家演示了如何从SEER数据库获取自己想要的数据。
在后续的文章中,再向大家演示数据清洗、撰写文章等相关内容
使用数据库过程中,如果遇到任何困难,可以探讨交流