微信Charleszhanggo
自1999年起,NHANES的数据每2年发布1次,并持续更新。NHANES数据主要由以下4个部分组成:
按照时间:年周期(Years Cycle)
按照收集方法:5大项目(Items)
按照数据类型:数据文件(Data Files)
每次数据文件都有多个字段(Variable)
下面来详细介绍一下各自的特点。
1、年周期(Year Cycle)
当前的 NHANES,也称为连续性 NHANES(Continuous NHANES),是指自 1999 年以来产生的数据的两年周期,目前已有11个年周期。
图片
2、5大项目(Items)
每个周期按收集方法分为五个部分:
人口统计(Demographics)
饮食(Dietary)
检查(Examination)
实验室(Laboratory)
问卷(Questionnaire)
人口统计文件:包含调查设计变量,例如权重、分层和初级抽样单位,以及人口统计变量。
饮食文件:包含从参与者那里收集的有关其饮食摄入量的数据,其中包括食物、饮料和膳食补充剂。
检查文件:包含通过体检和牙科检查收集的信息。
实验室文件:包含对血液、尿液、头发、空气、结核病皮肤测试以及家庭灰尘和水样本的分析结果。
问卷文件:包含通过家庭和移动考试中心访谈收集的数据。
3、数据文件
每个项目中都有许多单独的数据文件。要查找文件想要的文件,调查内容手册可以帮助你,并且会告诉你某些文件是否随着时间发生了改变。
https://wwwn.cdc.gov/nchs/data/nhanes/survey-contents-508.pdf
图片
图片
下面列出了这些数据文件的示例。
人口数据:包含人口统计变量以及调查权重和其他调查设计变量
饮食数据:用于饮食访谈、补充剂使用等的个人文件。
检查数据:关于听力、血压、身体测量、肌肉力量、口腔健康、视力检查等的个人文件。
实验室数据:关于尿液收集、甲型肝炎病毒、HIV、重金属、血浆葡萄糖、总胆固醇、甘油三酯等的个人文件。
问卷调查数据:关于酒精使用、平衡、血压、糖尿病、药物使用、社会支持、视力、体重史等的个人文件。
图片
通常,分析需要来自多个数据文件。例如,年龄和性别在人口统计项目中,而血压测量在检查项目中,胆固醇变量在实验室项目中,关于先前诊断或服用高血压药物的问题在问卷组件中。在对心血管疾病的完整分析中可能需要所有这些变量。
需要注意:NHANES在不断地更新数据,也在不断地撤回数据。
同一文件在不同年份的名称也有差别,例如入口学数据在1999年为demo.xpt,而在2001年则为demo_a.xpt,而当你以为以后都是demo_字母.xpt这样排序时,到了2019年又变成了p_demo.xpt。所以千万注意文件名,以保证你下载或读取的数据是正确的。
图片
4、变量
一个分析过程往往需要来自一个或多个调查周期的数据。要确定分析中需要哪些变量,需要确定潜在的分析变量并查看调查文档。有多种方法可以识别潜在变量。
要查找特定变量:可以通过访问问卷、数据集和相关文档页面中的搜索变量链接来执行关键字搜索。可以搜索所有调查周期或将搜索限制为单个数据发布周期。仔细阅读搜索结果中每个“命中”的文档,因为并非每个返回的结果都与您的分析相关。
图片
切记切记:在选取变量之前,一定要仔细阅读每个变量的文档,因为并非每个返回的结果都与你的分析相关。例如,假设你准备使用胆固醇变量(cholesterol)进行分析,并按关键字“甘油三酯”(triglycerides)进行搜索。标准生物化学配置文件 (BIOPRO) 包含甘油三酯(Triglycerides)的变量(变量LBXTR)。但是,使用参考分析方法(变量LBXTR)的甘油三酯实验室测试结果包含在胆固醇 - 低密度脂蛋白和甘油三酯文件 (Cholesterol - LDL & Triglycerides file (TRIGLY)) 中。这是用于最准确数据分析的适当变量。所以:一定要仔细阅读变量描述。
另外:变量名称可能会发生变化,并且可能会在不同的年份中添加重新编码、标签发生变化或派生的变量。如果感兴趣的变量的名称或标签已更改,则必须查明措辞、定义和/或响应类别是否已修改,然后重新编码变量以使其名称和响应类别在追加之前保持一致。
例如参军状态变量:在2010年之前是dmqmilit,但是2011年之后改叫dmqmiliz。
图片
并且前后的编码也稍有差别,虽然都是1表示Yes,2表示No,7表示Refused,9表示Don't know。但是2010年之前的know中k为小写,而之后的k为大写的K。
图片
小结
NHANES数据由Years、Items、files、variable这4个部分组成
Years的格式固定,为2年周期
Items根据数据采集方式分为5种类型
files根据数据类型分为多种文件,即使同一文件在不同年份的名称也会有差别
variable为变量名称
变量是不断变化
变量编码也可能不断变化
还会不断增加新的编码
在数据分析之前,一定要详细了解你要采集的数据,详细解读数据的介绍、字段的介绍,确保你选择的数据是正确的