一、数据清洗
【数据】-【标识重复个案】(主个案指示符(0代表重复个案,1代表唯一或基本主个案))
1.所有变量->定义匹配个案的依据,其他默认;
⭐️【🔘每组中的最后一个个案为主个案 名称:最后一个基本个案】;
2.选中“最后一个基本个案”,单击鼠标右键,选择【升序排序】;
3.选中“最后一个基本个案”变量值为0(重复)的个案,单击鼠标右键,选择【清除】。
二、数据抽取
(1)字段拆分
1.【转换】-【计算变量】;
2.【函数组】-“字符串”类-【函数和特殊变量】双击"Char.Substr(3)"函数;
3.【数字表达框】-CHAR.SUBSTR(字符串,提取的起始位置,提取的字符个数);
⭐️比如:CHAR.SUBSTR(身份证号,7,4)
4.【目标变量】变量名称“年份”;
5.【确定】。
(2)随机抽样:简单随机抽样、分层抽样、系统抽样等
简单随机抽样
1.【数据】-【选择个案】-【随机个案样本】;
2.【选择个案:随机样本】:基于近似的百分比或精确的个案数来随机抽取样本;
3.确定后,在数据最后一列新增了一个"filter_$"变量。0表示记录未被选中抽取,1表示记录被选中抽取,同时对没有选中抽取的记录的行号使用斜线"/"进行标记,在不关闭SPSS的情况下,后续的其他数据操作都仅对选中抽取的记录进行分析。
三、数据合并
(1)字段合并
1.【转换】-【计算变量】;
2.【函数组】-“字符串”类-【函数和特殊变量】双击"Concat"函数;
3.【数字表达框】-⭐️CONCAT(年份,"-",月份,"-",日);
4.【目标变量】变量名称“出生日期”,【类型与标签】-"字符串",宽度:"10"
5.【确定】;
6.【变量视图】-"出生日期"变量数据类型更改为日期型-"yyyy/mm/dd"日期格式。
(2)记录合并
1.【数据】-【添加个案】
四、数据分组
(1)可视分箱
等距:
1.【转换】-【可视分箱】;
2.“年龄”移至【要分箱的变量】;
3.【分箱化变量】-“年龄段”-单击【生成分割点】-...-单击【生成标签】-【确定】;
不等距:
1.【转换】-【可视分箱】;
2.【网格】中直接填入自定义的分割点,单击【生成分割点】。
(2)重新编码
1.【转换】-【重新编码为不同变量】-...