前面写了用python分析lianjia数据,实际上也可用SPSS进行处理。
使用SPSS进行数据清洗,继续以Lianjia的爬虫数据为例。
1.数据导入
首先导入csv到SPSS中,导入过程中可对各列的数据类型进行编辑。部分数据若有异常,则需后续进行修改类型。
导入后的效果:
2.数据类型检查
点击左下角标签“变量视图”,可快速修改每列的数据类型。
在变量视图页面,发现“室”、“面积”、“价格”这三项识别为“字符串”。
3.非数字类型处理(价格、面积、室三列)
有很多处理方式:
(1)可在“变量视图”直接改为“数值”类型。后续需逐一检查异常数据。
(2)可在此三列标题上,分别点击右键选择“升序排列”与“降序排列”,可快速查看异常数据。如图所示,此部分数据属于爬虫过程中产生的异常,简单处理的话可以直接删除,也可人工修复数据。
4.重复数据清理
根据此次数据的特点,选择使用“标签”、“价格”、“面积”属性作为去重的依据。
点击“数据”-“标识重复个案”
筛选后发现,重复个案占总数的0.3%
具体到数据上,增加了一列“最后一个基本个案”列:
因此,我们可以根据这个“最后一个基本个案”列进行重复数据的清除。
步骤为:
(1)“数据”——“选择个案”;
(2)选中“所有最后一个匹配...[最后一个基本个案]”;
(3)点击“如果”弹出if选择框,输入条件:“最后一个基本个案”=1。注:此处前面的截图是显示“主个案”与“重复个案”,可以通过取消“值标签”显示来改为1与0.
*其实也可以通过排序,将值为0的部分删除,只不过在数据量大的时候,需要准确的找到0和1的分界线。
5.增加列
观察发现,数据中还需增加一列“均价”。步骤为:
(1)在“变量视图”中插入一行,命名为“均价”,类型为数值。
(2)点击“转换”-计算变量,目标变量输入“均价”,数字表达式为“ 价格 / 面积”,确认即可。
增加后数据如图所示。
6.异常值的处理
首先需要整体观察一下数据,特别是“价格”、“面积”、“均价”、“室”、“厅”的分布情况:
(1)先通过图表粗略观察一下,点击“分析”——“描述统计”——“频率”,图表使用直方图。
通过整体直方图与正态曲线,至少没有出现大量异常数据。
(2)接下来,点击“分析”——“描述统计”——“描述”,选中这5项内容进行分析如下。
在这里看出,至少室、厅=0,均价的极小值与极大值都是可能存在异常状况的,需要对数据进行异常梳理。处理方式为:
“数据”——“选择个案”,“如果”——输入条件,确认后可直接删除或先过滤后删除。
6.导出数据
点击“文件”——另存为即可。
实际上python和SPSS均可以进行数据的清理工作,选择自己习惯的方式即可。