使用工具:八爪鱼客户端
在八爪鱼客户端中可以使用自定义模式灵活配置采集任务
首先需要确定目标网址和采集需求
以公开数据房地产信息平台为例,首先需要挖掘出目标网址,然后去采集全部"房源"搜索结果的数据(八爪鱼工具采集)
第一步 挖掘目标网址
一、进入目标网址查看
①输入目标网址:http://zjj.sz.gov.cn:8004/(以深圳市房地产信息平台为例)
②点击"房源库"按钮,出现对应的"标题栏"
③点击标题栏下的"一手预售房源"按钮,即可出现目标数据
如下图所示:
二、挖掘目标数据的真实网址
①首先按F12进入开发者界面
②然后通过点击"一手房预售房源"按钮,进入到数据详情面板
③点击所出现的"index.aspx"文件,并选取复制真正的数据URL链接:http://zjj.sz.gov.cn/ris/bol/szfdc/index.aspx
第二步 设置采集流程
一、粘贴网址并开始设置采集流程
①打开八爪鱼客户端,将复制好的网址粘贴至输入框中
②点击"开始采集"按钮,进入到采集流程设置界面
二、设置数据目标对象
①鼠标左键点选空白处(选择需要采集的目标对象)
②选择操作提示框中所出现的"采集该元素的文本"按钮
注意:操作步骤②完成之后流程图中会出现"点击元素"步骤,步骤名称可以修改。
衔接上一步,继续选择"自动识别网页"按钮,流程图中此时出现了"提取数据"步骤,当前页面数据预览出现了所识别到的数据
衔接上一步,执行"自动识别网页"时,可以随时进行"取消识别"的操作
第三步 生成采集设置
选择"生成采集设置"(必选)
点击"垃圾桶"图标可以删除任意行字段(不需要的数据)
衔接上一步,铅笔符号为修改字段(列)名称,垃圾桶符号为删除字段(列)
第四步 设置翻页和滚动操作
生成采集设置之后,只能采集当前页的数据,还需要进行翻页和滚动的操作才能采集全部数据
此处选择"设置翻页采集"
衔接上一步
①点击">"翻页按钮
②点击"确定"按钮
衔接上一步,点击"设置"图标按钮,进入循环翻页步骤的设置
衔接上一步
①计算循环次数3581/10=358次(按采集的具体情况执行)
②将循环次数填入文本框中
③点击"应用"按钮即可
衔接上一步,点击"设置"图标按钮,进入到点击翻页步骤的设置页面
衔接上一步设置滚动操作
①打开"页面加载后"选项栏
②进行如下设置:勾选"页面加载后向下滚动" ; 选择"向下滚动一屏" ; 滚动次数设置为 " 5 " 次 ;每次间隔为 " 0.5秒 " (可按具体情况设置)
③设置完成后,点击"应用"按钮即可完成设置
第五步 启动采集
保存并点击"采集"按钮
然后选择"启动本地采集"
采集进行中所花费的时间比较久
①左下角有采集信息数量的描述
②中途可以随时停止采集
第六步 导出数据
采集任务完成后导出
①选择导出数据
②选择"去重数据"
③选择所有数据导出
衔接上一步,选择"Excel(xlsx)"格式,点击"确定"按钮
衔接上一步,给导出文件命名,并点击"保存"即可在对应的文件夹中预览
此截图为部分采集数据的展示