一、实验目标
采集学院官网的新闻信息
内容包括
新闻标题、时间、正文
二、采集工具
八爪鱼V7.3.8
三、预期采集结果
尽可能爬取到具有标题、时间、正文文本三个元素的新闻,将其汇总成EXCEL表格形式。
四、采集过程
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面: 然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
步骤2 我们需要进行循环翻页流程,在采集的时候模拟人工点击翻页,鼠标点击在下图浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”;这样翻页循环就做好了。
步骤3 鼠标点击下图中第一个新闻标题:第二部”链接,这时候和右边的操作提示框中就会出现一些选项,我们选择“选中全部”选项,然后再选择“循环点击每个链接”选项即可,这样循环点击电影标题到详情页面的步骤就做好了。
步骤4 鼠标点击页面中要提取的标题字段,这里标题字段就被选中了并通过红色框表示,然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据,然后同样的方式选择点击浏览器中的其他字段,再选择“采集该元素的文本”
步骤5 这样提取完毕之后我们可以点一下流程按钮,然后修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 在下面界面中修改字段名称,修改完成之后,点击“确定”保存
最终审查流程,确定循环跳出等操作无误。
步骤6 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定. 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。
五、采集结果
1、整体上采集结果无大差错,共采集398条数据,基本完成任务。
2、由于第一次采集数据时选取元素出现问题,导致文本内容包含部分标题、时间等元素。
3、学院官网问题导致数据出现重复,错误比较明显,采集器可以一键清洗。
4、学院官网新闻网页有些不符合我们制定的采集规则,例如出现一些视频和其他可能使用ajax技术的页面扰乱了正常的采集过程。