一、实验目标

采集学院官网的新闻信息

学院官网新闻动态

内容包括

新闻标题、时间、正文

二、采集工具

八爪鱼V7.3.8

三、预期采集结果

预期采集数据结果

尽可能爬取到具有标题、时间、正文文本三个元素的新闻，将其汇总成EXCEL表格形式。

四、采集过程

步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会进入到流程设计页面并自动打开前面输入的网址。

步骤2 我们需要进行循环翻页流程，在采集的时候模拟人工点击翻页，鼠标点击在下图浏览器页面中的“下一页”按钮，在弹出的对话框中选择“循环点击下一页”；这样翻页循环就做好了。

步骤3 鼠标点击下图中第一个新闻标题：第二部”链接，这时候和右边的操作提示框中就会出现一些选项，我们选择“选中全部”选项，然后再选择“循环点击每个链接”选项即可，这样循环点击电影标题到详情页面的步骤就做好了。

设置循环点击单个链接

步骤4 鼠标点击页面中要提取的标题字段，这里标题字段就被选中了并通过红色框表示，然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据，然后同样的方式选择点击浏览器中的其他字段，再选择“采集该元素的文本”

设置采集该元素文本

步骤5 这样提取完毕之后我们可以点一下流程按钮，然后修改字段名称。这里的字段名称相当于表头，便于采集时区分每个字段类别。在下面界面中修改字段名称，修改完成之后，点击“确定”保存

修改字段名称

最终审查流程，确定循环跳出等操作无误。

流程图

步骤6 点击“保存并启动”，再在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示，接下来选择导出数据，这里以选择导出excel2007为例，然后点击确定. 之后选择文件存放路径，再点保存即可。这样就获取了我们最终需要的数据了。

数据显示

五、采集结果

1、整体上采集结果无大差错，共采集398条数据，基本完成任务。

2、由于第一次采集数据时选取元素出现问题，导致文本内容包含部分标题、时间等元素。

3、学院官网问题导致数据出现重复，错误比较明显，采集器可以一键清洗。

4、学院官网新闻网页有些不符合我们制定的采集规则，例如出现一些视频和其他可能使用ajax技术的页面扰乱了正常的采集过程。

爬取川大公管学院新闻动态