实验名称
爬取四川大学公共管理学院官网上所有的教师信息
实验目的和要求
目的:学习并掌握如何使用爬虫软件爬取网络上相关信息的技术
获取四川大学公共管理学院各个教师的相关信息并加以了解
要求:尽量确保所爬取数据信息的完整性与准确性
实验环境
运行环境:Win7
软件:八爪鱼采集器7.38 Excel2016
实验内容
通过使用八爪鱼采集器来爬取四川大学公共管理学院教师的相关信息,内容包括:教师姓名、图片、职称、所属部门、教学类别、科研成果、教师简介等等,并把爬取到的数据添加到Excel表格里
实验步骤
1 登陆八爪鱼采集器,通过自定义采集,进入到任务配置页面;
2 设置规则:
首先,输入要爬取的网站 四川大学公共管理学院教师并保存该网址;
接着,系统会自动打开该网页,由于教师数量多,在准备爬取教师信息之前,我们在此处添加了一个翻页循环;
最后,选择某一老师,通过鼠标选择其介绍模块,则会看到有一块绿色范围覆盖了这一块,而八爪鱼内置算法会找到这一块区域的子元素,点击“选中子元素”,鼠标点击选择要提取的字段;根据选择区域的子元素,八爪鱼会自动在其他教师页面中找到与其相似的内容;
3.规则设置完成,点击保存并启动,开始启动本地采集;
4.提示采集完成,选择导出数据,并将保存格式设置为excel。
实验结果
见四川大学公共管理学院全职教师.xlsx
总结
通过这次试验,我们小组成员学习了使用爬虫件获取网络信息的相关技能,并且通过爬虫软件能够获取到较为完整、准确的四川大学公共管理学院教师的相关信息。
在爬取的过程中,我们发现:目前爬虫软件的成熟度已经非常高,相比直接写程序,爬虫软件学习上手更加容易,在使用过程中很方便。然而,相对于利用爬虫代码爬去数据,使用爬虫软件增添了一些局限性,使得爬取到的数据并不是十分的完整,比如:八爪鱼这一软件对ajax网页支持不是很好;对于某一指定字段,格式不同的话无法爬取到该字段下的数据。这些,让我们更加意识到了学习爬虫语言的重要性。