学院教师信息爬取报告（一）

关键词：ubuntu系统、scrapy简单爬取任务

任务：是爬取学院网站上教师列表以及教师详情

借用一个items.py定义两个item类,再分别用Teacherlist、Teacher两个spider抓取教师信息

教师列表

爬虫结构图示

（注：建立时没有.pyc文件）

item模块定义

（注意：两个类定义需要用空行隔开，当然注意使用同一种方式缩进）

教师列表爬虫代码

（注：python时使用缩进来区分代码块，使用空行表示下一个类、函数等的开始）

教师详情爬虫代码

（注：parse函数名不能更改，留意页面层级结构）

    *   scrapy  crawl 爬虫名

这里尤其注意未定义，xpath书写，到底是item.xpath()还是response.xpath(),以及缩进（空格、tap混用，是否整齐），英文：（中英文输入）等错误

运行代码
* scrapy crawl 爬虫名 -o 文件名.格式

注意：文件夹权限
root用户该文件夹上级目录下使用命令
* sudo chmod 777 文件名

最后编辑于：2017.12.07 02:57:27

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。