尝试利用scrapy框架来抓取招聘信息,选了同城艺龙的,点击同城艺龙社招
先建立好一个爬虫项目和爬虫文件,之前有写过,在此不做赘述。
一、分析网页中职位信息
选取一个职位名称,鼠标右击,点击“检查”,可以看到代码内容。
在建立的爬虫文件中,编写如下代码:
在pipelines.py文件中编写代码如下:
最后在setting.py中设置如下:
ROBOTSTXT_OBEY 默认是True,一定要设为False,不然爬取不到内容
最后执行以下代码,可以爬取的内容如下:
我在代码中利用切片功能将爬取职位数设置为爬取三个
tr_list = response.xpath("//table[@class='jobsTable']/tr")[1:4]
如果将[1:4]
改为[1:-1]
,则会将当前页面的所有职位内容都爬取下来,如下图:
数了一下,发现最后一个职位没有爬取下来,莫非被网站禁止了,最多只能爬取14个职位?这个待我研究研究哈