CrawSpider:
需要使用‘LinkExtractor’和‘Rule’。这两个东西决定爬虫的具体走向。
- allow的使用方法:要能够限制在我们想要的url上面。不要跟其他的url产生相同的正则表达式即可。
- 什么情况使用follow:如果在爬取页面的时候,需要将满足当前条件的url再跟进,那么就设置为True,否则设置为False。
- 什么情况下该指定callback:如果这个url对应的页面,只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback。如果想要获取url对应页面中的数据,那么就需要指定一个callback。
Scrapy Shell:
- 可以方便我们做一下数据提取的测试代码。
- 如果想要执行scrapy命令,必须要先进入到scrapy所在的环境中。
- 如果想要读取某个项目的配置信息,那么应该先进入到这个项目中。再执行‘scrapy shell’命令。
模拟登陆人人网:
- 如果想要发送post请求,那么推荐使用‘scrapy.FormRequest’方法。可以方便的指定表单数据。
- 如果想在爬虫一开始的时候就 发送post请求,那么应该重写‘start_requests’方法。在这个方法中,发送post请求。