scrapy框架详解三 item及spider 文件使用

首先要明确要获取的目标内容然后编写items 文件：

定义Item非常简单，只需要继承scrapy.Item类，并将所有字段都定义为scrapy.Field类型即可

示例：

import scrapy

class Product (scrapy.Item):

name = scrapy.Field()

price = scrapy.Field()

stock = scrapy.Field()

last_updated = scrapy.Field(serializer=str)

spider文件：

spider的类及其属性和方法：

class scrapy.spiders.Spider

每个spider都是继承这个类其仅仅请求给定的 start_urls/start_requests ，

并根据返回的结果(resulting responses)调用spider的 parse

name#爬虫名称，str，必须

allowed_domains#默认跟踪的url必须在这个域中，下面这个方法解决长因此的问题

禁用OffsiteMiddleware的时候可以使不在allowed_domains的URL也可以跟进

start_urls#url列表

start_requests()#

未指定URL启用，使用start_url中url跑默认一次，可定制初次发送的请求比如post，

指定URL时默认make_request_from_url()被调用创建request对象(一次性创建)

def start_requests(self):##标准写法

return [scrapy.FormRequest("http://www.example.com/login",formdata={'user': 'john', 'pass': 'secret'},callback=self.logged_in)]

make_requests_from_url(url)#有start_request()就覆盖了他

接收URL返回request对象其中包含parse()作为回调函数dont_filter自动过滤属性默认开启，默认被start_requests()调用

parse(response)#不指定回调函数，默认被指定，负责处理response并返回处理的数据以及(/或)跟进的URL，必须返回一个包含 Request 及(或) Item 的可迭代的对象

样例：代码写的啰嗦，这里展示了使用start_request()方法覆盖start_url

import scrapy

from myproject.items import MyItem

class MySpider(scrapy.Spider):

name = 'example.com'

allowed_domains = ['example.com']

def start_requests(self):

yield scrapy.Request('http://www.example.com/1.html', self.parse)

yield scrapy.Request('http://www.example.com/2.html', self.parse)

yield scrapy.Request('http://www.example.com/3.html', self.parse)

def parse(self, response):

for h3 in response.xpath('//h3').extract():

yield MyItem(title=h3)

for url in response.xpath('//a/@href').extract():

yield scrapy.Request(url, callback=self.parse)

scrapy也支持使用-a的方式在命令行上去为爬虫添加属性：

scrapy crawl myspider -a category=electronics

！

最后编辑于：2019.06.15 14:36:58

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

scrapy框架详解三 item及spider 文件使用

scrapy框架详解三 item及spider 文件使用

首先要明确要获取的目标内容然后编写items 文件：

示例：

spider文件：

spider的类及其属性和方法：

相关阅读更多精彩内容

友情链接更多精彩内容