2021-07-25

周日学习小结

我们再来看一下相较于 scrapy.Spider 类更为强大的 CrawlSpider 类。

CrawlSpider 是Spider的派生类,Spider 类的设计原则是只爬取start_url列表中的网页,而 CrawlSpider 类定义了一些规则 (rule) 来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。

源码参考

1class CrawlSpider(Spider): 2rules = () 3def__init__(self, *a, **kw): 4super(CrawlSpider, self).__init__(*a, **kw) 5        self._compile_rules() 6 7#首先调用parse()来处理start_urls中返回的response对象 8#parse()则将这些response对象传递给了_parse_response()函数处理,并设置回调函数为parse_start_url() 9#设置了跟进标志位True10#parse将返回item和跟进了的Request对象    11def parse(self, response):12returnself._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)1314#处理start_url中返回的response,需要重写15def parse_start_url(self, response):16return []1718def process_results(self, response, results):19return results2021#从response中抽取符合任一用户定义'规则'的链接,并构造成Resquest对象返回22def _requests_to_follow(self, response):23ifnot isinstance(response, HtmlResponse):24return25seen = set()26#抽取之内的所有链接,只要通过任意一个'规则',即表示合法27forn, rulein enumerate(self._rules):28links = [lforlinrule.link_extractor.extract_links(response)iflnotin seen]29#使用用户指定的process_links处理每个连接30iflinksand rule.process_links:31links = rule.process_links(links)32#将链接加入seen集合,为每个链接生成Request对象,并设置回调函数为_repsonse_downloaded()33forlinkin links:34                seen.add(link)35#构造Request对象,并将Rule规则中定义的回调函数作为这个Request对象的回调函数36r = Request(url=link.url, callback=self._response_downloaded)37r.meta.update(rule=n, link_text=link.text)38#对每个Request调用process_request()函数。该函数默认为indentify,即不做任何处理,直接返回该Request.39yield rule.process_request(r)4041#处理通过rule提取出的连接,并返回item以及request42def _response_downloaded(self, response):43rule = self._rules[response.meta['rule']]44return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)4546#解析response对象,会用callback解析处理他,并返回request或Item对象47def_parse_response(self, response, callback, cb_kwargs, follow=True):48#首先判断是否设置了回调函数。(该回调函数可能是rule中的解析函数,也可能是 parse_start_url函数)49#如果设置了回调函数(parse_start_url()),那么首先用parse_start_url()处理response对象,50#然后再交给process_results处理。返回cb_res的一个列表51if callback:52#如果是parse调用的,则会解析成Request对象53#如果是rule callback,则会解析成Item54cb_res = callback(response, **cb_kwargs)or ()55cb_res = self.process_results(response, cb_res)56forrequests_or_itemin iterate_spider_output(cb_res):57yield requests_or_item5859#如果需要跟进,那么使用定义的Rule规则提取并返回这些Request对象60iffollowand self._follow_links:61#返回每个Request对象62forrequest_or_itemin self._requests_to_follow(response):63yield request_or_item6465def _compile_rules(self):66def get_method(method):67if callable(method):68return method69elif isinstance(method, basestring):70return getattr(self, method, None)7172self._rules = [copy.copy(r)forrin self.rules]73forrulein self._rules:74rule.callback = get_method(rule.callback)75rule.process_links = get_method(rule.process_links)76rule.process_request = get_method(rule.process_request)7778def set_crawler(self, crawler):79        super(CrawlSpider, self).set_crawler(crawler)80self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider继承于Spider类,除了继承过来的属性外(name、allow_domains),还提供了新的属性和方法:

LinkExtractors

from scrapy.linkextractors import LinkExtractor

Link Extractors 的目的很简单: 提取链接。

每个LinkExtractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象。

Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接。

1class scrapy.linkextractors.LinkExtractor( 2allow = (), 3deny = (), 4allow_domains = (), 5deny_domains = (), 6deny_extensions = None, 7restrict_xpaths = (), 8tags = ('a','area'), 9attrs = ('href'),10canonicalize = True,11unique = True,12process_value = None13)

主要参数:

allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。

allow_domains:会被提取的链接的domains。

deny_domains:一定不会被提取链接的domains。

restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。

rules

在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。

1class scrapy.spiders.Rule(2        link_extractor, 3callback = None, 4cb_kwargs = None, 5follow = None, 6process_links = None, 7process_request = None8)

link_extractor:是一个Link Extractor对象,用于定义需要提取的链接。

callback: 从link_extractor中每获取到链接时,参数所指定的值作为回调函数,该回调函数接受一个response作为其第一个参数。

注意:当编写爬虫规则时,避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了 parse方法,crawl spider将会运行失败。

follow:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。 如果callback为None,follow 默认设置为True ,否则默认为False。

process_links:指定该spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。

process_request:指定该spider中哪个的函数将会被调用, 该规则提取到每个request时都会调用该函数。 (用来过滤request)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容

  • Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码 启动...
    陈small末阅读 316评论 0 0
  • Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码 启动...
    holle_pycharm阅读 240评论 0 0
  • 总结一下之前的spider,总的来说,Spider类就是定义了如何爬取某个(或某些)网站。包括了爬取的动作以及如何...
    王小鱼鱻阅读 1,230评论 0 2
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,534评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,187评论 4 8