scrapy 中 Request 的 url 补全

scrapy 中 Request 的 url 补全

如果是片段url

在python3中

from urllib import parse

在python2中

import urlparse

response.url

Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

只是初始化,如何交给scrapy 下载?使用yield

yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

当需要用到两个class来定位一个节点时,

比如

<a class="next page-numbers" href="http://blog.jobbole.com/all-posts/page/3/">下一页 »</a>

这个时候,就是把.next.page-numbers连在一起写。

next_url = response.css(".next.page-numbers::attr(href) ").extract_first()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化...
    Evtion阅读 5,937评论 12 18
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,819评论 4 46
  • 爬虫初探-Scrapy Scrapy 资料 官方文档永远是首选,建议把 tutorial 完整的过一遍。 网址:h...
    廖少少阅读 2,120评论 0 3
  • 每天跑步现已成习惯,读英语也找到些感觉,还差写文章和看书,这两周读书的效率非常低,本月还没认真看完过一本书,明天必...
    陈泊辰阅读 158评论 0 0
  • 从第一季到第三季《新闻编辑室》,始终都贯穿着新闻行业中理想主义与现实主义的斗争。第一季,是理想主义从现实中苏醒,崛...
    夏草_阅读 789评论 0 1