scrapy系列

response.follow()不用拼接域名url

      yield response.follow(url, callback=self.parse_mate)

xpath选择所有子类文本例子.xpath('string(.)')

node_list = response.xpath('//h3[@class="c-title"]/a').xpath('string(.)').extract_first()

获取子标签带html标签的xpath :

 ''.join(node.xpath('./h3[@class="c-title"]/a/node()').extract())

获取子标签只获取文本:

 node.xpath('./h3[@class="c-title"]/a').xpath('string(.)').extract_first().

获取html内容和beatifullsoup一样

response = etree.HTML(content)
response.tostring()

给一个离线库下载的网站:

https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,374评论 4 46
  • 总结一下之前的spider,总的来说,Spider类就是定义了如何爬取某个(或某些)网站。包括了爬取的动作以及如何...
    王小鱼鱻阅读 4,954评论 0 2
  • 1.Scrapy简介 最开始看Scrapy的教程是中文版 ,这个版本是0.24,后来python模块warnin...
    AquilaP阅读 7,136评论 0 5
  • 一个中年人,蹲在街边,身边放着些颜料。他动作缓慢,有时会保持一个动作良久,他头也不抬,专心致志地盯着地面。走近一...
    BBBlla阅读 1,805评论 0 0
  • 第十章(四)追猎者总部一楼的某间卧室已经连续三天没有人回去了。FLLFFL连续三天泡在调研室当了几天尽职尽责的猫头...
    汀雨S26阅读 2,860评论 2 2

友情链接更多精彩内容