第六章 Scrapy框架(四) 2020-03-06

四、Scrapy框架– 实战– 古诗文网爬虫实战(1

settings.py中设置ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS添加请求头。


gsww_spider中设置初始url:start_urls = ['https://gushiwen.org/default_1.aspx']


gsww_spider示例代码


import scrapy

from lxml import etree

from scrapy.http.response.html import HtmlResponse

from scrapy.selector.unified import Selector

 

class GswwSpiderSpider(scrapy.Spider):

    name = 'gsww_spider'

    allowed_domains = ['gushiwen.org']

    start_urls = ['https://gushiwen.org/default_1.aspx']

 

    def myprint(self,value):

        print("="*30)

        print(value)

        print("="*30)

 

    def parse(self, response):

        # self.myprint(type(response))

        gsw_divs =response.xpath("//div[@class='left']/div[@class='sons']")

        print(type(gsw_divs))

        for gsw_div in gsw_divs:

            self.myprint(type(gsw_div))



上一篇文章 第六章 Scrapy框架(三) 2020-03-05 地址:

https://www.jianshu.com/p/5c752e9f3f61

下一篇文章 第六章 Scrapy框架(五) 2020-03-07 地址:

https://www.jianshu.com/p/cd1f301999c5



以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一个完整的爬虫程序,应该包含五个部分,分别是负责url链接管理的URL管理器,负责获取网络数据的Downloade...
    zhile_doing阅读 351评论 0 1
  • Scrapy框架架构 Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储...
    久壑阅读 902评论 0 0
  • https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。 安装...
    怂恿的大脑阅读 1,300评论 0 7
  • 你会创造什么 我们的一些最大的灵感可以来自对过去的了解。 关注公众号liangyuansi1可以领取字体,滤镜等礼...
    93091cdf8ebb阅读 1,863评论 0 0
  • 六虎奋龙骧 “现在举世生平,大江南北,西城塞外都已经一统,也是‘水精珠’出世的时候了。咱们明天去长江把‘水精珠’取...
    钟潇阅读 1,085评论 1 15