scrapy 创建及简单的爬虫demo

本文只是记录学习的过程,后期会重新整理:
创建项目下的spiders文件夹下的spider。

以爬取百度信息为例:
- spiders
- init.py (已有文件)
- baidu.py (需要新建,名称自行定义,要有区分性)

下面主要以 baidu.py 文件为讲解

# 导入 scrapy 模块;如果变红,原因可能是项目的编译环境中没有scrapy模块,重新选择正确的编译环境即可
import scrapy

# 新建一个爬虫类
# 格式: class 爬虫名称+Spider(scrapy.Spider)
class BaiduSpider(scrapy.Spider):
    # 1. 指定爬虫名称, 要与项目关联,后期在log中方便审查
    name = "baidu"
    
    # 2. 初始启动链接, start_urls 这个属性名是固定的
    start_urls = ['http://www.baidu.com'] 

    # 3. 重写 Spider 类下的 parse 方法,parse()起解析功能
    # 此步骤已经请求一次结束,进行解析。在框架的 downloader 下载完成后将页面源代码传给 spider 。spider进行解析。
    # 文件写入路径是项目的根目录下
    def parse(self, response):
        with open('baidu.html', 'w', encoding='utf-8') as f:
            f.write(response.body.decode('utf-8'))
        

以上已经完成一个简单的百度页面的爬取功能。

  • 进行调试
    • 在该项目的文件夹下 进入命令行模式。
    • 执行 scrapy crawl baidu

此处应该会失败。因为每个网站都有一个robots.txt,表示网站不允许爬的网站目录。scrapy框架遵守该协议。所以需要修改Scrapy框架的配置文件

  • 在项目目录下的 settings.py 修改一下内容:
    • ROBOTSTXT_OBEY = False # 默认是True
    • 命令行下重新执行 scrapy crawl baidu
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。 安装...
    怂恿的大脑阅读 1,311评论 0 7
  • Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...
    凛0_0阅读 2,156评论 2 10
  • 碧海蓝天 棉花糖一样… 乌云的背后是光芒 夕阳红…
    游舒岚阅读 169评论 0 0
  • 有时候自己编辑了好了的朋友圈。为的只是记录下那一刻自己的心情,可是在要发送的时候。却怂了。我怕你们不知道我的心事,...
    球宝的心思阅读 348评论 0 0
  • 听妈妈的话,别让她受伤;美丽的白发,幸福中发芽.... 母亲的生日,早早起床,订了鲜花蛋糕,去市场买...
    T伊恩阅读 189评论 0 0