使用虚拟环境,搭建python3+scrapy

使用虚拟环境

查看当前的虚拟环境
wokon

workon

选择自己用的
wokon xxx

workon article_spider

scrapy的搭建

在安装好scrapy的前前提下进行

创建scrapy

scrapy startproject ArticleSpider


scrapy创建

创建完成后

目录介绍

目录结构

scrapy大量的借鉴了django的设计理念

scrapy.cfg 配置文件 类似django
settings.py 配置文件 工程,module(路径)
pipelines.py 数据存贮
middlewares.py
items.py from 定义数据保存的一种格式 比django简单
spiders 写爬虫的目录,默认是空的

genspider 命令

scrapy genspider jobbole blog.jobbole.com
执行成功后,会在spiders目录下生成jobbole.py文件

import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/']

    def parse(self, response):
        pass

修改settings.py中的
ROBOTSTXT_OBEY = False

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容