PyCharm+ENV+Scrapy

记录使用 PyCharm 创建 Scrapy 项目过程。

使用 PyCharm 创建一个干净的 Python 工程

使用 env 环境

Screen Shot 2019-01-15 at 9.55.59 AM.png

安装 Scrapy

打开 PyCharm 设置,安装 Scrapy。

Screen Shot 2019-01-15 at 9.41.06 AM.png

创建 Scrapy 工程

打开 PyCharm 命令行工具

# 后退一步,减少目录层级
cd  ..

# [Demo2] 必须和工程文件名相同
scrapy startproject Demo2

cd Demo2

# 使用模版创建一个爬虫
scrapy genspider example example.com

配置运行

创建 start_scrapy.py

from scrapy import cmdline
cmdline.execute('scrapy crawl example'.split())
20190115102042.png

测试

修改 Demo2/spiders/example.py:

# -*- coding: utf-8 -*-
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        print(response.body)

爬 baidu.com 还需要修改设置 settings.py ROBOTSTXT_OBEY = False

运行后:

20190115102211.png

其他问题

Forbidden by robots.txt

修改 settings.py:

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

参考:https://www.jianshu.com/p/eda047ac5c89

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容