Scrapy 教程

安装scrapy
这里提示一个技巧，我们用douban的源，这样安装快些

pip install -i https://pypi.douban.com/simple virtualenv

用scrapy新建一个工程

scrapy startproject yourProject

新建一个爬虫

scrapy genspider 爬虫名称 example.com(爬虫网址)

这里我是用pycharm和virtualenv,开发的，我在pycharm设置下编译环境，一般在你环境下的bin目录下python2.7

image.png

由于pycharm没法直接调试scrapy，我们需要自己新建一个main.py来执行scrapy的命令行，新建的main.py代码如下

from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入该模块
execute(["scrapy", "crawl", "jobbole"]) #相当于命令行 scrapy crawl jobbole(之前设置的爬虫名称)

这样就可以用断点进行调试了

禁止robot协议，避免过滤了有爬虫协议的网站，导致爬的网站很少，😜
修改settings.py,将

ROBOTSTXT_OBEY = False

最后编辑于：2017.12.07 20:14:04

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Scrapy 教程

Scrapy 教程

相关阅读更多精彩内容

友情链接更多精彩内容