- 安装scrapy
这里提示一个技巧,我们用douban的源,这样安装快些
pip install -i https://pypi.douban.com/simple virtualenv
- 用scrapy新建一个工程
scrapy startproject yourProject
- 新建一个爬虫
scrapy genspider 爬虫名称 example.com(爬虫网址)
- 这里我是用pycharm和virtualenv,开发的,我在pycharm设置下编译环境,一般在你环境下的bin目录下python2.7
- 由于pycharm没法直接调试scrapy,我们需要自己新建一个main.py来执行scrapy的命令行,新建的main.py代码如下
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入该模块
execute(["scrapy", "crawl", "jobbole"]) #相当于命令行 scrapy crawl jobbole(之前设置的爬虫名称)
这样就可以用断点进行调试了
- 禁止robot协议,避免过滤了有爬虫协议的网站,导致爬的网站很少,😜
修改settings.py,将
ROBOTSTXT_OBEY = False