python安装虚拟环境工具:
pip install virtualenv
新建虚拟环境:
进入存放虚拟环境的文件夹
virtualenv pachong
Scarapy框架安装:
进入创建的虚拟环境(可以在cmd中或者pycharm命令控制台操作)
先安装Scarapy框架依赖:lxml、Twisted、pywin32 最好提前离线安装。
离线包下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
再安装scrapy
新建Scrapy项目:进入虚拟环境 scrapy startproject ArticleSpider
新建一个cnblog爬虫: scrapy genspider cnblogs news.cnblogs.com
如何在pychar中调试爬虫:
由于pycharm不能直接新建scrapy项目,所以可以在爬虫项目根目录新建main.py 代码如下:
import os
import sys
from scrapy.cmdlineimport execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'cnblogs'])