Scrapy框架安装及易错依赖注意

python安装虚拟环境工具:

pip install virtualenv


新建虚拟环境:

进入存放虚拟环境的文件夹

virtualenv pachong

Scarapy框架安装:

进入创建的虚拟环境(可以在cmd中或者pycharm命令控制台操作)

先安装Scarapy框架依赖:lxml、Twisted、pywin32 最好提前离线安装。

离线包下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

再安装scrapy

新建Scrapy项目:进入虚拟环境 scrapy startproject ArticleSpider

新建一个cnblog爬虫: scrapy genspider cnblogs news.cnblogs.com

如何在pychar中调试爬虫:

由于pycharm不能直接新建scrapy项目,所以可以在爬虫项目根目录新建main.py 代码如下:

import os

import sys

from scrapy.cmdlineimport execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy', 'crawl', 'cnblogs'])

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容