Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中,它拥有很多简化网站的高级函数。目前Scrapy仅支持Python 2.7版本, 由于依赖的Twisted的原因,目前还无法支持Python 3版本。
Scrapy的教程地址http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
1、安装
使用pip命令: pip install Scrapy
由于Scrapy依赖一些外部库,安装过程中,会遇到一些依赖库无法下载,出现timeout的情况,这个时候挂VPN代理能够比较好的解决。
挂上VPN, 重新安装:
验证是否安装成功: