scrapy爬虫框架

最近工作之余学习Python网络爬虫，整理点笔记。window环境下做开发会有一些坑，顺便记录下。

1、安装scrap库，管理员打开命令提示符输入pip install scrapy，在这个过程中，可能会有报错，提示缺少MS Visual C++ Build Tools，按照提示给出的网址下载安装，重新pip install scrapy即可。也可以在直接Anaconda Prompt输入conda install scrapy安装而不需安装MS Visual C++ Build Tools，由于本人对Anaconda不熟悉，怕留下坑，所以采用第一种方法安装。

2、创建Scrapy项目，如命令提示符进入D:/pycodes/，输入命令scrapy startproject pydemo。

3、spiders/目录，用户自定义的spider代码增加在此目录下，此外，该目录下有以下文件无需修改：

__pycache__/ ——缓存目录，无需修改

__init__.py ——初始文件，无需修改

4、在工程下生成一个Scrapy爬虫

1）在spider/下增加代码文件demo.py

2)命令提示符在D:/pycodes/pydemo/下输入命令scrapy genspider demo python123.io

5、编写爬虫代码，运行爬虫，获取网页，命令提示符在D:/pycodes/pydemo/下输入命令scrapy crawl demo。在这个过程中，可能会有报错提示：No module named 'win32api'，安装pywin32库后，重新执行命令可能会有报错：ImportError: DLL load failed: 找不到指定的模块。将pywin32包的安装目录D:\Program Files\Python36\Lib\site-packages\pywin32_system32\目录下的两个dll文件复制到C:\Windows\System32即可

基于scrapy完善的第三方库https://pypi.python.org/ 查找scrapy-开头的第三方库。

最后编辑于：2018.02.02 16:33:07

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

scrapy爬虫框架

scrapy爬虫框架

相关阅读更多精彩内容

友情链接更多精彩内容