python2.7:安装完pip之后可以使用pip install scrapy命令安装scrapy,但是可能会遇到error: Unable to find vcvarsall.bat错误,此时很可能是因为Twisted没安装;需要再手动安装一下,去这个网址下载:Twisted-10.2.0.winxp32-py2.7.msi;然后安装一下,安装目录一定要是你的python安装目录,否则无法安装;安装完之后再执行pip install scrapy就没错误了;验证一下:import scrapy,没错误的话就说明scrapy已经安装成功了
python3.5:自从3.3以后python的安装包中都默认带了pip工具,所以不必再单独安装pip;等安装完、配完python,即可在cmd下输入pip验证;如果执行pip install scrapy,会发现有如下错误
显示没有安装libxml2,那就安装吧,执行pip install libxml2还是有错;后来发现安装lxml时会附带安装libxml2,那就执行pip install lxml,还是有错!换种方法把,左查右查终于发现了一个方法:执行pip install wheel;成功之后到http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml这个网址按Crtl+F搜索lxml,然后找到对应python版本号的whl文件下载下来【我是python3.5,对应的是lxml-3.4.4-cp35-none-win32.whl】;下载到本地,切换到下载目录,执行pip install lxml-3.6.0-cp35-cp35m-win32.whl;安装成功之后再执行pip install scrapy;是不是成功了呢?
如果在你写完爬虫之后执行scrapy crawl XXX;你可能会遇到这样的问题:
显示缺少twisted ,那就安装吧;到官网上去下载:https://twistedmatrix.com/Releases/Twisted/16.2/下载下面那个压缩包,然后解压,cd切换到下载目录,执行pip setup.py install 就安装好了twisted;再次执行scrapy crawl XXX。如果上面按个问题还没解决的话就执行pip install twisted-win
注意:lxml是解析xml和html的工具包,做爬虫必不可少;twisted是一个事件驱动型的网络引擎,对于爬虫也必不可少