用scrapy爬好了数据,现在生成了execl 文件 我们不可能本地跑,需要提供对外的web服务.
需要用到的东西就是scrapydweb.
首先要准备的东西有 scrapyd 以及 scrapydweb.
没有使用scrapyclient. 具体原因的话 scrapydweb 提供了图形界面化操作.支持多节点(没用到...python小白被这个框架从搭建到发布弄死了)
那么准备的东西有了开始操作:
1. pip install scrapyd
安装完这个玩意以后直接 输入命令 scrapyd 见下图
安装完上面这个玩意以后 scrapyd 然后访问localhost:6800 那么scrapydweb 是用来干嘛的?
我个人理解为 scrapyd 这个玩意就相当于 java中发布容器 tomcat 可能理解有误 也希望大佬看见错误不吝赐教
scrapydweb 是用来管理爬虫发布等一些东西的图形界面化客户端.
那么安装方法大同小异:
2. pip install scrapydweb
2.1 安装完这个以后启动scrapydweb 启动方式 在项目根目录直接输入scrapydweb 会生成一个见下图(图2-1)一个文件,里面会有(图2-2)
设置启动认证=true,username 就是账号 password 就是密码 设置完成后直接命令输入scrapydweb
见下图2-3 以及 图2-4
会看到一个127.0.0.1:5000 输入游览器访问一下
接下面就是发布爬虫了... 点进Deploy Project 然后点开help
这个地方如果使用不了scrapyd-deploy 命令 需要在D:\anaconda\envs\kspider\Scripts 添加一个bat文件 文件内填充内容
@echo off
"D:\anaconda\envs\kspider\python.exe" "D:\anaconda\envs\kspider\Scripts\scrapyd-deploy" %*
填充完在使用图(2-6) 进行打包.
打包完成打开你的项目目录会发现多了一个egg 文件 然后按照图2-8 选择生成的egg文件进行upload就行
运行爬虫
生成execl 文件后 如何进行导出execl ? 见图3-1 可以看见这个目录下有一个conf 文件 点进去 修改里面见图(3-2)
见图3-3
点击items 就会进行文件下载.
至此就完成scrapy 爬虫的发布.
本文仅限本人小白学习参考,不足之处请大佬指正。