官网git: https://github.com/scrapinghub/portia
官网文档: https://portia.readthedocs.io/en/latest/installation.html#docker-recommended
下面只是记录下我用到的部分和需要注意的地方
安装
推荐使用Dock安装, 方便快捷
docker docker image pull scrapinghub/portia
生成爬虫
docker run -i -t --rm -v <PROJECTS_FOLDER>:/app/data/projects:rw -p 9001:9001 scrapinghub/portia
<PROJECTS_FOLDER>: 会是你本地(宿主机)存放项目的地方 最好写绝对路径, 方便找
没有报错的话就可以打开浏览器了, 打开127.0.0.1:9001 就能看到生成爬虫的界面
跟着官网文档点就行, 很简单
运行爬虫
这个需要简单记录下
docker run -i -t --rm -v <PROJECTS_FOLDER>:/app/data/projects:rw -v <OUPUT_FOLDER>:/mnt:rw -p 9001:9001 scrapinghub/portia portiacrawl /app/data/projects/PROJECT_NAME SPIDER_NAME -o /mnt/SPIDER_NAME.jl
需要改的地方有:
<PROJECTS_FOLDER> 这个就是刚才的地址
<OUPUT_FOLDER> 爬完之后数据存放的位置
PROJECT_NAME 爬虫项目名
SPIDER_NAME 爬虫名称
运行完毕后就能在OUPUT_FOLDER找到一个.jl文件
好的地方
方便 点选两个相似的内容会自动将当前页类似的全部选择上, 就是不太准, 手动改下css选择内容就比较准了, 同时, 如果字段处显示的选中了20个, 但是预览就只有一个或一个都没有, 就在右上角点inspector框里点字段后面的加号, 再加一个字段, 稍等, 看看预览对不对, 不对再选另一个, 再加, 直到预览对了, 但是这时很可能有多个都选上了, 删掉几个就行, 删之前的, 千万不要删最后添加那个, 删了就白加了
能生成scrapy代码
比较坑的地方
不稳定
- 比如有时候莫名其妙的就和后台连不上了, 只能关了重新开, 点选好的东西可能会丢失
- 有时候会出现两次操作一样, 但是就是不能选出元素, 所以在执行前需要注意观察右侧的预览栏是否把你要下载的数据全部展示出来了
- 还有就是前面多选的情况, 很麻烦