0. 引言
pyspider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
最近有项目需要爬虫支撑,需要抓取的站点繁多,但数据量较小,决定使用pyspider来做数据抓取。考虑到单机性能和可用性问题,最后使用Docker分布式部署了pyspider,到目前为止的半年时间里运行良好。本文主要介绍一下我搭建流程,以及遇到的问题以及解决办法。
1. 部署说明
pyspider
的框架设计在官方文档中已经介绍的很清楚了,"以去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上webUI的编辑调试环境,以及web任务监控,即成为了这套框架。
在
pyspider
中由scheduler
负责任务调度,fetcher
和processor
负责数据抓取和解析输出。除了scheduler
是单点部署,fetcher
、processor
和webui
都可以多实例分布式部署。因此我们可以将scheduler
部署在一台机器上,负责所有爬虫任务的调度,fetcher
和processor
部署到其他机器进行数据抓取和解析输出。
2. 构建pyspider镜像
事实上作者在DockerHub上提供了基于python2的镜像,因为有项目需要我就重新构建了基于python3的镜像,并引入一些自己的类库。DockerFile如下:
FROM python:3.6
MAINTAINER LieFeng "buqx@foxmail.com"
# copy自己的一些代码到环境中
#$COPY . /spider
#WORKDIR /spider
# install phantomjs
RUN mkdir -p /opt/phantomjs \
&& cd /opt/phantomjs \
&& wget -O phantomjs.tar.bz2 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 \
&& tar xavf phantomjs.tar.bz2 --strip-components 1 \
&& ln -s /opt/phantomjs/bin/phantomjs /usr/local/bin/phantomjs \
&& rm phantomjs.tar.bz2
RUN ["pip","install","wsgidav==2.4.1"]
RUN ["pip","install","pyspider"]
RUN ["pip","install","sqlalchemy"]
RUN ["pip","install","redis"]
RUN ["pip","install","psycopg2"]
VOLUME ["/opt/pyspider"]
ENTRYPOINT ["pyspider"]
EXPOSE 5000 23333 24444 25555
build镜像,我把镜像命名为buqx/pyspider
,后面的部署都是基于这个镜像来做的。
3. 部署主节点
在部署说明里我们可以将scheduler
部署在一台机器上,负责所有爬虫任务的调度。这台机器我称为主节点,除了部署scheduler
之外,我还将pyspider
的project、task、result数据库和消息队列部署在这台机器上。
3.1 部署数据库和消息队列
pyspider有三个数据库(projectdb\taskdb\resultdb)和一个消息队列,数据库我使用了PostgreSQL,消息队列使用Redis。我们使用docker来部署它们。
-
为了使用统一的网络接口,我们首先使用docker 创建pyspider network。
$ docker network create --driver bridge pyspider
-
使用docker部署PostgreSQL,这里需要注意的是端口绑定的问题,postgres默认端口是5432,所以不管绑定到外部那个端口,docker容器内一定要使用5432端口,除非你手动修改了它
$ docker run --network=pyspider --name postgres \ -v ~/data/postgres/:/var/lib/postgresql/data \ -d -p $LOCAL_IP:5432:5432 -e POSTGRES_PASSWORD="" postgres
进入postgres容器,新建数据库用户spider,新建数据库:projectdb、taskdb和resultdb
-
使用docker部署Redis
$ docker run --network=pyspider --name redis -d -p 6379:6379 redis
3.2 部署scheduler
docker命令如下,其中buqx/pyspider
是我镜像名称,spider@192.168.34.203
是数据库用户名和机器的内网IP
$ docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always buqx/pyspider --taskdb "sqlalchemy+postgresql+taskdb://spider@192.168.34.203:5431/taskdb" --resultdb "sqlalchemy+postgresql+resultdb://spider@192.168.34.203:5431/resultdb" --projectdb "sqlalchemy+postgresql+projectdb://spider@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1" scheduler --inqueue-limit 5000 --delete-time 43200
3.3 验证
完成上面的操作后,可以在主节点上看到启动了9个容器,如下图。
4. 子节点部署
我们通过docker-compose来编排fetcher
、webui
、processor
容器,docker-compose.yml文件如下:
version: "2"
services:
phantomjs:
image: 'buqx/pyspider:latest'
command: phantomjs
cpu_shares: 256
environment:
- 'EXCLUDE_PORTS=5000,23333,24444'
expose:
- '25555'
mem_limit: 256m
restart: always
phantomjs-lb:
image: 'dockercloud/haproxy:latest'
links:
- phantomjs
volumes:
- ~/docker/volumes/docker.sock:/var/run/docker.sock
restart: always
fetcher:
image: 'buqx/pyspider:latest'
command: '--message-queue "redis://192.168.34.203:6379/1" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc'
cpu_shares: 256
environment:
- 'EXCLUDE_PORTS=5000,25555,23333'
links:
- 'phantomjs-lb:phantomjs'
mem_limit: 256m
restart: always
fetcher-lb:
image: 'dockercloud/haproxy:latest'
links:
- fetcher
volumes:
- ~/docker/volumes/docker.sock:/var/run/docker.sock
restart: always
processor:
image: 'buqx/pyspider:latest'
command: '--projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1" processor'
cpu_shares: 256
mem_limit: 256m
restart: always
result-worker:
image: 'buqx/pyspider:latest'
command: '--taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb" --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" result-worker'
cpu_shares: 256
mem_limit: 256m
restart: always
webui:
image: 'buqx/pyspider:latest'
command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb" --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui --scheduler-rpc "http://192.168.34.203:23333/" '
cpu_shares: 256
environment:
- 'EXCLUDE_PORTS=24444,25555,23333'
ports:
- '5288:5000'
links:
- 'fetcher-lb:fetcher'
mem_limit: 256m
restart: always
networks:
default:
external:
name: pyspider
使用docker-compose up
启动所有容器,通过docker container ls
查看启动的容器,可以看到下图中的九容器正在运行(子节点机器上装了portainer
,图是从portainer截取的),访问http://子节点IP:5288/ 进入pyspider控制台。
5. 问题罗列(会不断补充)
-
self.crawl 添加 fetch_type=‘js’ 参数,出现
Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 188, in run_task result = self._run_task(task, response) File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 167, in _run_task response.raise_for_status() File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/response.py", line 190, in raise_for_status raise http_error HTTPError: 501 Server Error
解决:参考https://github.com/binux/pyspider/issues/432解决,修改compose file 在webui 的command 增加“--phantomjs-proxy "phantomjs:25555 ”
webui: image: 'buqx/pyspider:latest' command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb" --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui --scheduler-rpc "http://192.168.34.203:23333/" ' cpu_shares: 256 environment: - 'EXCLUDE_PORTS=24444,25555,23333' ports: - '5288:5000' links: - 'fetcher-lb:fetcher' mem_limit: 256m restart: always