分布式部署pyspider

0. 引言

pyspider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。

最近有项目需要爬虫支撑，需要抓取的站点繁多，但数据量较小，决定使用pyspider来做数据抓取。考虑到单机性能和可用性问题，最后使用Docker分布式部署了pyspider，到目前为止的半年时间里运行良好。本文主要介绍一下我搭建流程，以及遇到的问题以及解决办法。

1. 部署说明

pyspider的框架设计在官方文档中已经介绍的很清楚了，"以去重调度，队列，抓取，异常处理，监控等功能作为框架，提供给抓取脚本，并保证灵活性。最后加上webUI的编辑调试环境，以及web任务监控，即成为了这套框架。

pyspider架构设计图.png

在pyspider中由scheduler负责任务调度，fetcher和processor负责数据抓取和解析输出。除了scheduler是单点部署，fetcher、processor和webui都可以多实例分布式部署。因此我们可以将scheduler部署在一台机器上，负责所有爬虫任务的调度，fetcher和processor部署到其他机器进行数据抓取和解析输出。

2. 构建pyspider镜像

事实上作者在DockerHub上提供了基于python2的镜像，因为有项目需要我就重新构建了基于python3的镜像，并引入一些自己的类库。DockerFile如下：


FROM python:3.6

MAINTAINER LieFeng  "buqx@foxmail.com"

# copy自己的一些代码到环境中

#$COPY  . /spider

#WORKDIR /spider

# install phantomjs

RUN mkdir -p /opt/phantomjs \

    && cd /opt/phantomjs \

    && wget -O phantomjs.tar.bz2 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 \

    && tar xavf phantomjs.tar.bz2 --strip-components 1 \

    && ln -s /opt/phantomjs/bin/phantomjs /usr/local/bin/phantomjs \

    && rm phantomjs.tar.bz2

RUN ["pip","install","wsgidav==2.4.1"]

RUN ["pip","install","pyspider"]

RUN ["pip","install","sqlalchemy"]

RUN ["pip","install","redis"]

RUN ["pip","install","psycopg2"]

VOLUME ["/opt/pyspider"]

ENTRYPOINT ["pyspider"]

EXPOSE 5000 23333 24444 25555

build镜像，我把镜像命名为buqx/pyspider，后面的部署都是基于这个镜像来做的。

3. 部署主节点

在部署说明里我们可以将scheduler部署在一台机器上，负责所有爬虫任务的调度。这台机器我称为主节点，除了部署scheduler之外，我还将pyspider的project、task、result数据库和消息队列部署在这台机器上。

3.1 部署数据库和消息队列

pyspider有三个数据库（projectdb\taskdb\resultdb）和一个消息队列，数据库我使用了PostgreSQL，消息队列使用Redis。我们使用docker来部署它们。

为了使用统一的网络接口，我们首先使用docker 创建pyspider network。
```
$ docker network create --driver bridge pyspider
```
使用docker部署PostgreSQL，这里需要注意的是端口绑定的问题，postgres默认端口是5432，所以不管绑定到外部那个端口，docker容器内一定要使用5432端口，除非你手动修改了它
```
$ docker run --network=pyspider  --name postgres  \

  -v ~/data/postgres/:/var/lib/postgresql/data  \

  -d -p $LOCAL_IP:5432:5432 -e POSTGRES_PASSWORD="" postgres
```
进入postgres容器，新建数据库用户spider，新建数据库：projectdb、taskdb和resultdb

使用docker部署Redis


$ docker run --network=pyspider --name redis -d -p 6379:6379 redis

3.2 部署scheduler

docker命令如下，其中buqx/pyspider 是我镜像名称，spider@192.168.34.203是数据库用户名和机器的内网IP


$ docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always buqx/pyspider  --taskdb "sqlalchemy+postgresql+taskdb://spider@192.168.34.203:5431/taskdb" --resultdb "sqlalchemy+postgresql+resultdb://spider@192.168.34.203:5431/resultdb" --projectdb "sqlalchemy+postgresql+projectdb://spider@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1"  scheduler --inqueue-limit 5000 --delete-time 43200

3.3 验证

完成上面的操作后，可以在主节点上看到启动了9个容器，如下图。

image-主节点启动容器示例图.png

4. 子节点部署

我们通过docker-compose来编排fetcher、webui、processor容器，docker-compose.yml文件如下：


version: "2"

services:

  phantomjs:

    image: 'buqx/pyspider:latest'

    command: phantomjs

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,23333,24444'

    expose:

      - '25555'

    mem_limit: 256m

    restart: always

  phantomjs-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - phantomjs

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  fetcher:

    image: 'buqx/pyspider:latest'

    command: '--message-queue "redis://192.168.34.203:6379/1" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc'

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,25555,23333'

    links:

      - 'phantomjs-lb:phantomjs'

    mem_limit: 256m

    restart: always

  fetcher-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - fetcher

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  processor:

    image: 'buqx/pyspider:latest'

    command: '--projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1" processor'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  result-worker:

    image: 'buqx/pyspider:latest'

    command: '--taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" result-worker'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  webui:

    image: 'buqx/pyspider:latest'

    command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=24444,25555,23333'

    ports:

      - '5288:5000'

    links:

      - 'fetcher-lb:fetcher'

    mem_limit: 256m

    restart: always

networks:

  default:

    external:

      name: pyspider

使用docker-compose up启动所有容器，通过docker container ls查看启动的容器，可以看到下图中的九容器正在运行(子节点机器上装了portainer，图是从portainer截取的），访问http://子节点IP:5288/ 进入pyspider控制台。

image-子节点启动容器示例.png

5. 问题罗列（会不断补充）

self.crawl 添加 fetch_type=‘js’ 参数，出现


Traceback (most recent call last):

      File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 188, in run_task

        result = self._run_task(task, response)

      File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 167, in _run_task

        response.raise_for_status()

      File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/response.py", line 190, in raise_for_status

        raise http_error

    HTTPError: 501 Server Error

解决：参考https://github.com/binux/pyspider/issues/432解决，修改compose file 在webui 的command 增加“--phantomjs-proxy "phantomjs:25555 ”


webui:

    image: 'buqx/pyspider:latest'

    command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=24444,25555,23333'

    ports:

      - '5288:5000'

    links:

      - 'fetcher-lb:fetcher'

    mem_limit: 256m

    restart: always