分布式部署pyspider

0. 引言

pyspider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

最近有项目需要爬虫支撑,需要抓取的站点繁多,但数据量较小,决定使用pyspider来做数据抓取。考虑到单机性能和可用性问题,最后使用Docker分布式部署了pyspider,到目前为止的半年时间里运行良好。本文主要介绍一下我搭建流程,以及遇到的问题以及解决办法。

1. 部署说明

pyspider的框架设计在官方文档中已经介绍的很清楚了,"以去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上webUI的编辑调试环境,以及web任务监控,即成为了这套框架。

pyspider架构设计图.png

pyspider中由scheduler负责任务调度,fetcherprocessor负责数据抓取和解析输出。除了scheduler是单点部署,fetcherprocessorwebui都可以多实例分布式部署。因此我们可以将scheduler部署在一台机器上,负责所有爬虫任务的调度,fetcherprocessor部署到其他机器进行数据抓取和解析输出。

2. 构建pyspider镜像

事实上作者在DockerHub上提供了基于python2的镜像,因为有项目需要我就重新构建了基于python3的镜像,并引入一些自己的类库。DockerFile如下:


FROM python:3.6

MAINTAINER LieFeng  "buqx@foxmail.com"

# copy自己的一些代码到环境中

#$COPY  . /spider

#WORKDIR /spider

# install phantomjs

RUN mkdir -p /opt/phantomjs \

    && cd /opt/phantomjs \

    && wget -O phantomjs.tar.bz2 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 \

    && tar xavf phantomjs.tar.bz2 --strip-components 1 \

    && ln -s /opt/phantomjs/bin/phantomjs /usr/local/bin/phantomjs \

    && rm phantomjs.tar.bz2

RUN ["pip","install","wsgidav==2.4.1"]

RUN ["pip","install","pyspider"]

RUN ["pip","install","sqlalchemy"]

RUN ["pip","install","redis"]

RUN ["pip","install","psycopg2"]

VOLUME ["/opt/pyspider"]

ENTRYPOINT ["pyspider"]

EXPOSE 5000 23333 24444 25555

build镜像,我把镜像命名为buqx/pyspider,后面的部署都是基于这个镜像来做的。

3. 部署主节点

在部署说明里我们可以将scheduler部署在一台机器上,负责所有爬虫任务的调度。这台机器我称为主节点,除了部署scheduler之外,我还将pyspider的project、task、result数据库和消息队列部署在这台机器上。

3.1 部署数据库和消息队列

pyspider有三个数据库(projectdb\taskdb\resultdb)和一个消息队列,数据库我使用了PostgreSQL,消息队列使用Redis。我们使用docker来部署它们。

  • 为了使用统一的网络接口,我们首先使用docker 创建pyspider network。

    
    $ docker network create --driver bridge pyspider
    
    
  • 使用docker部署PostgreSQL,这里需要注意的是端口绑定的问题,postgres默认端口是5432,所以不管绑定到外部那个端口,docker容器内一定要使用5432端口,除非你手动修改了它

    
    $ docker run --network=pyspider  --name postgres  \
    
      -v ~/data/postgres/:/var/lib/postgresql/data  \
    
      -d -p $LOCAL_IP:5432:5432 -e POSTGRES_PASSWORD="" postgres
    
    
  • 进入postgres容器,新建数据库用户spider,新建数据库:projectdb、taskdb和resultdb

  • 使用docker部署Redis

    
    $ docker run --network=pyspider --name redis -d -p 6379:6379 redis
    
    

3.2 部署scheduler

docker命令如下,其中buqx/pyspider 是我镜像名称,spider@192.168.34.203是数据库用户名和机器的内网IP


$ docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always buqx/pyspider  --taskdb "sqlalchemy+postgresql+taskdb://spider@192.168.34.203:5431/taskdb" --resultdb "sqlalchemy+postgresql+resultdb://spider@192.168.34.203:5431/resultdb" --projectdb "sqlalchemy+postgresql+projectdb://spider@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1"  scheduler --inqueue-limit 5000 --delete-time 43200

3.3 验证

完成上面的操作后,可以在主节点上看到启动了9个容器,如下图。


image-主节点启动容器示例图.png

4. 子节点部署

我们通过docker-compose来编排fetcherwebuiprocessor容器,docker-compose.yml文件如下:


version: "2"

services:

  phantomjs:

    image: 'buqx/pyspider:latest'

    command: phantomjs

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,23333,24444'

    expose:

      - '25555'

    mem_limit: 256m

    restart: always

  phantomjs-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - phantomjs

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  fetcher:

    image: 'buqx/pyspider:latest'

    command: '--message-queue "redis://192.168.34.203:6379/1" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc'

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,25555,23333'

    links:

      - 'phantomjs-lb:phantomjs'

    mem_limit: 256m

    restart: always

  fetcher-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - fetcher

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  processor:

    image: 'buqx/pyspider:latest'

    command: '--projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1" processor'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  result-worker:

    image: 'buqx/pyspider:latest'

    command: '--taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" result-worker'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  webui:

    image: 'buqx/pyspider:latest'

    command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=24444,25555,23333'

    ports:

      - '5288:5000'

    links:

      - 'fetcher-lb:fetcher'

    mem_limit: 256m

    restart: always

networks:

  default:

    external:

      name: pyspider

使用docker-compose up启动所有容器,通过docker container ls查看启动的容器,可以看到下图中的九容器正在运行(子节点机器上装了portainer,图是从portainer截取的),访问http://子节点IP:5288/ 进入pyspider控制台。

image-子节点启动容器示例.png

5. 问题罗列(会不断补充)

  • self.crawl 添加 fetch_type=‘js’ 参数,出现

    
    Traceback (most recent call last):
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 188, in run_task
    
            result = self._run_task(task, response)
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 167, in _run_task
    
            response.raise_for_status()
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/response.py", line 190, in raise_for_status
    
            raise http_error
    
        HTTPError: 501 Server Error
    
    

    解决:参考https://github.com/binux/pyspider/issues/432解决,修改compose file 在webui 的command 增加“--phantomjs-proxy "phantomjs:25555 ”

    
    webui:
    
        image: 'buqx/pyspider:latest'
    
        command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:123@192.168.34.203:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:123@192.168.34.203:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:123@192.168.34.203:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '
    
        cpu_shares: 256
    
        environment:
    
          - 'EXCLUDE_PORTS=24444,25555,23333'
    
        ports:
    
          - '5288:5000'
    
        links:
    
          - 'fetcher-lb:fetcher'
    
        mem_limit: 256m
    
        restart: always
    
    
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容