「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(上)(34)

原创文章,欢迎转载。转载请注明:转载自IT人故事会,谢谢!
原文链接地址:「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(上)(34)

上次说了如果通过dockerfile创建docker的镜像,接下来老铁们咱们通过创建好的镜像,创建容器,并且将代码映射到容器当中去,最终完成多任务端app抓取系统。源码:https://github.com/limingios/dockerpython.git (源码/「docker实战篇」python的docker-docker系统管理-基础概念(27))

任务需求详解

需要抓取三款应用的抖音,快手,今日头条,具体需要抓取的内容

1.抓取抖音当前视频的作者数据
2.抓取快手当前视频的作者数据
3.抓取今日头条推荐板块新闻

  • 代码部分--python-appium-docker源码里面有

python执行python部分的代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/3/18 20:31
# @Author  : Aries
# @Site    : 
# @File    : handle_appium_docker.py
# @Software: PyCharm

import multiprocessing
import time
from appium import webdriver
from selenium.webdriver.support.wait import  WebDriverWait

def get_size(driver):
    x = driver.get_window_size()['width']
    y = driver.get_window_size()['height']
    return (x, y)

def handle_appium(info):
    cap = {
        "platformName": "Android",
        "platformVersion": "4.4.2",
        "deviceName":info['device'],
        "udid": info['device'],
        "appPackage": info['appPackage'],
        "appActivity": info['appActivity'],
        "noReset": True,
        "unicodeKeyboard": True,
        "resetkeyboard": True
    }
    driver = webdriver.Remote("http://192.168.199.140:" + str(info["port"]) + "/wd/hub", cap)

    l = get_size(driver)
    x1 = int(l[0] * 0.5)
    y1 = int(l[1] * 0.15)
    y2 = int(l[1] * 0.9)

    #抖音
    if info["appPackage"] == "com.ss.andrpid.ugc.aweme":
        #根据实际的我这里直接写//android,通过
        if WebDriverWait(driver,60).until(lambda x:x.find_element_by_xpath("//android")):
            while True:
                # 初始鼠标位置,从哪里开始,结束时鼠标位置,到哪里结束
                driver.swipe(x1,y1,x1,y2)
                time.sleep(3)

    #快手
    if info["appPackage"] == "com.smile.gifmaker":
        # 根据实际的我这里直接写//android
        if WebDriverWait(driver, 60).until(lambda x: x.find_element_by_xpath("//android")):
            while True:
                # 初始鼠标位置,从哪里开始,结束时鼠标位置,到哪里结束
                driver.swipe(x1, y1, x1, y2)
                time.sleep(3)

    #快手
    if info["appPackage"] == "com.ss.android.article.news":
        # 根据实际的我这里直接写//android
        if WebDriverWait(driver, 60).until(lambda x: x.find_element_by_xpath("//android")):
            while True:
                #初始鼠标位置,从哪里开始,结束时鼠标位置,到哪里结束
                driver.swipe(x1, y1, x1, y2)
                time.sleep(3)

if __name__ =='__main__':
    m_list = []
    devices_list = [
        {
                "device": "192.168.199.133:5555",
                "appPackage": "com.ss.android.ugc.aweme",
                "appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
                "port": 4723,
                "key": '抖音'
        },
        {
                "device": "192.168.199.133:5555",
                "appPackage": "com.smile.gifmaker",
                "appActivity": "com.yxcorp.gifshow.HomeActivity",
                "port": 4725,
                "key": '快手'
        },
        {
                "device": "192.168.199.133:5555",
                "appPackage": "com.ss.android.article.news",
                "appActivity": "com.ss.android.article.news.activity.SplashBadgeActivity",
                "port": 4727,
                "key": '今日头条'
        }
    ]

for device in (devices_list):
    m_list.append(multiprocessing.Process(target=handle_appium,args=(device,)))

for m1 in m_list:
    m1.start()
  • 代码部分--decode_data源码里面有

python执行python部分的代码 通过mitmdump 获取数据保存在mongodb中。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/3/18 19:57
# @Author  : Aries
# @Site    : 
# @File    : decode_data.py
# @Software: PyCharm

import json
from handle_mongo import mongo_info


def response(flow):
    #抖音
    if 'aweme.snssdk.com/aweme/v1/feed' in flow.request.url:
        douyin_data_dict = json.loads(flow.response.text)
        for douyin_item in douyin_data_dict['aweme_list']:
            mongo_info.insert_item(douyin_item)

    #快手
    elif 'api.gifshow.com/rest/n/feed/hot' in  flow.request.url:
        kuaishou_data_dict = json.loads(flow.response.text)
        for kuaishou_item in kuaishou_data_dict['feeds']:
            mongo_info.insert_item(kuaishou_item)

    #今日头条
    elif 'is.snssdk.com/api/news/feed' in flow.request.url:
        jrtt_data_dict = json.loads(flow.response.text)
        for kuaishou_item in jrtt_data_dict['feeds']:
            mongo_info.insert_item(kuaishou_item)

部署工作

python 爬虫获取信息其实不难,最难的是部署环境上。

  • 虚拟机直接用vagrant的方式

源码里面包括vagrant文件,想了解如何使用可以查看我的中级文章讲解很详细

  • 镜像下载

下载mongodb的镜像,Appium的镜像,zhugeaming/python3-appium的镜像

1.mongodb的镜像

mkdir bitnami
cd bitnami
mkdir mongodb
docker run -d -v /path/to/mongodb-persistence:/root/bitnami -p 27017:27017 bitnami/mongodb:latest

2.Appium的镜像

docker search appium
#比较大1个多g,因为之前已经设置了加速器,根据自身的网速来进行下载。
docker pull appium/appium

3.zhugeaming/python3-appium的镜像

docker pull zhugeaming/python3-appium
  • 网络连接

之前在【「docker实战篇」python的docker-创建appium容器以及设置appium容器连接安卓模拟器(30)】里面说过一种比较变态的方法,让安卓模拟器连接虚拟机内部的dockerapium,但是这种适合vagrant的。建议还用这种吧已经验证了。

1.vagrant创建的虚拟机都是通过virtual box


2.设置共享文件夹


这是windows的环境下

3.在虚拟机挂载,将共享的文件夹挂载到虚拟机里面来

记住这个共享文件夹的名称叫handle_docker

mkdir docker
cd docker
sudo yum update && sudo yum -y install kernel-headers kernel-devel
sudo mount -t vboxsf handle_docker /root/docker/

PS:基本文件都挂载好了,已经很晚了,下次咱们继续把环境跑起来。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 一杯敬过往, 唇齿品迷茫。 行为言辞间, 弥漫透悲凉。 ——记于深秋的夜晚
    瑠騮畱鏐六六阅读 126评论 0 0
  • 周星驰的电影说实话,原来没觉得好看,或者觉得好看也没觉得到膜拜的地步,不过确实带来了很多的欢乐,《济公》《苏乞儿》...
    IT阿土阅读 330评论 0 4
  • 我们每个人每天都必须要做一件事情,那就是解决问题。那为什么同一件事,不同的人去处理结果会不同呢?因为思维模式不同,...
    海豚王阅读 1,766评论 0 11