Scrapy+Selenium+Headless Chrome的Google Play爬虫

前言

  • 展示如何使用Scrapy爬取静态数据和Selenium+Headless Chrome爬取JS动态生成的数据,从而爬取完整的Google Play印尼市场的应用数据。
  • 注意不同国家的数据格式不一样,解析的方法也不一样。如果爬取其他国家市场的应用数据,需要修改解析数据的代码(在下文的GooglePlaySpider.py文件中)。
  • 项目的运行环境:
  • 运行平台:macOS
  • Python版本:3.6
  • IDE:Sublime Text

安装

通过Scrapy创建项目

  • $ scrapy startproject gp

定义爬虫数据Item

  • items.py文件添加:

    # 产品
    class ProductItem(scrapy.Item):
        gp_icon = scrapy.Field()  # 图标
        gp_name = scrapy.Field()  # GP名称
        // ...
    
    # 评论
    class GPReviewItem(scrapy.Item):
        avatar_url = scrapy.Field()  # 头像链接
        user_name = scrapy.Field()  # 用户名称
        // ...
    

创建爬虫

  • spiders文件夹创建GooglePlaySpider.py:

    import scrapy
    from gp.items import ProductItem, GPReviewItem
    
    
    class GooglePlaySpider(scrapy.Spider):
        name = 'gp'
        allowed_domains = ['play.google.com']
    
        def __init__(self, *args, **kwargs):
            urls = kwargs.pop('urls', [])  # 获取参数
            if urls:
                self.start_urls = urls.split(',')
            print('start urls = ', self.start_urls)
    
        def parse(self, response):
            print('Begin parse ', response.url)
    
            item = ProductItem()
    
            content = response.xpath('//div[@class="LXrl4c"]')
    
            try:
                item['gp_icon'] = response.urljoin(content.xpath('//img[@class="T75of ujDFqe"]/@src')[0].extract())
            except Exception as error:
                exception_count += 1
                print('gp_icon except = ', error)
                item['gp_icon'] = ''
    
            try:
                item['gp_name'] = content.xpath('//h1[@class="AHFaub"]/span/text()')[0].extract()
            except Exception as error:
                exception_count += 1
                print('gp_name except = ', error)
                item['gp_name'] = ''
            
            // ...
                
            yield item
    
  • 运行爬虫:

    $ scrapy crawl gp -a urls='https://play.google.com/store/apps/details?id=id.danarupiah.weshare.jiekuan&hl=id'

  • 评论数据:

    'gp_review': []
    
  • 获取不到评论数据的原因是:评论数据是通过JS代码动态生成的,所以需要模拟浏览器请求网页获取。

通过Selenium+Headless Chrome获取评论数据

  • 在最里面的gp文件夹创建配置文件configs.py并添加浏览器路径:

    # 浏览器路径
    CHROME_PATH = r''  # 可以指定绝对路径,如果不指定的话会在$PATH里面查找
    CHROME_DRIVER_PATH = r''  # 可以指定绝对路径,如果不指定的话会在$PATH里面查找
    
  • middlewares.py文件创建ChromeDownloaderMiddleware:

    from scrapy.http import HtmlResponse
    from selenium import webdriver
    from selenium.common.exceptions import TimeoutException
    from gp.configs import *
    
    
    class ChromeDownloaderMiddleware(object):
    
        def __init__(self):
            options = webdriver.ChromeOptions()
            options.add_argument('--headless')  # 设置无界面
            if CHROME_PATH:
                options.binary_location = CHROME_PATH
            if CHROME_DRIVER_PATH:
                self.driver = webdriver.Chrome(chrome_options=options, executable_path=CHROME_DRIVER_PATH)  # 初始化Chrome驱动
            else:
                self.driver = webdriver.Chrome(chrome_options=options)  # 初始化Chrome驱动
    
        def __del__(self):
            self.driver.close()
    
        def process_request(self, request, spider):
            try:
                print('Chrome driver begin...')
                self.driver.get(request.url)  # 获取网页链接内容
                return HtmlResponse(url=request.url, body=self.driver.page_source, request=request, encoding='utf-8',
                                    status=200)  # 返回HTML数据
            except TimeoutException:
                return HtmlResponse(url=request.url, request=request, encoding='utf-8', status=500)
            finally:
                print('Chrome driver end...')
    
  • settings.py文件添加:

    DOWNLOADER_MIDDLEWARES = {
       'gp.middlewares.ChromeDownloaderMiddleware': 543,
    }
    
  • 再次运行爬虫:

    $ scrapy crawl gp -a urls='https://play.google.com/store/apps/details?id=id.danarupiah.weshare.jiekuan&hl=id'

  • 评论数据:

    'gp_review': [{'avatar_url': 'https://lh3.googleusercontent.com/-RZM2NdsDoWQ/AAAAAAAAAAI/AAAAAAAAAAA/ACLGyWCJIbUq9MxjbT2dmsotE2knI_t1xQ/s48-c-rw-mo/photo.jpg',
     'rating_star': '5',
     'review_text': 'Euis Suharani',
     'user_name': 'Euis Suharani'},
                   {'avatar_url': 'https://lh3.googleusercontent.com/-ppBNQHj5SUs/AAAAAAAAAAI/AAAAAAAAAAA/X8z6OBBBnwc/s48-c-rw/photo.jpg',
     'rating_star': '3',
     'review_text': 'Pengguna Google',
     'user_name': 'Pengguna Google'},
                   {'avatar_url': 'https://lh3.googleusercontent.com/-lLkaJ4GjUhY/AAAAAAAAAAI/AAAAAAAABfA/UPoS4CbDOpQ/s48-c-rw/photo.jpg',
     'rating_star': '5',
     'review_text': 'novi anna',
     'user_name': 'novi anna'},
                   {'avatar_url': 'https://lh3.googleusercontent.com/-XZDMrSc_pxE/AAAAAAAAAAI/AAAAAAAAAAA/awl5OkP7uR4/s48-c-rw/photo.jpg',
     'rating_star': '4',
     'review_text': 'Pengguna Google',
     'user_name': 'Pengguna Google'}]
    

使用sqlalchemy操作MySQL

  • 在配置文件configs.py添加数据库连接信息:

    # 数据库连接信息
    DATABASES = {
        'DRIVER': 'mysql+pymysql',
        'HOST': '127.0.0.1',
        'PORT': 3306,
        'NAME': 'gp',
        'USER': 'root',
        'PASSWORD': 'root',
    }
    
  • 在最里面的gp文件夹创建数据库连接文件connections.py

    from sqlalchemy.ext.declarative import declarative_base
    from sqlalchemy import create_engine
    from sqlalchemy.orm import sessionmaker
    from sqlalchemy_utils import database_exists, create_database
    from gp.configs import *
    
    # sqlalchemy model 基类
    Base = declarative_base()
    
    
    # 数据库连接引擎,用来连接数据库
    def db_connect_engine():
        engine = create_engine("%s://%s:%s@%s:%s/%s?charset=utf8"
                               % (DATABASES['DRIVER'],
                                  DATABASES['USER'],
                                  DATABASES['PASSWORD'],
                                  DATABASES['HOST'],
                                  DATABASES['PORT'],
                                  DATABASES['NAME']),
                               echo=False)
    
        if not database_exists(engine.url):
            create_database(engine.url)  # 创建库
            Base.metadata.create_all(engine)  # 创建表
    
        return engine
    
    
    # 数据库会话,用来操作数据库表
    def db_session():
        return sessionmaker(bind=db_connect_engine())
    
    
  • 在最里面的gp文件夹创建sqlalchemy model文件models.py

    from sqlalchemy import Column, ForeignKey
    from sqlalchemy.dialects.mysql import TEXT, INTEGER
    from sqlalchemy.orm import relationship
    from gp.connections import Base
    
    
    class Product(Base):
        # 表的名字:
        __tablename__ = 'product'
    
        # 表的结构:
        id = Column(INTEGER, primary_key=True, autoincrement=True)  # ID
        updated_at = Column(INTEGER)  # 最后一次更新时间
    
        gp_icon = Column(TEXT)   # 图标
        gp_name = Column(TEXT)  # GP名称
        // ...
    
    
    class GPReview(Base):
        # 表的名字:
        __tablename__ = 'gp_review'
    
        # 表的结构:
        id = Column(INTEGER, primary_key=True, autoincrement=True)  # ID
        product_id = Column(INTEGER, ForeignKey(Product.id))
        avatar_url = Column(TEXT)   # 头像链接
        user_name = Column(TEXT)  # 用户名称
        // ...
    
  • pipelines.py文件添加数据库操作代码:

    from gp.connections import *
    from gp.items import ProductItem
    from gp.models import *
    
    
    class GoogleplayspiderPipeline(object):
    
        def __init__(self):
            self.session = db_session()
    
        def process_item(self, item, spider):
            print('process item from gp url = ', item['gp_url'])
    
            if isinstance(item, ProductItem):
    
                session = self.session()
    
                model = Product()
                model.gp_icon = item['gp_icon']
                model.gp_name = item['gp_name']
                // ...
    
                try:
                    m = session.query(Product).filter(Product.gp_url == model.gp_url).first()
    
                    if m is None:  # 插入数据
                        print('add model from gp url ', model.gp_url)
                        session.add(model)
                        session.flush()
                        product_id = model.id
                        for review in item['gp_review']:
                            r = GPReview()
                            r.product_id = product_id
                            r.avatar_url = review['avatar_url']
                            r.user_name = review['user_name']
                            // ...
    
                            session.add(r)
                    else:  # 更新数据
                        print("update model from gp url ", model.gp_url)
                        m.updated_at = item['updated_at']
                        m.gp_icon = item['gp_icon']
                        m.gp_name = item['gp_name']
                        // ...
    
                        product_id = m.id
                        session.query(GPReview).filter(GPReview.product_id == product_id).delete()
                        session.flush()
                        for review in item['gp_review']:
                            r = GPReview()
                            r.product_id = product_id
                            r.avatar_url = review['avatar_url']
                            r.user_name = review['user_name']
                            // ...
    
                            session.add(r)
    
                    session.commit()
                    print('spider_success')
                except Exception as error:
                    session.rollback()
                    print('gp error = ', error)
                    print('spider_failure_exception')
                    raise
                finally:
                    session.close()
            return item
    
  • settings.py文件的ITEM_PIPELINES注释打开:

    ITEM_PIPELINES = {
       'gp.pipelines.GoogleplayspiderPipeline': 300,
    }
    
  • 再次运行爬虫:

    $ scrapy crawl gp -a urls='https://play.google.com/store/apps/details?id=id.danarupiah.weshare.jiekuan&hl=id'

  • 查看MySQL数据库存储的爬虫数据:

    • 访问MySQL$ mysql -u root -p,输入密码:root
    • 列出所有数据库:mysql> show databases;,可以看到新建的gp
    • 访问gpmysql> use gp;
    • 列出所有的数据表:mysql> show tables;,可以看到新建的productgp_review
    • 查看产品数据:mysql> select * from product;
    • 查看评论数据:mysql> select * from gp_review;

完整项目代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容