python爬虫之Scrapy框架 + MongoDB,爬取CBA联盟所有球员基本信息

CBA联赛正进行得如火如荼,而20支CBA球队各自的阵容深度究竟几何?
Scrapy框架 + MongoDB,获取CBA中国男篮所有球队球员的基本信息,以便往后的数据分析使用。

开发环境

  • python3.7
  • Scrapy框架及其组件
  • json模块
  • pymongo模块

获取分析:

1.获取球队链接
获取球队链接的网页是通过Ajax技术异步加载得到。
通过抓包发现,所需的数据正是json格式,是理想中的情况。

#解析球队链接:
def parse(self, response):    
        club0 = json.loads(response.text)
        clubs = club0['data']
        baseurl = "https://api-all.9h-sports.com/cba-data/api/cba/v1/league/player-history?clubId={}"
        for oneclub in clubs:
            clubname = oneclub['name']
            clubid = oneclub['club_id']
            cluburl = baseurl.format(clubid)
            print (clubname + cluburl)
            yield scrapy.Request(url=cluburl,callback=self.parsecluburl,dont_filter=True,meta={'clubname':clubname}) 

2.进入各支球队URL链接页面,获取球队名单下所有球员的数据。
通过抓包发现,所需要的球员数据同样是通过Ajax技术异步加载得到,且数据格式也和上一个页面相同,还是json格式的数据。

#解析球员数据
def parsecluburl(self,response0):
        players0 = json.loads(response0.text)
        players = players0['data']
        for player in players:
...

                allitem = items.CbaplayerItem( 
                          playername = playername,
                          playernumber = playernumber,
                          playercountry = playercountry,
                          playerposition = playerposition,
                          playerheight = playerheight,
                          playerweight = playerweight,
                          playerbirth = playerbirth,
                          playerclub = playerclub
                          )
                yield allitem

最后将获取到的所有球员的数据通过pipelines组件存入MongoDB数据库。

#pipelines入库
import pymongo
import json

class CbaplayerPipeline(object):
    def __init__(self):
        self.conn = pymongo.MongoClient(host='127.0.0.1',port=27017) #连接数据库
        self.dbb = self.conn.cbaplayers #创建数据库
        self.dbbcc = self.dbb.cbaplayer0 #创建集合

    def process_item(self, item, spider):
        item = dict(item)
        self.dbbcc.insert(item)
        return item

结果展示:

广东集合!
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5? 答:HTML5是最新的HTML标准。 注意:讲述HT...
    kismetajun阅读 28,801评论 1 45
  • 面试题一:https://github.com/jimuyouyou/node-interview-questio...
    R_X阅读 1,758评论 0 5
  • 一:什么是闭包?闭包的用处? (1)闭包就是能够读取其他函数内部变量的函数。在本质上,闭包就 是将函数内部和函数外...
    xuguibin阅读 10,025评论 1 52
  • 塞北天寒山染霜,南方秋艳菊花黄。暮烟棹远渡溪浅,稻穗弯腰谷饱浆。雨打荷残魂坠落,风吹云倦雁横翔。莫为秋离怀怅望,保...
    涛头立阅读 933评论 0 1
  • 二宝四个月过两天了,还在享受妈妈的陪伴,享受纯天然的母乳,算是个幸福宝宝吧,虽然有时我陪他睡觉时会玩手机把手闹醒。...
    小丫屠阅读 341评论 0 0

友情链接更多精彩内容