【英雄联盟】Python爬取捞月狗数据——想要什么数据随你定

本文用Python从捞月狗网站上面抓取国服各区及外服王者数据信息,然后用R软件进行数据初探及浅析。旨在发现数据后面的有趣的东西!爱生活,爱数据!

Python爬取捞月狗数据

要抓取的数据如下图所示:

主要包括王者游戏ID,所在区服,胜点,胜场,负场,胜率,最近状态,擅长位置,本命英雄等。由于捞月狗的数据是每天更新的,所以不同时间爬取数据可能会有所不同。

所用的Python代码如下:

导入所需要的模块:

import requests import re import pandas as pd

设置头部信息:

head={'User-Agent':'你自己的头部信息'}

设置正则来获取国服王者信息:

rem=re.compile(r'class="subStrTitle">(.*?).*?server">(.*?).*?class="icon-dan">(.*?).*?(.*?)(.*?)<.*?\t/.*?(.*?)(.*?).*?"percentage">(.*?).*?/score/(.*?).png.*?color-zhongdan">(.*?).*?alt="(.*?)"/>.*?alt="(.*?)"/>.*?alt="(.*?)"/>',re.S)

外服正则用于获取外服王者信息:

reh=re.compile(r'(.*?).*?player-server">(.*?).*?(.*?).*?(.*?)(.*?).*?.*?(.*?)(.*?).*?"percentage">(.*?).*?score/(.*?).png.*?"color-zhongdan">(.*?).*?src="(.*?)">.*?src="(.*?)">.*?src="(.*?)">',re.S)

获取国服对应的战区,存放在zhanqu_list_cn中:

url_cn='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.html?region=cn&area=1' html_cn = requests.get(url_cn,headers = head) reg=re.compile(r'class="cn-li.*?href="(.*?)">',re.S) zhanqu_list_cn=re.findall(reg,html_cn.text)#国服战区

获取外服对应的战区,存放在zhanqu_list_en中:

url_en='http://www.laoyuegou.com/x/zh-cn/lol/lol/godrank.html?region=foreign&area=kr' html_en = requests.get(url_en,headers = head) ren=re.compile(r'class=" foreign-li.*?href="(.*?)">',re.S) zhanqu_list_en=re.findall(ren,html_en.text)

定义下载中国战区数据的函数:

def updown_cn(zhanqu_list_cn): for zhanqu in zhanqu_list_cn: for m in range(1,11): url=zhanqu+'&page='+str(m) im = requests.get(url,headers = head) if im.status_code == 200: data=re.findall(rem,im.text) #得到数据rem代表国服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式 data=

定义下载外服战区数据的函数:

def updown_en(zhanqu_list_en): for zhanqu in zhanqu_list_en: for m in range(1,11): url=zhanqu+'&page='+str(m) im = requests.get(url,headers = head) if im.status_code == 200: data=re.findall(reh,im.text) #得到数据reh代表外服数据 data=pd.DataFrame(data) data.to_csv('/home/wajuejiprince/文档/LOLDT/LOLDT.csv', header=False, index=False,mode='a+')#写入csv文件,'a+'是追加模式 data=

下载数据:

updown_cn(zhanqu_list_cn) #下载中国战区数据 updown_en(zhanqu_list_en) #下载外服战区数据

下载下来的数据保存格式是CSV格式,内容如下图所示:

经过翻看数据,只找到几条格式异常数据(已经手动删除)。

R语言数据初探

下面用R软件来分析数据,看看能否发现一些有趣的事情!

导入分析是要用的R语言程序包:

library(data.table) library(plotly) library(magrittr) library(wordcloud2)

导入数据:

dt=fread(file.choose)

国服数据:

dt_cn=dt[1:2500] #也就是前2500个

外服数据:

dt_en=dt[2501:4480]

各个战区王者数量(国服):

>dt_cn[,.(.N),by=.(所在战区)] 所在战区 N 1: 艾欧尼亚 90 2: 祖安 80 3: 诺克萨斯 80 4: 班德尔城 90 5: 皮尔特沃夫 90 ................... 25: 扭曲丛林 99 26: 教育网专区 25 27: 巨龙之巢 90 28: 男爵领域 90 29: 峡谷之巅 80 所在战区 N

概览数据(国服):

>summary(dt_cn[,.(.N),by=.(所在战区)]) 所在战区 N Length:29 Min. : 25.00 Class :character 1st Qu.: 80.00 Mode :character Median : 90.00 Mean : 86.21 3rd Qu.: 90.00 Max. :100.00 #王者最少的区 > dt_cn[,.(.N),by=.(所在战区)][N==25] 所在战区 N 1: 教育网专区 25 #王者有100人的区(最多也就100人) > dt_cn[,.(.N),by=.(所在战区)][N==100] 所在战区 N 1: 均衡教派 100 2: 守望之海 100

外服王者数量:

plot_ly(dt_en[,.(.N),by=.(所在战区)],x=~所在战区,y=~N,type="bar")

外服王者数量较多(相对于国服一个区),可能原因是有的外服就一个服务器,比如韩国,另外也和捞月狗统计的数据有关.

国服各区平均胜点:

dt_cn[,.(mean=mean(胜点)),by=.(所在战区)]

这里并不能看出艾欧尼亚是最强的战区。

王者平常都是处于什么游戏状态:

wordcloud2(dt_cn[,.(.N),by=.(最近状态)])

英雄联盟的评价等级是这样递增的D-,D,D+;C-,C,C+;B-,B,B+;A-,A,A+;S-,S,S+!大部分王者的最近状态往往都是S级别的状态。可惜的是该数据集中没有其他段位的数据,如果有的话还可以比较一下各个段位玩家的平时的游戏状态。

王者擅长的位置:

各个大区的王者比较喜欢打野和上单的位置。这两个位置也是英雄联盟中承受伤害比较多的位置,也可以说他们可能更倾向于玩"肉"一点的英雄吧。这样的英雄也是在职业联赛中经常说的容错率比较高。换句话说也就是:又肉又有输出型的英雄。

王者玩家本命英雄(当前版本2017.08.05):

#由于在爬去数据的时候有的本命英雄不是我们预想的,在这里将其删除(也就3~4个). dt_all=fread(file.choose) dt_cn<-dt_all[1:2497] dt_1<-dt_cn[,本命英雄1] dt_2<-dt_cn[,本命英雄2] dt_3<-dt_cn[,本命英雄3] all_hero<-c(dt_1,dt_2,dt_3) #所有的英雄 table(all_hero)%>%data.frame%>%wordcloud2(shape='star') #以星型方式绘制云图。

不愧是王者玩家,玩盲僧这样”骚气“操作的英雄。。。。。。(由于外服的本命英雄在爬取的时候爬到的都是一些图片链接,不方便可视化,所以以上云图不含外服数据)

总结:

朋友们听我一句劝,放下游戏吧, 出去走走, 读几页自己喜欢的书,去自己喜欢的地方走走,陪陪喜欢的人,晚上无聊的时候 约几个朋友出去喝喝茶,聊聊天, 真的一天下来,你会发现还是玩游戏有意思!

大家有一起开黑的,在下方评论出来哦。嗯~想要学习Python的可以加我上我的QQ群688134818,老司机来开车啊。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容

  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,027评论 0 2
  • 北京2018年4月1日上午,NBA常规赛勇士客战国王的比赛中,发生了令人痛心不已的一幕。比赛进行到第三节还有41...
    Curry_宇阅读 1,172评论 1 1
  • 春来是个颇具仪式感的姑娘,她会在第一缕光亮透过窗户的时候起床,洗漱,换衣。开始做早餐,餐桌一定要摆正,桌布一定要是...
    陸月阅读 300评论 0 0
  • 一个人 , 如果心里有一座监牢,你到哪里都是被禁锢 不知道为什么 我的心好像被束缚着 很难受 总是得不到自己想要的...
    有爱有钱有欢乐阅读 264评论 0 0
  • 在这个自我营销盛行的当下,人们展示才能的方式越来越多样,也越来越容易。 写文章可以,唱歌的也可以,录制视频或者是做...
    沐亦阅读 360评论 3 1