49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测

绝地求生介绍

相信很多都玩过绝地求生这款游戏,其游戏规则主要是将 100 名玩家空手被扔到一个岛上,这些玩家必须探索、寻找、消灭其他玩家,直到只剩下一个玩家活着。
绝地求生很受欢迎。这款游戏销量目前超过5000万份,是有史以来销量排名前五的游戏,每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。

导入数据并预览

首先安装实验需要的 statsmodels 包。

!pip install statsmodels==0.9.0

先导入数据并预览。本次实验同样来源于 Kaggle 上的一个竞赛:绝地求生排名预测 ,由于原始数据较大,我们只取了其中一部分的数据来进行分析。如果你想分析所有的数据可以去 下载原始数据
读取数据并预览前 5 行。

import pandas as pd

df = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1363/PUBG.csv')
df.head()

由上面的输出结果可知,数据主要由 29 列构成。我们所要预测的列为 winPlacePerc 。各列所表示的含义如下。
DBNOs - 击倒多少敌人
assists - 伤害过多少敌人(最终该敌人被队友杀害)
boosts - 使用过多少个提升性的物品 (boost items used)
damageDealt - 造成的总伤害-自己所受的伤害
headshotKills - 通过爆头而杀死的敌人数量
heals - 使用了多少救援类物品
Id - 玩家ID
killPlace - 杀死敌人数量的排名
killPoints - 基于杀戮的玩家外部排名。将其视为Elo排名,只有杀死才有意义。如果 rankPoints 中的值不是 -1,那么 killPoints 中的任何 0 都应被视为“无”。
killStreaks - 短时间内杀死敌人的最大数量
kills - 杀死的敌人的数量
longestKill - 玩家和玩家在死亡时被杀的最长距离。 这可能会产生误导,因为击倒一名球员并开走可能会导致最长的杀戮统计数据。
matchDuration - 匹配用了多少秒
matchId - 匹配的 ID(每一局一个 ID)
matchType - 单排/双排/四排;标准模式是 “solo”,“duo”,“squad”,“solo-fpp”,“duo-fpp”和“squad-fpp”; 其他模式来自事件或自定义匹配。
rankPoints - 类似 Elo 的玩家排名。 此排名不一致,并且在 API 的下一个版本中已弃用,因此请谨慎使用。值 -1 表示“无”。
revives - 玩家救援队友的次数
rideDistance - 玩家使用交通工具行驶了多少米
roadKills - 在交通工具上杀死了多少玩家
swimDistance - 游泳了多少米
teamKills - 该玩家杀死队友的次数
vehicleDestroys - 毁坏了多少交通工具
walkDistance - 步行运动了多少米
weaponsAcquired - 捡了多少把枪
winPoints - 基于赢的玩家外部排名。将其视为 Elo 排名,只有获胜才有意义。如果 kPoints 中的值不是 -1,那么 winPoints 中的任何 0 都应被视为“无”。
groupId - 队伍的 ID。 如果同一组玩家在不同的比赛中比赛,他们每次都会有不同的 GroupId。
numGroups - 在该局比赛中有玩家数据的队伍数量
maxPlace - 在该局中已有数据的最差的队伍名词(可能与该局队伍数不匹配,因为数据收集有跳跃)
winPlacePerc - 预测目标,是以百分数计算的,介于 0-1 之间,1 对应第一名,0 对应最后一名。 它是根据 maxPlace 计算的,而不是 numGroups ,因此匹配中可能缺少某些队伍。

现在查看一下数据的基本信息。

df.info()

由上可知,该数据集中不含有缺失值,查看数据描述。

df.describe()

数据可视化

由于我们所要预测的列为 winPlacePerc ,即排名情况,所以先来分析该列。先导入相关的画图工具。

import seaborn as sns
from matplotlib import pyplot as plt
%matplotlib inline
plt.style.use('fivethirtyeight')

winPlacePerc 列是系统给出的游戏排名,而 winPoints 是外部给出的游戏排名,现在画出这两列的数据分布图。

fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_figwidth(15)
sns.distplot(df['winPlacePerc'], ax=ax1)
sns.distplot(df['winPoints'], ax=ax2)
plt.show()

从上的结果可以看到,游戏排名似乎呈两极分化现象,0 和 1 两头的人数都相对多一点。
现在来看玩家击倒敌人的人数的情况。

train_dbno = pd.DataFrame(df['DBNOs'].value_counts(), columns=['DBNOs'])
dbno = train_dbno.iloc[:9, :]
dbno.iloc[8]['DBNOs'] = train_dbno.iloc[8:, :].sum()['DBNOs']
plt.figure(figsize=(14, 5))
sns.barplot(dbno.index, dbno.DBNOs)
plt.gca().set_xticklabels([0, 1, 2, 3, 4, 5, 6, 7, '8+'])
plt.gca().set_xlabel('No of enemy players knocked')
plt.gca().set_ylabel("count")
plt.show()
plt.savefig("enemy_")

从上图可以看到,许多玩家都是 0 击倒,说明大多数玩家水平可能还是处于初级阶段。我们来看一下,击倒敌人的数量是否与最后的排名有关。

f, ax1 = plt.subplots(figsize=(15, 5))
sns.pointplot(x='DBNOs', y='winPlacePerc', data=df, alpha=0.8)
plt.xlabel('Number of DBNOs', fontsize=15, color='blue')
plt.ylabel('Win Percentage', fontsize=15, color='blue')
plt.title('DBNOs / Win Ratio', fontsize=20, color='blue')
plt.grid()
plt.show()

从上图可以看到,击倒敌人的数量越多,排名也就越高。这说明,击倒敌人与排名有很大的关系。
现在看在一局游戏中,玩家自己所受到的伤害。

fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_figwidth(15)

sns.distplot(df['damageDealt'], ax=ax1)
sns.boxplot(df['damageDealt'], ax=ax2)
plt.show()

从上图可以看出,大多数人的受到的伤害在 0 到 500 之间。现在来看玩家受伤害值是否与排名有关系。

data = df.copy()
# 将伤害值分为 6 个部分。
data['damageDealt_rank'] = pd.cut(data['damageDealt'],
                                  [-1, 500, 1000, 1500, 2000, 2500, 60000],
                                  labels=['0_500', '500-1000', '1000-1500',
                                          '1500-2000', '2000-2500', '2500+'])

f, ax1 = plt.subplots(figsize=(14, 4))
sns.pointplot(x='damageDealt_rank', y='winPlacePerc', data=data, alpha=0.8)
plt.xlabel('damageDealtk', fontsize=15, color='blue')
plt.xticks(rotation=45)
plt.ylabel('Win Percentage', fontsize=15, color='blue')
plt.title('damageDealt / Win Ratio', fontsize=20, color='blue')
plt.grid()
plt.show()

从上图可以看到,玩家排名越靠前,所受到的伤害就越大。
现在来看杀死敌人的排名情况。

plt.figure()
sns.distplot(df['killPlace'], bins=50)
plt.show()

从上图可以看出,在杀死敌人排名中呈现均匀分布的现象。
现看一下杀死敌人的数量。

fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_figwidth(15)
sns.distplot(df['kills'], kde=False, ax=ax1)
sns.boxplot(df['kills'], ax=ax2)
plt.show()

从上图可以看到,大多数玩家杀死敌人的数量都不超过 5 个人。从右图看到,有个别玩家在游戏中杀死敌人的数量超多了 20 人。
我们可以分析一下,游戏玩家杀死敌人的数量与自己所受到的伤害的关系。

plt.figure()
sns.regplot(df['kills'].values, df['damageDealt'].values)
plt.gca().set_ylabel('Damage dealt')
plt.gca().set_xlabel('Total kills')
plt.show()

从上图可以看到,一个玩家杀死敌人的数量越多,自己所受到的伤害就越大,基本呈线性关系。现在分析一下玩家杀死敌人的数量与排名的关系。

data = df.copy()
# 将杀死敌人的数量分为 6 个部分。
data['kills_rank'] = pd.cut(data['kills'], [-1, 0, 2, 5, 10, 20, 60],
                            labels=['0_kills', '1-2_kills', '3-5_kills',
                                    '6-10_kills', '11-20_kills', '20+kills'])
plt.figure(figsize=(10, 4))
sns.boxplot(x='kills_rank', y='winPlacePerc', data=data)
plt.show()

从上图可以看到,玩家杀死敌人的数量越多,其最后的排名也就越高。
再来看一下玩家在游戏中,一枪爆头的个数。

fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_figwidth(15)
sns.distplot(df['headshotKills'], ax=ax1)
sns.boxplot(df['headshotKills'], ax=ax2)
plt.show()

从上图可看到,大多数玩家都没有一枪爆头。但在右图中,有个别玩家一枪爆头的数量到达了 8 人。现在看一下,爆头人数与排名之间的关系。

f, ax1 = plt.subplots(figsize=(14, 4))
sns.pointplot(x='headshotKills', y='winPlacePerc', data=df, alpha=0.8)
plt.xlabel('Number of headshotKills', fontsize=15, color='blue')
plt.ylabel('Win Percentage', fontsize=15, color='blue')
plt.title('headshotKills/ Win Ratio', fontsize=20, color='blue')
plt.grid()
plt.show()

可以查看一下短时间内杀死敌人的数量。

killstreak = pd.DataFrame(df['killStreaks'].value_counts())
killstreak.iloc[4] = killstreak.iloc[4:].sum()
killstreak = killstreak[:5]
sns.barplot(killstreak.index, killstreak['killStreaks'])

接下来简单看一下玩家在一局游戏中行走的距离。在游戏中,角色的移动主要通过步行、游泳、和使用交通工具。现在可以通过对三者相加来求出玩家行走的距离。

data = df.copy()
data['move'] = data['rideDistance']+data['swimDistance']+data['walkDistance']
sns.distplot(data['move'])

从上图可以看出,大多数玩家行走的距离都在 0 到 5000 区间。只有及其少部分玩家超过了 5000 。查看一下行走距离与排名之间的关系。

data = df.copy()
# 将距离划分为 6 个部分。
data['move'] = data['rideDistance']+data['swimDistance']+data['walkDistance']
data['move_rank'] = pd.cut(data['move'], [-1, 2000, 4000, 6000, 8000, 10000, 60000],
                           labels=['0_2000', '2000-4000', '4000-6000',
                                   '6000-8000', '8000-10000', '10000+'])
plt.figure(figsize=(10, 4))
sns.boxplot(x='move_rank', y='winPlacePerc', data=data)
plt.show()

从上图可以看出,玩家行走的距离越远,排名也就越高。
接下来来看捡枪的数量。

fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_figwidth(15)
sns.distplot(df['weaponsAcquired'], ax=ax1)
sns.boxplot(df['weaponsAcquired'], ax=ax2)

从上图可以看到,大多数玩家在游戏中捡枪的数量都没有超过 10 。但在右图中,有个别玩家捡枪的数量超过了 40。查看其与排名的关系。

f, ax1 = plt.subplots(figsize=(15, 5))
sns.pointplot(x='weaponsAcquired', y='winPlacePerc', data=df, alpha=0.8)
plt.xlabel('Number of weaponsAcquired', fontsize=15, color='blue')
plt.ylabel('Win Percentage', fontsize=15, color='blue')
plt.title('weaponsAcquired/ Win Ratio', fontsize=20, color='blue')
plt.grid()
plt.show()

从上图可知,捡枪的数量与排名大致呈正比关系。
接下来看,使用救援类物质的数量与排名的关系,以及使用提升性物品的数量对排名的影响。

data = df.copy()
f, ax1 = plt.subplots(figsize=(14, 4))
sns.pointplot(x='heals', y='winPlacePerc', data=data, color='lime', alpha=0.8)
sns.pointplot(x='boosts', y='winPlacePerc', data=data, color='blue', alpha=0.8)
plt.text(0, 0.9, 'Heals', color='lime', fontsize=17, style='italic')
plt.text(0, 0.85, 'Boosts', color='blue', fontsize=17, style='italic')
plt.xlabel('Number of heal/boost items', fontsize=15, color='blue')
plt.ylabel('Win Percentage', fontsize=15, color='blue')
plt.title('Heals vs Boosts', fontsize=20, color='blue')
plt.grid()

从上图可知,救援类物质的数量和使用提升性物品的数量对排名均有一定的影响,但是提升性物品的影响要略大于救援类物质的影响。这与事实是较为相符。

特征工程

上面只是对数据集中的一些特征列进行了可视化,以便更好的理解数据。而我们的任务是根据这些特征来预测玩家的排名。现在我们对数据进行手工提取特征。
救援类物品和提升性能类物品都可以算作是一类,因此将这两者加起来得到一个新的特征列。同样的方法对距离进行处理。

df['healsAndBoosts'] = df['heals']+df['boosts']
df['totalDistance'] = df['walkDistance']+df['rideDistance']+df['swimDistance']

当使用提升类物品时,游戏玩家可以运行得更快。同时也帮助玩家保持在区外。因此,我们可以创建一个特征列,用来记录游戏玩家没走一步所消耗的提升性物品。救援类物品虽然不会使玩家跑得更快,但也有助于保持远离危险地带。所以让我们也为救援类物品创建相同的特征列。

df['boostsPerWalkDistance'] = df['boosts'] / \
    (df['walkDistance']+1)  # 加 1 是为了防止分母为 0
df['boostsPerWalkDistance'].fillna(0, inplace=True)
df['healsPerWalkDistance'] = df['heals']/(df['walkDistance']+1)
df['healsPerWalkDistance'].fillna(0, inplace=True)
df['healsAndBoostsPerWalkDistance'] = df['healsAndBoosts'] / \
    (df['walkDistance']+1)
df['healsAndBoostsPerWalkDistance'].fillna(0, inplace=True)
df[['walkDistance', 'boosts', 'boostsPerWalkDistance', 'heals',
    'healsPerWalkDistance', 'healsAndBoosts', 'healsAndBoostsPerWalkDistance']][40:45]

同样的方法,提取杀死敌人的数量与步行距离的关系。

df['killsPerWalkDistance'] = df['kills'] / \
    (df['walkDistance']+1)  # 加 1 是为了防止分母为 0
df['killsPerWalkDistance'].fillna(0, inplace=True)
df[['kills', 'walkDistance', 'rideDistance',
    'killsPerWalkDistance', 'winPlacePerc']].tail(5)

构建模型

先来看一下我们的数据。

df.head()

从上图可以看到,此时的数据包含 36 列。但玩家编号(Id)、分组编号(groupId)、游戏局编号(matchId)、游戏的类型(matchType)对预测结果是没有帮助的。因此现在将这四列删除掉。

df_drop = df.drop(['Id', 'groupId', 'matchId', 'matchType'], axis=1)

划分训练集和测试集。

from sklearn.model_selection import train_test_split

data_X = df_drop.drop(['winPlacePerc'], axis=1)
data_y = df_drop['winPlacePerc']
train_X, test_X, train_y, test_y = train_test_split(
    data_X, data_y.values, test_size=0.1)

构建预测模型。这里我们使用随机森林回归的方法来构建模型。模型训练耗时约 2 分钟。

from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=40)  # 构建模型
model.fit(train_X, train_y)  # 训练模型
y_pred = model.predict(test_X)  # 预测
y_pred[:10]

上面我们完成了预测模型的构建预训练,并对测试集进行预测。为了直观的看出模型预测的好坏,现在通过画图的方法来对比。

f, ax1 = plt.subplots(figsize=(15, 5))

plt.plot(test_y[:100])
plt.plot(y_pred[:100])

在上图中,蓝色线条表示测试数据的真实值,而红色线条表示预测的数据。从图中可以看出,我们所构建的模型基本能够预测正确。现在查看一下均方误差。

from sklearn.metrics import mean_squared_error

mean_squared_error(y_pred, test_y)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容