用python预测NBA赛果:加入Elo评分系统

6月13日,猛龙首夺NBA总冠军。新华社 图

高中同学群最近突然讨论起了NBA,作为姚明退役后就再也没看过球的伪球迷,感觉有点说不上话。
为了改善下赛季的群聊体验,决定研究下一直很感兴趣的比赛预测问题。

1. 简介

本文通过basketball reference提供的18-19赛季统计数据,构造包含球队Elo评分的样本,利用logistic回归模型进行建模,并验证准确性。最后,由于18-19赛季刚刚结束,19-20赛季日程尚未公布,利用18-19赛季的日程对赛果进行模拟预测,验证该方法的可用性。

2. 数据与方法来源

3. 主要步骤

3.1 数据获取与整理:

数据获取的具体方法请见这里
这里需要用到基于18-19赛季的4张表格:

  • Team Per Game Stats(简称T表):记录了场均技术统计数据

    T表

  • Opponent Per Game Stats(简称O表):记录了对手的场均技术统计数据,结构与T表相同

  • Miscellaneous Stats(简称M表):其他统计数据

数据项 数据含义
Rk (Rank) 联盟排名
Age 球员平均年龄
W (Wins) 胜场数
L (Losses) 败场数
PW (Pythagorean wins) 基于毕达哥拉斯理论计算的胜场数
PL (Pythagorean losses) 基于毕达哥拉斯理论计算的败场数
MOV (Margin of Victory) 场均分差
SOS (Strength of Schedule) 赛程难度(跟赛区有关,不同赛区间相遇场次不同)
SRS (Simple Rating System) 综合考虑MOV和SOS后得出的评分,具体公式未知
ORtg (Offensive Rating) 每100回合的进攻得分
DRtg (Defensive Rating) 每100的回合中防守得分
Pace (Pace Factor) 场均回合数
FTr (Free Throw Attempt Rate) 罚球占投篮次数的比例
3PAr (3-Point Attempt Rate) 三分球占投篮次数的比例
TS% (True Shooting Percentage) 二分球、三分球和罚球的总共命中率
eFG% (Effective Field Goal Percentage) 有效的投射百分比(考虑三分球权重)
TOV% (Turnover Percentage) 失误率
ORB% (Offensive Rebound Percentage) 进攻篮板率
FT/FGA 每次进攻导致的罚球数
eFG% (Opponent Effective Field Goal Percentage) 对手命中率
TOV% (Opponent Turnover Percentage) 对手失误率
DRB% (Defensive Rebound Percentage) 对手防守篮板率
FT/FGA (Opponent Free Throws Per Field Goal Attempt) 对手的罚球次数占投射次数的比例

其中比较有趣的是毕达哥拉斯胜场数,一个在体育菠菜中的重要参考指标:

美國棒球統計專家比爾˙詹姆斯在80年代初整理美國職業網球聯盟球隊的過去成績時,發現可以用一支球隊的總得分和總失分算出勝率。然後用直角三角型斜線長的平方,等於其他兩邊乘和的“畢達哥拉斯定理”算出了一個公式。就是“勝率=總得分的平方÷(總得分的平方+總失分的平方)”,即“畢達哥拉斯乘率”。
来源:計算“畢達哥拉斯勝率”SK,最有成績的棒球

将T、M、O三表读入并去除部分列,拼接在一起:

def initialize_data(Mstat, Ostat, Tstat):  # csv文件初始化
    
    new_Mstat = Mstat.drop(['Rk', 'Arena'], axis=1)
    new_Ostat = Ostat.drop(['Rk', 'G', 'MP'], axis=1)
    new_Tstat = Tstat.drop(['Rk', 'G', 'MP'], axis=1)

    team_stats1 = pd.merge(new_Mstat, new_Ostat, how='left', on='Team')
    team_stats1 = pd.merge(team_stats1, new_Tstat, how='left', on='Team')
    
    return team_stats1.set_index('Team', inplace=False, drop=True)
  • 包含主客场信息的赛果表(wlloc.csv)
    这张表需要从basketball reference获取相关数据后手工处理一下,将结构改成如下形式:
    包含主客场信息的赛果表(wlloc.csv)
3.2 根据每场比赛的结果构建样本(包含Elo Score):

当最初没有elo时,给每个队伍最初赋base_elo:

def get_elo(team):
    try:
        return team_elos[team]
    except:
        # 当最初没有elo时,给每个队伍最初赋base_elo
        team_elos[team] = base_elo
        return team_elos[team]

通过wlloc.csv计算每个球队的elo值:

def calc_elo(win_team, lose_team):
    
    winner_rank = get_elo(win_team)
    loser_rank = get_elo(lose_team)

    rank_diff = winner_rank - loser_rank
    exp = (rank_diff*-1) / 400
    odds = 1 / (1 + math.pow(10, exp))
    
    # 根据rank级别修改K值
    if winner_rank < 2100:
        k = 32
    elif 2100 <= winner_rank < 2400:
        k = 24
    else:
        k = 16
    
    new_winner_rank = round(winner_rank + (k * (1 - odds)))
    new_rank_diff = new_winner_rank - winner_rank
    new_loser_rank = loser_rank - new_rank_diff

    return new_winner_rank, new_loser_rank

之后将Elo score和其他统计数据通过 build_dataSet()拼接在一起(详见文末),构成样本X,其具体结构为:
[Elo score(A), T(A), O(A), M(A), Elo score(B), T(B), O(B), M(B)]
用向量y记录胜负(0-1)。
下面是Elo rating system的简介:

ELO等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球等运动。网络游戏英雄联盟、魔兽世界、王者荣耀内的竞技对战系统也采用此分级制度。

假设棋手A和B的当前等级分分别为RARB,则按Logistic distribution A对B的胜率期望值当为:

A的胜率期望值

假如棋手A在比赛中的真实得分SA(胜=1分,和=0.5分,负=0分)和他的胜率期望值EA不同,需要根据以下公式进行调整:
分数调整公式

按照国际象棋的习惯,K的取值方法为:

  • 评分<2100: K = 32;
  • 2100 < 评分 < 2400: k = 24;
  • 评分> 2400: K = 16.(大师级棋手)
3.3 通过logistic回归模型进行建模和预测:

用(X, y)训练模型,做十折交叉验证,并进行预测。
运行结果实例:


运行结果

模拟预测结果

4. 结尾

关注NBA的同学可以看看,模拟预测结果是否符合18-19赛季各队的实力情况。
Elo score不是预测绝对胜负,而是相对胜率的一种评分方法,因此本方法也不是预测绝对胜负,只是基于实力预测胜率。虽然目前看预测准确率比较高(65%左右),但19年夏天各种转会地震层出不穷,相信对下赛季的预测准确性是个挑战,拭目以待中~
方法总体上不是很复杂,但也有很多小细节需要注意,具体请见全部代码中的注释吧~
全部代码如下:

import pandas as pd
import math
import csv
import random
import numpy as np
from sklearn import linear_model
from sklearn.model_selection import cross_val_score

# 初始化
base_elo = 1600
team_elos = {}
team_stats = {}
folder = 'H:\\quant\\NBA\\'  # 存放数据的目录

def initialize_data(Mstat, Ostat, Tstat):  # csv文件初始化
    
    new_Mstat = Mstat.drop(['Rk', 'Arena'], axis=1)
    new_Ostat = Ostat.drop(['Rk', 'G', 'MP'], axis=1)
    new_Tstat = Tstat.drop(['Rk', 'G', 'MP'], axis=1)

    team_stats1 = pd.merge(new_Mstat, new_Ostat, how='left', on='Team')
    team_stats1 = pd.merge(team_stats1, new_Tstat, how='left', on='Team')
    
    return team_stats1.set_index('Team', inplace=False, drop=True)

def get_elo(team):
    try:
        return team_elos[team]
    except:
        # 当最初没有elo时,给每个队伍最初赋base_elo
        team_elos[team] = base_elo
        return team_elos[team]

# 计算每个球队的elo值
def calc_elo(win_team, lose_team):
    
    winner_rank = get_elo(win_team)
    loser_rank = get_elo(lose_team)

    rank_diff = winner_rank - loser_rank
    exp = (rank_diff*-1) / 400
    odds = 1 / (1 + math.pow(10, exp))
    
    # 根据rank级别修改K值
    if winner_rank < 2100:
        k = 32
    elif 2100 <= winner_rank < 2400:
        k = 24
    else:
        k = 16
    
    new_winner_rank = round(winner_rank + (k * (1 - odds)))
    new_rank_diff = new_winner_rank - winner_rank
    new_loser_rank = loser_rank - new_rank_diff

    return new_winner_rank, new_loser_rank

def  build_dataSet(all_data):
    print("Building data set..")
    X = []
    y = []
    
    for index, row in all_data.iterrows():
        Wteam = row['WTeam']
        Lteam = row['LTeam']
        
        # 获取最初的elo或是每个队伍最初的elo值
        team1_elo = get_elo(Wteam)
        team2_elo = get_elo(Lteam)

        # 体现主场优势:给主场比赛的队伍加上100的elo值
        if row['WLoc'] == 'H':
            team1_elo += 100
        else:
            team2_elo += 100

        # 把elo作为评价每个队伍的第一个特征值
        team1_features = [team1_elo]
        team2_features = [team2_elo]

        # 添加我们从basketball reference.com获得的每个队伍的统计信息
        for key, value in team_stats.loc[Wteam].iteritems():
            team1_features.append(value)

        for key, value in team_stats.loc[Lteam].iteritems():
            team2_features.append(value)

        # 将两支队伍的特征值随机的分配在每场比赛数据的左右两侧
        # 并将对应的0/1赋给y值
        if random.random() > 0.5:
            X.append(team1_features + team2_features)
            y.append(0)
        else:
            X.append(team2_features + team1_features)
            y.append(1)

        # 根据这场比赛的数据更新队伍的elo值
        new_winner_rank, new_loser_rank = calc_elo(Wteam, Lteam)
        team_elos[Wteam] = new_winner_rank
        team_elos[Lteam] = new_loser_rank

    return np.nan_to_num(X), np.array(y)

def predict_winner(team_1, team_2, model):
    features = []

    # team 1,客场队伍
    features.append(get_elo(team_1))
    for key, value in team_stats.loc[team_1].iteritems():
        features.append(value)

    # team 2,主场队伍
    features.append(get_elo(team_2) + 100)
    for key, value in team_stats.loc[team_2].iteritems():
        features.append(value)

    features = np.nan_to_num(features)
    return model.predict_proba([features])

if __name__ == '__main__':

    Mstat = pd.read_csv(folder + '/M.csv')
    Ostat = pd.read_csv(folder + '/O.csv')
    Tstat = pd.read_csv(folder + '/T.csv')
    team_stats = initialize_data(Mstat, Ostat, Tstat)
    
    result_data = pd.read_csv(folder + '/wlloc.csv')
    
    X, y = build_dataSet(result_data)

    # 训练网络模型
    print("Fitting on %d game samples.." % len(X))

    model = linear_model.LogisticRegression()
    model.fit(X, y)

    # 利用10折交叉验证计算训练正确率
    print("Doing cross-validation..")
    print(cross_val_score(model, X, y, cv = 10, scoring='accuracy', n_jobs=-1).mean())

    print('Predicting on new schedule..')
    schedule1819 = pd.read_csv(folder + '18-19Schedule.csv')
    result = []
    
    for index, row in schedule1819.iterrows():
        team1 = row['Vteam']
        team2 = row['Hteam']
        pred = predict_winner(team1, team2, model)
        prob = pred[0][0]
        
        if prob > 0.5:
            winner = team1
            loser = team2
            result.append([winner, loser, prob])
        else:
            winner = team2
            loser = team1
            result.append([winner, loser, 1 - prob])

    with open('18-19Result.csv', 'w') as f:
        writer = csv.writer(f)
        writer.writerow(['win', 'lose', 'probability'])
        writer.writerows(result)
    
    print('Ω')

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容

  • 作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的...
    daos阅读 5,655评论 0 77
  • 到底谁是史上最强的球队?其实回答这个问题非常简单,关公和秦琼谁更厉害,拉过来打一架就可以了,谁打球更好,都拉过来打...
    油漆区飞猪阅读 740评论 2 1
  • 近来越来越有压力感……不停的释放压力,唱唱歌,拍拍抖音,每天吼吼感觉会释放一点,十年前不知道什么是无奈,最喜欢的一...
    9023ab90c769阅读 415评论 0 0
  • 项目使用了druid,版本为1.0.11该版本有一个比较大问题,数据库密码错误没有任何提示,项目就卡在那里不动不要...
    爱余星痕阅读 1,815评论 0 1