分析历届世界杯进球数据,预测2018世界杯小组赛进球概率

通过一些正规渠道,我拿到了历届(1930-2014)世界杯小组赛+决赛的进球比分数据,随便分析了一下还挺好玩。

06、10年球员们发挥不好,总进球量少于正常水平,几乎回到50年前水平;

20届世界杯总进球2500个,巴西贡献了近1/10,总进球前十名贡献了一半;

巴西进攻能力最强,英格兰防守最强

计算了小组赛各场的比分概率

所谓正规渠道其实就是百度文库下载的。进球数据大家可以后台回复“世界杯”获得,原始数据和计算过程我都留下了。

有几个问题需要解释一下:

1、因为年代久远,好多国家已经改了名字,比如苏联、西德,考虑到俄罗斯和苏联国家实力的不对等,我并没有把他们合并成一个国家。过去的就让他过去吧。

2、世界杯决赛是没有平局的,最终比分我用了点球大战的分数,毕竟点球也是实力。

3、1938年后到1950年,因为二战,世界杯连续12年停办。愿世界不再有战争。

下面是正文

历届进球数走势

我拿到的数据包含年份+小组赛/决赛比赛双方+比分,经过简单的处理,将各年度的进球总数拉个折线图,得到下面:

走势图很清楚的,球员们的身体素质和技术水平在提高,除了2006和2010年那两年有些低落外,整体进球数量是在稳步提升。

我不懂球,不知道为什么1954年和1958年进球这么多,难道是因为刚结束二战,球员身体素质高?还是因为1954年改了赛制的原因?

另外,1958年中国队第一次参加世界杯,预选赛中被印尼打回来了……

20届进球2500粒,巴西占了1/10

统计胜负双方总进球数,1930-2014年内,累计进球2500粒(包括点球大战),其中巴西进球232粒,接近总数的1/10,进球前十的国家总进球1222粒,占到总数的近一半。

巴西虽然进球最多,但是失球同样是最多的,毕竟几乎每届他都能踢到最后。与进球相对的,球队对手的进球数即为该球队的失球数,统计一下失球数TOP10的球队,巴西依然第一:

加一些数学模型进来

单纯的走势、分布这些数据没啥意思,我决定加一些高端的数学模型进来,这样才能对得起高大上的球迷们。

既然有历届的进球数据,不考虑国家主权变动、球员身体素质等因素,我们可以通过数据计算,得到各球队的进攻实力和防守实力。

这么多年世界杯下来,一共有86支球队,全部分析太麻烦了,我们只分析2018年世界杯进入小组赛的32支球队好了。PS:冰岛和巴拿马今年第一次进世界杯,往届没有数据,我给了他们平均数。

进攻能力/防守能力的概念

很简单,进球越多则进攻实力越强。我们把所有球队的平均进球数作为基准,那么A球队的平均进球数÷所有球队的平均进球数则代表了该球队的进攻实力。这个指数越大说明进攻能力越强。同样,失球数表示防守能力,指数越小防守能力越强。

本届世界杯小组赛32个球队的进攻能力和防守能力排名:

> 进攻能力

图片好长滑动看吧

前五名基本上没有争议,我一个不看球的人都认识他们。但是排在第六名的丹麦,为啥这么强呢?

回溯源数据我发现,丹麦在1986年小组赛中6-1战胜了乌拉圭,2002年2-0战胜了法国,这两个国家都是蛮强的,因为乌拉圭世界杯进小组赛比较多,1930年首届世界杯4-2虐阿根廷,1950年2-2平西班牙,2-1虐巴西,1954年4-2虐英格兰,直到2014年还分别以2-1、1-0的战绩干过英格兰和意大利。

毕竟只是数据,一战得名太容易左右排名。

> 防守能力

图片好长滑动看吧

防守能力的榜单有点扯哈,我也不优化了,直接讲一下为什么出现这种排名的原因吧。

塞尔维亚就2010年进了一次世界杯,踢了三场球,输了两场(澳大利亚2-1,加纳1-0),然后赢了德国(1-0),本身平均失球数就低,还防住了德国,实力一下子就上去了。

克罗地亚我不认识,但是看历届的比分还是很硬的,赢8场进了18个球,对手只进了5个;输8场对手一共进了12个球,防的可是巴西、阿根廷、法国!

> 泊松分布

这个概念就比较高级了,其实很简单。举个例子:

举个例子,假设你在公交站等车,虽然站牌上写着公交车平均5分钟一班,但你如果在公交站等上5分钟,你有可能等来1辆、也有可能等来3辆,当然如果运气不好,1辆公交都没等来也是常事。

这里来1辆还是3辆还是1辆也没来的概率是可以计算出来的,这个计算方法就叫做泊松分布。它的公式长这样:

这个公式里面有个参数λ,它是球队在某次比赛中能进几个球。这个我用了A的进攻能力×B的防守能力×32强平均进球数。具体为什么这么算,可以看下一条推送,那篇文章有详细的解释。

其他就不讲了,直接上结果。有兴趣算一遍的可以下载原数据(后台回复“世界杯”)。

这种世界级比赛进球数都在0-4之间,超过4个球的很少。

我们就只计算0-4个球的概率,计算结果是这样的:

图看不清放大试试


用上面的数据,理论上你就可以算出本届世界杯小组赛每种比分的概率了,俩球队的进球概率相乘即可。

收工。

PS,我不懂球,很多计算方法参考了公众号 城南往事 的文章,我把它转载在下一条了,感兴趣可以去看一看。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 绿茵圣骑士 正文卷 第一章 魔兽世界 一月份的英国伦敦,天气格外的寒冷,漫天的雪花在寒风中肆意地飞舞着,在幽深的街...
    Snow_DZG阅读 1,956评论 1 6
  • 一转眼,迎新杯已经过去两天了,我也可以平复好心情,用整整一天的时间,一点一滴,一笔一画地把今年人文与新闻传播学院足...
    Steven文旭阅读 1,214评论 0 1
  • 简书里基本我所有的文章都是给自己看的,所以文章会有侧重地写肯定不全,不是写给大家看的。 没有看搜索引擎的自然语言处...
    徐薇薇阅读 4,261评论 6 1
  • 这一年,我25岁,熟女未满,少女太熟,我叫轻熟女。 人家都说女人25岁开始衰老,可我依然觉得自己少女心爆棚,打开衣...
    W璐阅读 600评论 1 4
  • 是时候为今天的好种子浇水施肥晒太阳[太阳] [咖啡]咖啡冥想 【王曼玲 2018年1月12日 周五晚上——咖啡冥想...
    王曼玲Emma阅读 118评论 0 0