乐趣区

关于数据挖掘:NBA体育决策和数据挖掘分析

原文链接  http://tecdat.cn/?p=1370

In the Internet age, data is the most valuable resource, big data to lead the traditional industries, gave birth to new vitality. Almost all industries are embracing large data, the sports industry is also closely related, data capture, storage and analysis of the continuous progress of technology is a positive impact on all aspects of the sports industry.

业务挑战

体育使用大数据次要体现在以下三个方面:预测比赛结果和奖牌归属;更好地训练运动员。数据和模型驱动体育决策让获胜和胜利变得更有可能,体育统计 (Sports Analytics) 成为体育竞争的“杀手锏”。

具体服务

要在静止中无效地应用剖析,咱们要晓得如何解决数据、辨认数据源、收集数据、组织和筹备进行剖析、从数据构建模型。

 从面向体育组织的征询工作中,推动“数据迷信即服务”。最终,施行咱们的想法和模式。

数据源筹备

随着网络的倒退,数据起源丰盛,有文本数据以及数字数据。通过爬虫技术抓取网络并利用应用程序编程接口(API),能够从公共数据源中获取很多信息。

结构

想要更好地理解在这些场景中大数据是如何进行预测性剖析的,咱们须要思考在预测较量时所需解决的数据性质。

首先确定要害指标,可用数据包含国别、赛事、问题、运动员姓名、年龄、过往体现记录、赛场温度、观众出席率、昼夜等。

划分训练集和测试集

确定指标后,把数据分成两个子数据集,即训练数据集和测试数据集。

数据洞察

球员薪酬状况

职业运动队在劳动力市场上相互竞争,而明星球员的劳动力供不应求。薪资下限是放弃竞争均衡所必须的, 工资也帮忙球队限度球员的收入。

美国最业余的运动员有薪资下限。NFL 队的 2016 年薪金下限为 5328 万美元,平均工资约为 270 万美元。NBA 球队在 16 赛季的薪金下限为 7000 万美元,球队的薪金下限以服务年限。例如,领有十年教训的勒布朗·詹姆斯,最高工资为 2300 万美元。安东尼·戴维斯的平均工资为 2900 万美元,是 NBA 球员中最高的。2016 年 MLB 的年薪最低为 505,700 美元。底特律老虎队 Miguel Cabrera(MLR)的 MLB 年薪最高为 3100 万美元。

下图显示了 2016 年 8 月 MLB,NBA 和 NFL 的球员薪酬状况。

NFL 球员的平均工资约为 170 万美元,中位数为 63 万美元。NBA 球员的平均工资约为 510 万美元,中位数为 280 万美元。MLB 玩家的平均工资约为 410 万美元,中位数为 110 万美元。同时能够看到明星球员的薪资远高于一般球员,拉高了平均水平。

团队收入和胜率的关系

从 2016 赛季初的团队收入和在常规赛中胜率的关系图中,咱们能够看到团队收入对是否能博得较量有间接影响。

缺席观众和日期的关系

从中咱们能够发现日期和缺席状况的关系,从而找到用于预测和评估出席率的模型。

球队实力体现

依据 15 年到 16 年 NBA 常规赛的 20 项指标进行综合剖析,咱们对 NBA 参赛球队进行排序,评出最具实力的球队。

建模

预测观众缺席人数——线性模型

预计获胜概率——蒙特卡罗模仿

当咱们发现胜率合乎教训散布的时候, 应用蒙特卡罗模仿办法来预计某个队伍的获胜概率。

预测后果

能够看出,预测值的趋势曾经根本与实在趋势保持一致。

模仿后果

通过对较量日单方球队的体现模仿,咱们失去上面的获胜概率热图,从 ROC 曲线的体现来看,模仿成果现实。

瞻望

除了以上列举的一些办法,曾经在尝试更简单的体育统计模型,如深度学习(Long Short-Term Memory 网络、卷积神经网络(CNN))等;同时须要思考到模型的可解释性、可落地性和可扩展性、防止“黑箱”预测;还在尝试采纳混合的机器学习模型,比方 GLM+SVR,GAM+ NNET 等。

用数据驱动体育决策,这种对待体育的独特视角让咱们能更好地觉察趋势、选取角度,同时帮忙体育爱好者更深刻地了解他们青睐的运动队。

退出移动版