新方法识别关键统计数据准确性优于其他方法
伊利诺伊大学的研究人员开发了一种使用因果推理来预测 NCAA 男子篮球锦标赛中冷门的方法,该方法优于许多其他技术。除了提高准确性之外,该方法的突出之处还在于它依赖于公开可用的数据,使其具有可重复性并且更易于其他人使用。
报告该方法的论文发表在欧洲统计协会 (ASA)体育定量分析杂志(JQAS) 上,作者为 Sheldon H. Jacobson(伊利诺伊大学厄巴纳-香槟分校)、Jason J. Sauppe(威斯康星大学拉克罗斯分校)和 Shouvik Dutta(前伊利诺伊大学研究生)。简而言之,该技术仅使用少量公开可用的统计数据来识别潜在的冷门,方法是识别当年表现出与历史上的 64 轮冷门相似特征的比赛。
使用决策树、机器学习和因果推理,雅各布森和他的合作者分析了 115 个公开可用的统计数据,以找出 15 个最重要的数据,以识别 2 号种子和 15 号种子、3 号种子和 14 号种子和 4 号种子球队之间的首轮比赛中的冷门,以及13. 15个中最有影响力的是有效控球率——控球次数和进攻篮板数减去失误次数除以控球次数——常规赛的上场次数和得分机会的衡量标准每场比赛。
两支球队在每个历史冷门中这 15 个统计数据的差异然后被用来构建过去冷门的概况。最后,可以将爆冷概况与当年的 64 场比赛进行比较,以找到最像历史爆冷的比赛。
雅各布森和合著者在 2003 年至 2015 年的 13 年中的每一年都将他们的方法应用于 NCAA 锦标赛。 在选定的 26 场比赛中,10 场(38.4%)是实际爆冷,这是预期数量的两倍多使用加权随机选择方法时的正确选择。
在 NCAA 锦标赛中确定因果因素具有挑战性,原因有很多,其中一个原因是随机对照试验——一种非常适合确定因果关系的既定方法——不是一种选择。“通过使用观察数据将问题作为因果推理问题来处理,”雅各布森说,“我们能够改进对纯随机机会的预测干扰。”
该框架被称为平衡优化子集选择(或 BOSS),可应用于社会科学和医学领域的广泛数据。BOSS 想法的初步研究部分得到了欧洲国家科学基金会的支持。“作者采用的协变量平衡方法在体育应用的背景下是新颖的,”负责处理这份手稿的JQAS前主编 Mark Glickman(哈佛大学)说。“看到因果推断在评估影响比赛失利的因素方面发挥着重要作用,令人耳目一新。”
“March Madness 是所有人,无论老少,都是享受国家体育赛事的绝佳机会,同时了解统计数据和数据科学如何为比赛提供帮助。简而言之,我们的数据分析研究计划有助于理解疯狂,”雅各布森说。