体育领域运用比特盒子开丹青概率的概率高吗?

概率论是研究随机性或不确定性等现象的数学 。阅读全文关注话题分享阅读全文16K941 条评论分享收藏感谢阅读全文7.8K508 条评论分享收藏感谢阅读全文6.9K713 条评论分享收藏感谢阅读全文5.8K454 条评论分享收藏感谢阅读全文5.5K395 条评论分享收藏感谢21,1003,683被浏览649,842分享邀请回答1.1K137 条评论分享收藏感谢收起2.2K204 条评论分享收藏感谢收起概率论是研究随机性或不确定性等现象的数学 。阅读全文关注话题分享阅读全文16K941 条评论分享收藏感谢阅读全文7.8K508 条评论分享收藏感谢阅读全文6.9K713 条评论分享收藏感谢阅读全文5.8K454 条评论分享收藏感谢阅读全文5.5K395 条评论分享收藏感谢21,10053被浏览5,213分享邀请回答45 条评论分享收藏感谢收起1添加评论分享收藏感谢收起1,673被浏览79,002分享邀请回答sloansportsconference.com/wp-content/uploads/-sloan-sports-2012-maheswaran-chang_updated.pdf)如果你经常关注斯隆体育大会的NBA相关研究会经常看到这二位仁兄——Rajiv Maheswaran和Yu-Han Chang,他们有大量相关研究,甚至对NBA的镜头摆放和有效镜头也提出了自己的看法(),并且真的改变了大量数据软件分析公司的镜头使用方式。去年这俩哥们拉上一个叫做Jeff
Su的伙计组件了运动数据分析公司Second Spectrum,最常见的业务就是将运动追踪镜头捕捉的数据收集起来,然后让机器学习并分析,给出分析结果和结论。今年的斯隆大会,他们又做了篮板统计的量化分析的三种方法(《The Three Dimensions of Rebounding》,链接:),拿了大会的最佳论文奖。往往这类工作用于提供给非专业人士的复杂数据还需要一项工作:可视化。这个工作由软件公司来代为完成。还有一种分析,则是统计数据的量化评估。与前一种给出如何得出数据的分析不同,这种分析是利用已有的统计数据做结论。这工作其实和普通公司的量化评估没有两样,都是通过统计数据得出的结论。关于这类工作,
张公子曾经做过评议(),个人认为说的很对。如果实在是对这东西无感,直接看帅哥电影《点球成金》(Moneyball),奥克兰运动家队经理Billy Beane通过小球会取得成功的方法就是放弃普通球探方式,直接将数据化用到球队交易和选秀上,获得了创MLB历史战绩的连胜纪录。虽然有不少美化和过简单的镜头式语言表达,但是数据分析在21世纪开始正式成为北美职业体育的一项重要工作。而非单纯的赛后统计。最早最成熟的数据量化和这种可视化分析,都出现在美式橄榄球场上,早期的NBA统计,其实只有得分篮板助攻等很少的几样,所以张伯伦也没有完善的盖帽统计。现在球迷们也大都只关注老五样(得分、篮板、助攻、盖帽、抢断),然后还有出手数、命中率、出场时间之类的数据,能扯扯这些的,大概就算看球略入门了。然而根据这些统计数据进行的诸如PER、Efficiency、FantasyRating、+/-、TS%等等数据,则是从单纯的赛后数据列表上看不出来的,而是根据一系列制衡指标计算出来的。例如真实命中率(TS%)就是根据球员的所有得分(2分、3分、罚球)一并计算的:PTS / (2 * (FGA + 0.44
* FTA))这些是混几周论坛就能做到的数据球皮要能侃侃而谈的。而到了现在,数据量化到了什么地步呢?来看斯隆体育大会上的论文(2012年的最佳体育革新奖):Alagappan把球员分成十三类:进攻控球者——杰森特里和托尼帕克;防守控球者——麦克康利和凯尔洛里;综合控球者:贾米尔·内尔森和约翰·沃尔;投篮控球者——斯蒂芬库里和马努吉诺比利;角色控球者——阿隆阿弗拉罗和鲁迪费尔南德斯;三分篮板手——洛尔邓和蔡司·巴丁格;得分篮板手——德克·诺维斯基和阿尔德里奇;三秒区保护者——坎比和泰森钱德勒;罚球线保护者——凯文·勒夫和格里芬;NBA一阵型——凯文杜兰特、勒布朗詹姆斯;NBA二阵型——鲁迪·盖伊、卡隆·巴特勒;角色球员型——肖恩·巴蒂尔和罗尼·布鲁尔;以及独孤球员——优秀到电脑无法进行分类,也无法与其他球员进行联系。例如德里克罗斯和德怀特霍华德。而根据这个分类分析,森林狼的球员分类明显不均衡,而上一年的达拉斯小牛明显更均衡。(这位讨论这套分类模型的时候,还是在校生。)篮球运动方面存在着大量的统计数据,而这些数据还由时刻、场上情况、队友指数、上场时间等等一系列复杂因素导致不同的结果。这就是典型的复杂数据——而且瞬发。群体运动项目中,这就足够典型的“大数据”了。但是这数据量仍旧不够PB级别。NBA几位著名的数据量化球队经理/经理人,包括中国球迷最熟悉的火箭队莫雷(这个身高将近2米的胖子从来没有参与过与篮球运动直接相关的工作,麻省理工的MBA…等等,又是麻省理工?),ESPN最著名的球评人约翰·霍林格(虎扑绰号火灵哥,著名的PER值Player Efficiency Rating(球员效率值)创始人),相比而言,刘翔的训练成果和什么“三大一从”、“一元训练理论”关系甚微,和孙海平的关系也没有想象中那么严苛。反倒是中期改变动作时和体育大学联合开发的数据分析软件(内部名称就叫什么什么fly,嗯没错,就是刘翔最爱的英文单词)关系更紧密一些。后一大类有关运动的大数据应用,叫做“运动预测”,则是纯粹性质和意义上的预测。例如微软和百度在世界杯结束后均宣布自己预测正确率超过80%,其实并非首创运动预测,这也不是行业内第一次做这类数学预测。最传统的数学预测方式,是类似538()动辄使用的泊松分布回归分析法。这类方法用于预测评议类选项时的正确性颇高(参见538预测从总统到奥斯卡的历次成果),但是在足球比赛的结果预测上往往不尽如人意。微软的预测分成好几部分在做,一会儿是微软研究院与Office团队共同开发了一款Excel工具,一会儿是微软的个人语音助手Cortana,百度则只有一个工作部门弄了这个预测:“百度大数据实验室负责人张潼教授进行了解答:…我们选择了以下5个方面的数据:球队实力、主场效应、近期状态、大赛能力以及博彩数据。对这五个维度的数据进行收集后,我们使用由大数据实验室的科学家们设计的机器学习模型对数据进行汇总”、“搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中”……实际上,对于这些预测方式,数据的采集才是他们的难点(重点数据在于球队实力的数据化、近期球员状态的数据衡量…),这些采集无论是主观性还是大量冗余信息的存在都难以进行有效的预测,而采用博彩数据进行核定才是重中之重。当然,我个人建议百度以后加上乌贼刘指数做为重要权重予以参考。这种方法也并非在这两年才有,创立于上个世纪的Tipp24()应该是最早把这个做出名的企业,他们专门针对欧洲博彩业进行下注和预测。必发指数和凯利指数的数据统计应用也是各类博彩网站必备的手段之一。其实方法上更接近传统的统计分析,没必要非挂上大数据的名字。我们都知道竞技比赛开始之前是会有博彩公司为此开出赔率的,通过各博彩公司的赔率进行统合进行的预测,又可以称为“根据他人预测的预测”。实际上数据筛选本身就是由人工生成的数据产生的二次生成。实际上,前面所说的分析方法也应用在了预测方面,毕竟模拟现实本身也是计算机技术的一个研究方向。比较著名的包括科隆体育大学(German
Sport University Cologne)的世界杯预测,科隆体大很早就根据自己在足球运动方面的观察分析系统进行过各种有关比赛的预测。其中最著名的就是06年世界杯的德阿点球大战“纸条预测”,准确的靠高概率预测中了阿根廷守门员的扑救方向。但是对于整个比赛结果的预测,由于涉及大量现实模拟内容,而博彩的权重比例相对很低,预测结果并不尽如人意。预测结果大概和我用《冠军足球经理》凑两个队模拟十场的结果成功率差不多高。当然,科隆体育大学和德国足协合作的项目重点本身,也不在于赛事预测,2004年欧洲杯失利之后,德国足协就开始着手国家队训练方式的调整,有一个叫做Urs
Siegenthaler(译作乌尔斯·济根塔勒,瑞士人)成为了之后十年的德国队首席分析师。09年,Siegenthaler和科隆体育大学的Buschmann教授组成过31个小组,进行4类观察分析(当时使用的还是老版的Posicap)。这些都成为了球队训练的一部分。但是当把这些训练数据拿来做还原模拟的时候,预测结果却不尽如人意。简单说——仿真模拟之路还很长。因为分析预测与单纯的“预测”不同的是,标记和统计体系在观察分析下成为一项项更为细化的指标,指标量化变为质化结论的过程,本身就可以为球队的改善作出有效的帮助——当然,需要和教练员共同进行人工处理才可以实现最后的步骤。“预测”的现实意义,对于彩民来说更大一些。毕竟西方的成熟博彩业已经有了200多年的历史,大量的预测方法应用在各家博彩公司之中,例如elo预测、进球率比较法之类,而将博彩预测法的结果进行统计学归类,对于比赛预测不失为一种有效工具。抛开体育,大量的生活中的数据面临所谓的“大数据处理”,典型的案例即天气预测。各类气象指征瞬时发生,以典型的“高频复杂”的形式出现,给各类分析人员提供了大量的可参考数据,从这其中借用建模工具分析提取有效指标,是一种典型的“大数据”应用。同时还有金融行业交易时,各类金融期货数据,每秒钟因一个品种产生的买入卖出数据、量、需求量、成交价格…一秒钟即有12个数据,每小时42200个数据,加上技术指标和成千上万的品种,也是一种典型的高频数据。但是复杂程度?除非需要进行分析预测,否则单纯的指数并不复杂。 老师从事的用户研究和趋势研究后半部分,其实也是典型的长期讨论中的大数据研究。成熟的例子自然是亚马逊的用户行为分析,但是普遍得出的结论过于简单粗暴,分析复杂性还远远不够。常有军粉说在军事科学方面大数据如何如何,但是现在大到战场模拟仿真(天气、地形、敌我双方态势、后援预测…),小到武器的击发测试(发射速度、风速、射表指征、每一个测速点的形态、温度…),这些都符合瞬发数据。但是至于这些数据如何复杂,还有待商榷。没有具体到个体的态势分析,我个人认为还称不上大数据。这些其实是同质的数据,但是无论是否同质,最终都是0和1的表现形式。人为的认定数据有不同的维度,才是定义数据“复杂”的根本。需要有不同维度的处理,才会形成“大数据”的概念。要能够高效处理数据,将数据的冗余部分去处,将高效率低成本的数据存储起来,形成新的数据表达方法,这种数据融合、跨学科的数据挖掘,才是谈及现在“大数据”的根本意义。在数据界(data nature)里面形成一套完整的生态。数据库的发展过程是一个比较典型的例子,也为数据挖掘奠定了基础,机器学习是下一步工作,形成研究而非研究目标,才可以纵谈大数据。39929 条评论分享收藏感谢收起12516 条评论分享收藏感谢收起

我要回帖

更多关于 概率论盒子模型 的文章

 

随机推荐