大数据分析预测方法预测分析有多靠谱

大数据应用于世界杯预测靠谱吗?
最近有报道称,一些公司利用大数据成功地预测了世界杯八分之一决赛的结果。不少人提出了问题:若大数据预测世界杯靠谱,那谁会乐翻天?
场场准确是个传说
近日,对于利用大数据预测世界杯的报道屡见不鲜,甚至有公司声称他们利用大数据预测世界杯的结果准确率很高。例如谷歌。其产品营销经理本杰明·贝托谢姆在一篇博客中表示,谷歌的云计算平台已成功预测了世界杯16强比赛(即八分之一决赛)每场比赛的胜利者。谷歌称,他们使用了来自Opta Sports的数据,评估了每个职业足球联盟过去多个赛季的情况,以及世界杯小组赛期间的统计数据;该系统还使用了由BigQuery工程师乔丹·提加尼开发的实力排行榜系统,同时考虑了观众热情程度数据,以计算主队优势。
不过,谷歌也承认,他们并不是唯一成功预测的公司,而世界杯16强比赛中也没有冷门出现。“没有冷门出现”很关键。当然,如果实力均衡,也不算冷门,要预测准确并不容易。实际上,百度、微软对八分之一决赛结果的预测也全部正确。但是,对4强结果的预测,谷歌出现了差错,只成功预测到其中3支球队。
绝对无误相当困难
对于预测而言,不论哪家企业,无论用不用大数据,多数情况下都不能保证百分之百的准确率。如果都能准确预测,那么体彩、股票、基金甚至战争,都可能有人大赚特赚。
即使在利用大数据准确预测的典型案例中,也难觅百分之百的准确率。例如,微软纽约研究院经济学家大卫·罗斯柴尔德通过大数据分析,成功预测了2014年奥斯卡24项奖项中的21项,不过也有3项没预测对。2013年的奥斯卡,他曾预测对了24个奖项中的19项。而在 2012 年美国总统大选中,他正确预测了51个选区中50个地区的选举结果,不过还是有1个没预测对。
可见,想利用大数据做到百发百准确的预测极其困难。不过,预测主要基于概率,利用大数据之后,预测的准确率肯定会提高。对于足球比赛而言,除了历史数据,还要分析其他偶然因素,例如伤病、运气及误判等。
靠谱与否得看长远
这样看来,大数据对于预测世界杯比赛结果还是很有价值的。有些大数据分析基于海量数据,其预测结果可能会更精准。至少用大数据预测世界杯要比“乌鸦嘴”贝利、章鱼保罗、“熊猫宝宝”及“乌贼刘”要靠谱得多。
据了解,巴西世界杯期间,除了谷歌、百度、微软等互联网企业之外,高盛、德银及科隆体育等机构以及科学家霍金都在预测比赛结果。霍金的许多关于足球的预测还有具体数据。例如,有关点球大战,霍金认为助跑必须不少于3步,如果速度上不去,进球概率只有58%,瞄准上角的点球有84%的命中率,金发和秃头的球员射中的概率达到更高的84%,前锋的进球概率超过80%,中场与后卫递减。
说到这里,我们不妨看看谷歌及百度对于四分之一决赛结果的预测,谷歌与百度在法国对德国比赛的结果预测是相反的,结果这次百度胜出。不过,所有的预测的准确率,不能单独看八分之一决赛或四分之一决赛,甚至不能仅看这一届世界杯,要在更大的范围、更长的时间段里观察预测结果。
其实,最令人吃惊的是,霍金曾经预测过:“世界将在两百年之后灭亡。”这个预测结果,可能比任何一场比赛的预测结果更让人揪心!
本文来源:中国信息产业网-人民邮电报
关键词阅读:
不做嘴炮 只管约到
跟贴热词:
文明上网,登录发贴
网友评论仅供其表达个人看法,并不表明网易立场。
热门产品:   
:        
:         
热门影院:她再也控制住自己情感,边哭边喊着妈妈。
小公举深夜开启17年虐狗第一弹,宣布昆凌怀二胎。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  今年的“双11”有多疯狂?交易额20秒1亿元,52秒10亿元,6分58秒100亿元,1小时353亿元,1小时57秒362亿元,相当于2013年双11全天的交易额。最终,24小时狂欢的总交易额冲出了新高度,1207亿元。
  可是就在今年狂欢的前几天,11月1日,《纽约邮报》报道称,美国证券交易委员会对阿里巴巴的财务调查有了新进展,至少有一名阿里巴巴高管和调查方合作,举证阿里巴巴集团的违规行为。这次调查的范围正包括了去年“双11”期间的财务数据。
  还没有铁证能撕毁“双11”的神话数据。不过,这是个“数据为王”的时代,围绕着数据的暗战远比我们想象的还要多。
数据已经成为一种资产
  到了数据时代,把数据作为一种资产来理解,正在成为产业趋势。数据是一种新的生产要素,是各行各业打开“互联网+”的一把钥匙。
  数据的价值可以通过大数据技术呈现出来。早在1980年,未来学家阿尔文?托夫勒就在他的《第三次浪潮》中,盛赞大数据是“第三次浪潮的华彩乐章”。大数据是一种数据处理与应用技术,以云计算为依托,构成大数据基础的是数量庞大、类型多样的数据。
  然而,数据的失真、失效、冗余正在从内部瓦解大数据的质量。因为大数据技术的效率建立在真实数据之上,必然面临数据来源的可靠性风险,一旦海量数据本身出了问题,关于它的处理和应用也会站不住脚。所以,数据的价值提升了,数据失真的干扰也跟着被放大了。
  数据常常因为它的冷漠无表情而自带一种严肃气质,数据的出场可以将任何事衬托得格外权威靠谱。在各界对数据时代寄予厚望时,我们选取了35种现象,试图揭示数据的另一种样子。
谁在让数据“说谎”?
  数据本身是无辜的,让数据“说谎”的有时候是人。抛开客观技术原因造成的失真,人为引发的数据真实性问题尤其失控。
  商家眼里的数据是广告,它意味着人气、品质和顾客流量。互联网创业者眼里的数据是公司的核心资产,意味更多的融资、更高的估值。网红眼里的数据是转赞评,意味着更大的影响力和随之而来的商业机会。影视人眼里的数据是票房和播放量,意味着股价和IP价值。
  水军和刷手是一种神秘的存在,网民们最熟悉的陌生人,他们以制造迷障为业,是数据的PS高手,为商家解决了引流问题,为创业者带来了繁荣,为网红圈够了粉丝,他们的行为与真实用户越来越像,你甚至不能确定他是一个真人,或者只是一道程序。
  而受众未必具备了充分的敏感性,常常无心于识别并剔除虚假数据。被无效的数据干扰了决策,被失真的数据扭曲了行为,非专业的受众与伪数据的主导者们显然并不在一个段位上。
  通过监管来清理数据困难重重,落实实名制遭遇了保护个人信息安全的阻击,网络世界还是一片虚拟的江湖,也催生了数据问题的爆发。
培养数据思维
  统计学家弗雷德里克&莫斯特勒说过,要用统计骗人很容易,但是不用统计,骗人更容易。真实的数据和数据分析毕竟为认识世界提供了更精准的视角,为决策创造了更有效的依据。去伪存真,挖掘数据的价值正在迎来黄金年代。研究大数据的先驱麦肯锡咨询曾经预测,大数据产品在三大行业的应用将产生7000亿美元的潜在市场。
  正在大放异彩的数据时代对当代人提出了新的要求:培养数据思维。打破工业时代的思维习惯,训练收集、分析数据的能力,从数据中得到洞见,不仅能帮助人们在信息丛林里辨别数据的可信度,促进各行业疯狂的数据回归理性,也能引导一种有效率的生活。
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:大数据时代 看天更靠谱
“妮妲”登陆前夕,蛇口渔政人员用扩音器喊话,查看渔船是否全部安全撤离。南方日报记者 鲁力 摄
深圳市气象台9月12日发布消息称,预计台风“莫兰蒂”将在闽南至粤东沿海地区登陆,15日将给深圳带来大风大雨。
大家还记得一个多月前的台风“妮妲”吗?8月2日凌晨,强台风“妮妲”在深圳登陆。在台风登陆前,深圳市气象局依据科研结果,综合气象预报员的专业分析,在第一时间果断发出台风红色预警,这也是深圳市气象台历史上首次发布台风红色预警。
中国科学院深圳先进技术研究院(简称“深圳先进院”)李晴岚博士告诉记者,比起较为容易预测的台风路径,台风风雨的影响和台风的强度是世界性的预测难题。虽然难,但依靠大数据和数据挖掘技术,还是能够帮助人们尽量掌握台风等强对流天气的动向,在最大程度上保证人民生命财产安全。
大数据时代,气象服务在不断地拓宽领域,从最基础的天气预报到现有的气候预测、气候可行性论证、公共气象服务、专业专项气象服务、气象防灾减灾,为社会创造财富、减轻损失;同时,大数据技术是气象服务不断创新和完善的重要支撑。
南方日报记者 马芳 实习生 熊雅灵
1 事实验证数据分析,“妮坦”的红色预警发对了
每个城市都有各行各业的大数据,深圳市在推进大数据发展方面已经具备一定基础,共享基础数据库建设等方面处于国内领先水平,在市场监管、交通运输、税务部门等部门的应用取得了积极成效。
在气象大数据方面,深圳市气象局与深圳先进院已合作多年。2009年,深圳市气象局与先进院高性能计算中心开始交流合作,2012年初,深圳市气象局提出预报“回南天”的研究方向,随后又提出台风精准预报、灰霾预报等新课题。
5年前,先后在加拿大麦吉尔大学、香港大学学习的李晴岚加入深圳先进院,被委派至深圳市气象局担任相关项目负责人。通过与深圳市气象局等部门合作,深圳先进院气象预报团队在台风风雨预报领域取得了显著的成果,大幅度提高了台风预报的时间、空间精度。基于这些数据,气象部门能够做出及时准确的预报预警,政府部门能够有效地组织人员疏散,最大限度地保障人民生命和财产安全。
以8月的“妮妲”为例,根据深圳先进院与市气象局合作的“近海台风引发深圳地区的风雨研究”的结论,“妮坦”台风从东南方向接近珠三角地区,距离深圳200公里左右时将引发深圳大风,全市大风起风时间在22时至24时左右,并推测深圳最大阵风将达到12-13级。
李晴岚告诉记者:“根据大数据分析结果,严格来说盐田港的最大阵风应该在27-33米/秒范围。盐田港风力一般受台风影响大,但在深圳市不一定是最大的,为安全起见,考虑深圳可能的最大阵风报12到13级比较合适,与实际观测值深圳地区在‘妮妲’影响期间的最大阵风为37米/秒高度吻合(13级风的范围在37-41.4米/秒之间)”。
市气象局依据此科研结果,综合气象预报员的专业分析,在第一时间果断对市民发出了台风红色预警,这也是深圳市气象台历史上首次发布台风红色预警。
“每一次台风到来,产生的新观测数据都会纳入数据库。”李晴岚表示,对每一种进入700公里影响范围的不同类型台风,如果数据库只有2个样本供参考,预报正确的概率是33%,如果历史上有18个类似样本供参考,预报正确的概率可以大幅提升到89%。随着样本数的增加,预报置信度就会越高。
2 从“韦森特”到“海鸥”,准确预测降水、风力
李晴岚表示,相比较为容易预测的台风路径,台风强度预报和台风风雨定量预报是世界性的预测难题。
2011年,刚从香港来深圳不久的李晴岚了解到市气象局一直在做风雨定量预报方面的研究,但一直困难重重未能出结果。大约半年后,她和团队部分解决了这个难题。
日,台风“韦森特”在深圳登陆,最大日降水量达到152.5毫米。在“韦森特”登陆前,李晴岚已经有了初步的研究结果,认为“韦森特”带来的日最大降水量有50%的可能性在109-191毫米之间,而降水量在100-250毫米之内被定级为大暴雨。实际观测值与预测值均为大暴雨,“韦森特”验证了李晴岚关于台风引发深圳地区降水定量预报的研究。
长期未能解决的难题为何有了转机?“最关键的是‘分类’,按照类别预估台风带来的影响。”李晴岚说,她根据台风登陆时的登陆地点、登陆距离、台风强度、登陆方位等关键特性进行划分,通过统计分析和数据挖掘的方法得出台风雨的影响程度。这是她乘坐公交车下班途中得到的灵感,经过几次与气象局专业人士的讨论尝试,半年内便有了初步的结果。
李晴岚先后在加拿大麦吉尔大学、香港大学取得了环境工程学硕士、博士学位。她从硕士开始就做数据分析、数学建模,在读博士期间研究过动力,对既注重动力也注重统计的气象研究有一定的帮助。
相比台风带来的降水预报,有关风的预报更为复杂。2014年4月,在此前一项研究的启发下,李晴岚开始着手台风对深圳地区大风影响的研究,半年内便有了初步的结果,当年9月“海鸥”登陆验证了她的研究。
“‘海鸥’中心距盐田港气象自动站的最近距离约有400公里,据以往经验,气象局认为此次台风影响不会很大,但预报员并不确定到底会引起多大的风。”按照李晴岚的预测,风力最大会达到27米/秒,时间在凌晨0时到2时之间,这与实际观测值29.1米/秒非常接近,最大风力发生时间为凌晨1时14分。
李晴岚的同事感叹道:“第二天上午气象局会商,大家都沸腾了,之前传统的气象手段还无法把距离在400公里左右的台风引起大风的时间及其强度预算得这么准。”
3 为盐田港作精细化预报,根据应用需求定课题
最近,李晴岚撰写的关于台风风雨定量预报的一篇研究论文将登上美国气象学会下的《Weather and
Forecasting》杂志,这是气象预报领域的顶级期刊。
“我每周有三天都在深圳气市象局工作,与工作在一线的预报员天气会商,参加周报会,技术交流会,了解天气预报中的要点、难点;两天在深圳先进院,与同事沟通讨论、指导学生科研学习。”李晴岚告诉记者,比起理论研究,自己的研究工作更注重应用,一般是研究结果能直接应用于业务之后,才再撰写论文。
深圳盐田港是国际集装箱码头,风力条件对其码头日常货柜储运业务影响非常大,气象预报与经济利益的关联大。应对台风时如果停工过早,将造成较大损失,如果预警不及时,又可能有事故发生,因此精准的预报尤为必要。针对这种需求,李晴岚展开了重点防护单位定点精细化预报研究。
据盐田国际集装箱码头有限公司反馈给深圳先进院的信息,得益于深圳先进院研发的“近海台风引发区域性风雨预报”的技术模块——它能提前1-2天进行精细化的台风风雨影响预估,争取到更多灾害防御时间。空间精细到港区,可预估盐田港区域受台风影响的风雨特点、程度、持续时间。该模块启用后,3年来未出现因台风造成的港区人员伤亡,对盐田港业务经营和管理发挥了重要作用。
李晴岚说,气象部门掌握着丰富的第一手观测资料,他们急需把这些资料利用起来为气象预报服务。深圳先进院有着深厚的科研实力,也希望能发挥科研优势,与实际问题结合,为国计民生服务,因而才有了深圳先进院与深圳气象局的强强联合、深入合作。
据悉,深圳市气象局还通过深圳先进院与欧洲中期天气预报中心、美国俄克拉荷马大学风暴分析预报中心保持良好的合作。
记者了解到,李晴岚课题组将与深圳市气象局一起联合申报多模式集成预报系统项目,这个创意就产生自国际合作的过程中。多模式集成是指融合欧洲中心模式、日本模式、中国气象局Grapes模式,以及深圳气象局自主研发的实时同化预报系统模式的特点,发挥各自的长处,得出深圳乃至华南地区更精准的天气预报。
[责任编辑:  文/新浪财经专栏作家 程实
  人类一思考,上帝就发笑;世界杯一来到,上帝笑得血压也升高。剔除掉贝利这种声名卓著的反向指标,煞有其事的世界杯预测大致可以分为五类:实力决定论、条件决定论、流言决定论、宿命归属论、动物先知论。
闲谈世界杯预测
  人类一思考,上帝就发笑;世界杯一来到,上帝笑得血压也升高。倒不是足球踢得多欢乐,而是世界杯预测太恶搞。
  我略微总结了下,剔除掉贝利这种声名卓著的反向指标,煞有其事的世界杯预测大致可以分为五类:
  一是实力决定论,以高盛和德银等投行为代表,将FIFA排名、过往战绩、近期表现、球员身价、赌球赔率、国家经济等一系列数据综合反映出的球队实力作为预测依据,用计量模型计算出看上去精确至极的概率,只不过,计算结果有较大差异,比如,高盛预测巴西夺冠,德银则更看好英格兰。
  二是条件决定论,以霍金教授为代表,将各种客观条件对某一球队的表现影响揉到一个获胜公式里,这些条件包括球场选择、裁判国籍、球衣选择、阵型选择和交通工具选择等,只不过,这种公式的预测有效时段很短,所以在决赛还离得远的现在,公式还预测不出最后的冠军归属。
  三是流言决定论,以雅虎和微软Bing为代表,将以亿为单位的网络噪音转化为清晰的结果信号。虽然这种互联网魔术看上去既科学又玄妙,甚至可以从经济学的“预期自我实现”理论得以解释,但总让人联想到古时候无论中国还是西方,帝王对童谣和吟游诗人作品的格外关注。
  四是宿命归属论,以一则关于年的时空重叠热帖为代表,1966年,欧冠冠军是皇家马德里,西甲冠军是马德里竞技,西乙冠军是拉科鲁尼亚,意甲冠军是尤文图斯,皇家贝蒂斯降级西乙,2014年无一例外都是如此。“yesterdayonce more”就剩世界杯了,1966年是英格兰夺冠,按照宿命归属,2014年英格兰也将问鼎。
  五是动物先知论,以章鱼保罗为代表,2008年保罗预测欧洲杯6场5胜,2010年保罗预测南非世界杯8场全胜,只不过,保罗没能活到2014年巴西世界杯揭幕,于是,乌龟、大象、熊猫等动物先知又登上了预测舞台,只不过,保罗的辉煌再难复制。
  当然,所有这些世界杯预测或多或少都有恶搞的成分,当不得真。但稍微严肃一下,细致分析这五种方法论,除了最后一种,剩下四种都用到了大数据,这恰是时下大数据热的一种表现。从世界杯预测看大数据热,三个误区值得警醒。
  首先,大数据并不能解决所有问题。大数据是很有用的,几乎每一个环节,包括产品设计、市场定位、目标选择、销售策略和模式修正,都能靠大数据来解决问题,甚至连各种和商业无关的问题,也都能从大数据这里得到帮助。
  但大数据并不是万能的,大数据能解决的都是客观问题,而不是主观问题。就拿世界杯预测来说,谁能夺冠取决于多种因素,各种预测方法论本质上并无区别,只不过它们对不同决定要素赋予的权重不尽相同。也就是说,决定夺冠的要素是什么,这是一个主观问题,大数据只能说明客观的状态,无法对夹杂重要主观判断的问题直接给出解答。
  其次,数据并不是越大越好。数据分析早就存在,大数据火爆却是最近的事情,其中的区别就在一个“大”字。从道理上讲,数据种类越多、序列越长,包含的信息就越丰富。但值得强调的是,信息越丰富未必就越好,当下是一个信息大爆炸的时代,信息越多有的时候越不利于获知。
  而且更重要的是,像世界杯预测,明显是一个核心信息不突出的事情,所以信息之间反而容易形成无逻辑的冲突,这恰是预测方法论众多,谁都不靠谱的原因。此外,数据越大,数据处理过程中的选择就越多,而选择总是难以回避道德风险问题,每一个大数据分析者,都得面对为特定目标而选择的诱惑,“有选择的选择”往往是大数据反而模糊了真相的潜在原因。
  最后,大数据搞不定薛定谔的猫。在盒子打开前,薛定谔的猫既是活的,又是死的,只有打开盒子这一行为,才能导致状态叠加的坍塌,不确定性才会消失。也就是说,在世界杯真正开始前,32支球队都是冠军,又都不是冠军,只有踢起来才能见真章。
  大数据分析都是基于既成事实的,它更擅长于告诉我们,世界是怎样,而不是世界应是怎样和将会怎样。在不确定性面前,大数据是无力的,所以究其根本,大数据不是用来预测的。大数据能带给我们的,是知识,是获知,而不是判断,更不是武断,而尊重不确定性,才是正确使用知识的一部分。
  网上有个段子:“互联网思维就是:化缘的改叫众筹了,算命的改叫分析师了,八卦小报改叫自媒体了,放高利贷改叫资本运作了,借钱给朋友改叫天使投资了,统计改叫大数据分析了”。从世界杯预测看大数据,误区是存在的,而这些误区的形成,和概念热炒不无关联。数据分析一直都是非常有用的,但滥用大数据作为噱头,就没意思了。所以,看世界杯远比预测世界杯要更有趣,不是吗?
  (本文作者介绍:经济学博士,盘古智库学术委员,著有《多元化退潮:数据背后的经济真相》、《盗梦空间与亚当斯密:电影与经济的思想共鸣》等专著。)
发表评论:
馆藏&11080
TA的推荐TA的最新馆藏[转]&[转]&[转]&本站为您推荐的文章
您可能感兴趣的文章
性别:男 女
资料选取(每人只能选四项)
CDA考试指南
CDA数据分析员课程手册
CDA一级业务分析师课程手册
CDA二级建模分析师课程手册
CDA二级大数据分析师课程手册
CDA脱产就业班课程手册
CDA一级前导试听视频
CDA二级建模前导试听视频
CDA二级大数据前导试听视频
CDA招生简章及价格手册
软件下载指南
友情链接:

我要回帖

更多关于 零售销售预测数据分析 的文章

 

随机推荐