大数据是什么意思是大数据

大数据到底是什么?
发表于 11:06|
来源ZDNet软件频道|
作者ZDNet软件频道
摘要:如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信“大数据”绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。
ZDNet至顶网评论(文/赵效民): &如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信&大数据&绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。
大数据之所以这么火热,是因为它与普通大众的生活之间,相较其他IT术语似乎有着更为重大,或者说更具传奇色彩更为深厚的关系。从定向营销,到助力美国总统大选,大数据迅速披上了神奇的外衣。而也正是因为它对于人类生活的这种显性的影响力,让它成为了每个生活于信息世界中的人,或多或少都要关注的方向。
仅以企业与客户者之间的关系而言,企业主希望借助大数据来分析客户行为规律、兴趣爱好、找到目标的客户,向潜在的客户推送他们可能想要的信息,但另一方面消费者也会因为一些不靠谱的信息推送,来揣测相关企业的大数据的水平。除此之外,通过大数据来改变自身运营效率的企业案例,似乎也正在飞速增加着&&因此,从哪个方面看,大数据也越来越有成为公从谈资的资本。然而,大数据到底是什么,可能这些参与其中的人又会给出不同的说法,有技术层面上的解读,有理念层面上的解读,有从使用效果上的事后总结&&但实话实说,与其他IT术语相比,大数据在解释上更具多样性与不确定性色彩。
大数据是噱头吗?
今天我们来谈&大数据到底是什么&,并不想从技术或理念上深究,而希望能一种浅显的描述,来最大限度的达成一种对大数据的共识。其实,大数据这一概念最早成型于IDC与EMC合作的调研报告中,可是那个调研报告的侧重点还在于对互联网、物联网、云计算等大趋势下的数据积累、保存与管理的警示,随后不同的厂商在这一基础上不断扩展、丰富并最终延伸出一个业界公认的4V属性理论(体量Volume、种类Variety、速度Velocity、价值Value,IBM的4V理念将最后一个V定义为真实Veracity),从而形成了一个闭合的大数据体系,从纵向上又总结出从硬件基础设施到数据管理,再到数据分析,最后是数据呈现等4层架构。归根结底,大家最后的共识都认为大数据最终要用服务于社会的,这是它的终极用途,之前所说的积累、保存、管理、分析都是为这一目的服务的。
这么说来,对大数据的认识似乎又统一了,但也因此也使很多人对大数据概念嗤之以鼻。如果仅就大数据最终要体现出应用的价值为社会服务的话,与以前的数据挖掘、商业智能理念又有怎样的区别呢?大数据中的体量,可能在很多场合也并不能体现出来,可能就是几TB的数据也能把人搞得焦头烂额,无非就是数据类型扩展而已。所以,说&大数据只是一个噱头&并无道理。
但是,当前的一些大数据的应用案例,也的确与以往的数据仓库应用不同,这其中可能有非结构化与结构化数据的原因,但也有一新的理念、处理模型与手段的变化。至于哪些新东西是因大数据引发的,我们在此也没必要去纠缠,只需要解答一个核心的问题即可:数据到底是什么?
数据能源?
如果说很多人追捧大数据的神奇在于,它可以将原本不起眼的历史数据化腐朽为神奇,那么我们是不是可以将大数据比作一种通过加工而来的一种能源?如果可以,我们放眼地球上的能源,就会发现其与大数据有着太多相似之处。
地球上的能源有很多种,但是它们之所以是能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源,前者可用来取暖、驱兽、加工食品,后者可用来生火。在此之后,随着人类文明的进步,科技的发达,逐渐发现了越来越多的能源,比如煤、天然气、石油、太阳能等等,但是在人类还不能认知它们时,它们就不存在了吗?显然不是,在没有人类的时候,它们就已经在地球上静静的等候了成万上亿年,只是人类掌握了相应的科技与工具之后,它们才得以登堂入室。
数据也是一样,如果数据有着一个生成/采集&&应用/加工&&保存/管理&&分析/挖掘&&再保存或删除这样的一个周期的话,那么在其生成的那一刻起,它就存在着应有的价值,只是在于你是否有能力去发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下几十公里有石油,他们也无法开采,所谓的数据分析,道理也是一样的。
从人类发展的历史来看,不断发现新的能源,是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的能源。从这个角度讲,当前的大数据所带来的种种神奇,只是人类在数据收集、管理、分析等领域的一次进步而已,它有出现的必然,而非人类的一种&顿悟&。
我们再来看看地球能源的4V属性:
图注:大数据的4V属性:Volume、Variety 、Velocity和Value。
1、Volume&&储量:现在已经探明的,或新探明的煤、天然气、石油、风、太阳能等能源的储量是相当惊人的,但遍布于多种地形、地貌中,就看人类有没有本事都能获取到了。
2、Variety&&类别:随着人类技术水平的进步,所获得的能源种类也就越来越多,并且越来越多以前认为不行的资源,后来也慢慢成为了能源,放射性元素就是典型的例子,而若技术成熟,海水将成为人类用之不竭的新能源。曾经有一篇科幻论文说得好&也许未来只需要一把泥土,就能把火箭送上月球&。另一方面,不同能源所需要的开采技术与工具也各不相同,这就好比结构化数据与非结构化数据的处理手段的差别。因此,人类面对的能源类别越来越多,它也需要人类具备越来越多种类的能源开采能力。
3、Velocity&&开采/转换效率:很难想像一口一天只产一加仑的油井有什么价值,如果一个太阳能的光电转换效率不到1%,还有使用它的必要吗?因此,人类在能源上的开采/转换的效率将决定这种能源的可利用性,就如果做数据分析,今天的销售数据分析,一个月后才能出来,那不分析也罢了。
4、Value&&价值:能源的价值取决于它所能提供的能量与贡献,谁都知道95号汽油比92号汽油好,但也更贵;煤很便宜,但能提供的能量也相对较低;电能,在目前仍要通过其他能源转换得来,这都是价值之所在。它决定于自身的属性,与相应的数据挖掘与提炼的能力,前者相当于汽油与煤的不同,后者相当于炼油厂在95与92号之间的提炼工艺不同。它们都最终决定了数据的价值&&并且像某些大数据宣传中所鼓吹的那样,好像任何数据用大数据分析后,就能黄土变黄金一样,这是不可能的,除非你自己对某类数据的认知就有偏差(原本就是土,和原本就是金子,有着本质不同)
IBM所提倡的Veracity,我认为可以理解为能源的提炼水平,就算是95号汽油,中国产的能和欧美产的相提并论吗?这就是所谓的真95与假95号的区别。另一个典型的例子就是浓缩铀,丰度为3%的铀235的低浓缩铀可用于核发电,而丰度高于90%的铀235则可以用来制造核武器,两者的价值肯定不一样?所以,这种提炼质量与能力上的区别也最终会体现在能源的价值上。因此,IBM强调数据分析的准确与真实,可以与能源提炼过程中的纯度相对应,体现了对数据分析的一种质的要求。
图注:IBM把大数据第4个V定义为Veracity。
说完理念的对比,再看纵向技术架构上的相似之处,大家可以想想大数据中所谈到的数据采集、汇总、保存、管理、分析、呈现是不是与能源的勘探、开采、汇聚、保管、提炼、使用有着一一对应的关系呢?
特别需要指出的是,现在物联网的一大分支&&工业互联网越来越热,而大数据就是其最后的重要支撑(前不久通用电气还专门为此投资了Pivotal),其理念在于将各种传感器、致动器也纳入整体的信息采集体系,借助工业设备管控平台,分析出存在于工业设备内有价值的信息,以便于管理、精度调校以及健康预警。想想看,这是不是像地质勘探中,将不同炸点的传感信息汇总起来,再通过震荡波分析软件,来呈现出地下的矿产分布与结构视图?
大数据到底是什么?
话说至此,我们应该可以总结一下了&&在某种角度上讲,大数据其实就是人类能源开拓历史在IT领域的一种再现与映射。
无论从理念还是实现手法上,大数据的种种说辞,都可以在人类悠久的能源勘探、开采、利用的经验中到对应的关系,因此,从根本上讲它并不新鲜。
但关键就在于,在IT领域,对于&数据能源&的认知水平,远不如人类对其他类别能源的认知,所以当我们有一天终于完善了相关理念基础,开发出相应的工具,看到了数据内部的能源之后,可能就一种当初发现石油一样的冲动,进而将其夸大、神话。但是,仔细想想,对于已经经历过太多这类惊喜的人类来说(火、电、煤、油、气、核能、太阳能,哪个不给我们一个惊喜?),应该不必如此大惊小怪。
我认为,在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。大数据其实是对人类在数据利用方面进入的一个新阶段,它代表了一种理念(数据能源)、一种思路(从数据收集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据、语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类对数据认知的新能力,也进一步打开了人类的数据利用方面的想像空间。就这一点来说,全盘否定大数据,一概以噱头蔽之,也是不可取的。
总之,我们必须明白大数据并非是从天上掉下来的,是人类IT水平发展到一定阶段的必然结果,就像PC、智能手机等出现一样,是很多相关技术互动过程中自然而然的产物。我们要从一个整体去看它,不能一上来只看到某些诱人的东西,而将这些原本很平实的信息变成了一种&传说&。显然,大数据现在有这种倾向,它似乎无所不能,无所不包。就像我们上文所说的那样,如果数据本身的价值就在泥土一级的,也就不用指望它能提炼出黄金,大数据分做的只是将原本就存在的各种等级的&数据能源&真实的呈现出来而已。在可预计的未来,它将成为一种常态,一种基本的能力,就像现在的汽油一样,每辆车不用因为烧汽油而会自豪,会成为传奇。
所以,我认为当前的大数据热潮应该有针对性的降降温,让其回归本色,还原其实质,并将精力放在一个能源开采者所应投放的地方&&数据采集的渠道是不是不够广?数据汇聚的能力是不是不够强?数据管理是不是太过复杂?数据处理能力是不是太弱?数据分析太是不是不智能?数据的呈现是不是易用性与友好度不同?&&其实当一件事,到最后大家都要做的时候,当一种能力,大家都要具备的时候,它也就不是神话与传奇了,大数据即是如此。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章大数据时代,几个例子告诉你什么叫大数据_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
大数据时代,几个例子告诉你什么叫大数据
上传于||暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
你可能喜欢这名医生忙碌一天,累得虚脱,喝葡萄糖补充体力。
盛开的鲜花茂盛蔚为壮观,像印在墙上的鲜花瀑布。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  文|刘金玲(36大数据创始人)
  经常有朋友通过知乎私信、微博私信、电子邮件、QQ和微信问我,如何进入大数据行业?该学哪些知识?大数据行业如何创业,到底先从哪里做起?我想,这些问题,并没有一个准确的答案,关键在于,你到底想不想干?想不想在大数据时代闯一把。
  我曾经看过一本由朗达&拜恩写过的心理学励志《TheSecret》,书籍的最核心思想就是,你心里想什么,想要什么,那么这些愿望就会实现。在此想要推荐给那些想要在大数据行业有所作为的朋友作为参考。
  回到主题来说, 大数据到底怎么玩呢?咱们今天不谈宏观思想,不谈科技技术,以游戏的方式来写写看。先说怎么玩的事。
  无论是想要介入大数据的企业或者个人也好,想要在大数据行业创业的朋友也好,我觉得首先最重要的莫过于两点:
  一是喜欢、相信大数据,且矢志不移的走下去。这一点很重要,尤其是在大数据变现商业模式还不明朗的时候。精神这种东西很奇特,如果你相信,你就不会害怕一路上的任何坎坷。千万不要因为天天看着各种鼓吹大数据的新闻,盲目跟风,头脑一热就栽进来。学大数据技术的朋友也一样,技术往往是枯燥的,你只有相信和喜欢,你才能坚持学下去,才能保持学习的激情。因为相信和喜欢,你才会充满热情,创业也一样。
  二是态度方面,一定要有怀着虔诚敬畏的心,把大数据当作一个新的产业来做。为什么要当作一个新的产业呢?因为新兴的东西,必定充满想象力。你不能一味用原来的思维模式来做大数据,来学习大数据。因为没有成功的范例可学。学美国吗?Palantir是美国最具代表性的大数据公司,可是Palantir的模式就一定适应中国互联网的环境吗?不一定。而且有一个很有趣现象可以和大家分享,在36大数据的网站上,点击最高的文章不是我们从北美科技网站上翻译过来的文章,而是中国大数据技术人员自己写的干货教程类文章。万万不可断了对 大数据这个行业的想象力,有想象力就有创新,这就是一个新的行业,一个充满魔法的行业。
  以上两点为本文的核心思想,下面开始玩大数据这款“新游戏”吧。
  大数据新手村:选择职业-创建角色-熟悉系统功能
  刚进入大数据游戏的朋友,首先面临的就是自己的角色定位。有编程/C++/JAVA等技术基础的人员,那么给自己的定位应该还是技术方面的,可以拓展和充实大数据技术,比如从学统计学、R语言、SPSS、python、SAS开始,然后进阶学Hadoop、Spark等等。如果你从前的工作经验是市场销售人员,那么就可以结合以往的经验,先去大数据公司,从市场销售人员做起。大数据行业非常缺市场销售人员。如果你以前是做项目管理和运营工作的,介入大数据行业,也可以先从项目管理和运营做起。如果你是应届毕业生,那么要结合自己的大学专业和实际情况来定位,看看自己能做什么,喜欢什么,从最基础的做起。
  也就是说,在大数据的新手村里,创建角色和选择职业,其实是从自己的实际情况出发的,先做你自己能做的,有经验后再去想自己想做的。路嘛,总是走着走着就有的。不可能说你从前是一个销售人员,跨越到大数据行业你就想做CEO,这不靠谱。互联网企业、传统企业想要介入大数据行业也一样,首先你得先把自己能收集的数据收集起来,结合着公司的运营来展开。
  选择好自己的职业方向就可以创建角色了,跨界往往是最难的,也是最简单的。核心还是从自己能做的做起,先有一个大数据行业的角色。
  接着就是熟悉大数据游戏的系统功能了。大数据新闻去哪里看?哪里可以找到免费的数据源?哪些工具是处理大数据要用到的?微博需要关注哪些数据科学家?大数据企业有哪些?近期有哪些大数据的活动等等。可以自己列出一个list来,先熟悉这个行业。
  大数据练级:做任务和打怪升级
  网络游戏里的角色养成,总是要经过一段时间的。从新手村出来,如何练级和升级就很重要。先说练级吧,因为大家介入大数据行业选择的职业不一样,那么练级方式也不一样。大数据技术人员,当然是一边学习新的技术,一边完成上级布置的工作了。市场销售人员,就要结识更多的行业人员,参加一些活动来获得经验和人脉。运营人员呢,更多的是完成NPC的任务,这些任务的下达者可能来自于你的上司,也可能来自你的合作伙伴。
  当你参与过很多项目,完成很多任务,杀死很多BUG之后,你的从业经验自然也会增长,等级也会增长。这是一个漫长的过程,需要有耐心。当然,有时候你玩着玩着一个角色,突然发现自己不喜欢,上手很困难,那么就要考虑换一个方向了。互联网产品总是强调优化和迭代,实际上对于职场人员来说,迭代也很重要,需要自己不断的去完善自己,改进自己工作的不足。
  参加活动这个环节很重要,网络游戏里的活动要么就是促销打折,要么就是高经验奖励的活动。在大数据领域,参加各种沙龙、圈子和讲座也很重要。因为参加了这些活动,也许你结识到新的合作伙伴,拓展了自己的人脉,以后小伙伴们一起下副本才能组到人啊。我非常鼓励大家参与大数据行业的线上线下活动,这并不是说你关注一个如同36大数据的微信公众号就行了,而是需要你参与到大家的讨论当中去。实践经验很重要。比如说大数据技术人员,参加大数据各种竞赛就很重要。
  大数据游戏角色提升:高级装备和镶嵌宝石
  当你在这个行业有2年左右的工作经验时,你就会发现,自己的DPS(工作输出内容)和治疗量(项目经验)似乎没有别人高,小伙伴们组队都不愿意叫你了。这个时候,你需要做的就是提升自己的装备,拓展更多的知识面来完善自己。以往的工作经验就是装备,你需要把这些经验回顾和总结,哪些现在还用得到的,那就强化一下,镶嵌个宝石,打个附魔等等。如果发现自己的知识点已经无法满足和完成更高阶的工作时,就要学习新的知识点和新的技术,参与到新的项目,进修新的学科,推到BOSS来获得新的装备。这是一个不断完善自己的过程。
  在去年数据分析行业峰会上,我演讲的PPT里有一页是这样写着的 :数据科学家=统计学家+程序员+讲故事的人+艺术家 C Shlomo Aragmon。没错,大数据行业是个复杂的新兴行业,你永远有学不完的知识,而且跨度还很大。因为要学的东西很多,那么如何选择呢?当然还是选择自己喜欢的感兴趣并且用得上的知识点。当然了,目前大数据行业从业人员还停留在打怪升级阶段,这一阶段暂时还不用着急考虑。先做自己能做并且想做的事情,先学自己工作中必须用到的技能。
  写到这里, 我想切回来说说如何开始大数据创业的事情。
  首先就是要找到创业的方向啊。创业的方向来自哪里?来自百度网页?来自你每天查看的新闻?来自微信群朋友圈的分享?
  来自生活。
  创业方向不是你整天坐在办公室,开着电脑,看着网页就能找到的。而是你要去和身边的朋友聊,去和参加线下活动遇到的朋友聊,去找现实生活中的人聊。去倾听他们的心声,去了解他们的需求,去找到市场的机会。大数据最大的能力是精准推荐、预测和解决问题。如果你能用大数据去解决很多很多人的需求时,就可以往这个方向开始创业了。
  创业的突破口往往都是最简单的,如果你不能用一句话来说清楚你用大数据做什么,那么你这个idea肯定火候还不够。
  在我所认识的大数据创业公司里,当创业人员和我展示他们产品的时候,我总会问一句话,你的产品痛点是什么?很多人往往会给我解释半天,但是我个人倾向于这样一句话:
  我们用大数据来解决(或帮助)_________行业的________问题,从而让他们(变得)________,实现_________增长。
  比方说美国的Palantir公司,他们就是用大数据来帮助政府进行反恐,找到了本拉登;
  又比如说中国的大数据公司DataEye,他们就是利用大数据来帮助手机游戏公司和手游开发者能够随时掌握游戏玩家消费情况,通过有效的产品优化和运营活动,实现营收的增长。
  再比如说36大数据一直在用的百度统计,他们就是利用大数据来帮助网站站长随时了解自己网站的浏览量、PV、百度排名等情况,为网站内容和版面优化提供有效的决策参考。
  也就是说,你的创业idea和商业模式是可以用一句话说清楚的,如果说不清楚,那么就要先想清楚。
  关于大数据行业的创业机会和方向,请参考36大数据之前的发布的文章《一文了解大数据领域创业的机会与方向》,百度就可以搜索得到。
  总结:
  个人如何介入大数据行业?
  ①根据自己的工作经验和专业来选择;
  ②先做自己能做的,然后不断完善自己。
  ③学习大数据行业所需的技能
  企业如何介入大数据行业?
  ①结合企业目前的情况来展开,先从整合行业内部数据源开始;
  ②找专业/合适的人来管理企业内部数据,整合外部数据
  ③从数据中获得洞察力,用数据指导企业营收,用数据解决企业尚未解决的企业难题
  ④通过数据,拓展出更多的商业机会
  如何开始大数据创业?
  1、想清楚谁为你买单(找用户);
  2、痛点是什么(找需求);
  3、稳定/独特的数据源(找数据);
  4、靠谱的人做靠谱的事(找人才);
  5、考虑2C的产品方向;
  6、忘记科技行业过往经验;
  7、将大数据产品化 (小而美);
  8、深耕一个领域,不断的试错和迭代。
  近期精彩活动(直接点击查看):
  福利 & 阅读 | 免费申请读大数据新书 第8期
  END版权声明:
  转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。
  大数据为大家提供与大数据相关的最新技术和资讯。
  长按指纹 & 识别图中二维码 & 添加关注近期精彩文章:
  160515 深解读:什么是数据科学?如何把数据变成产品?
  160511 一篇文看懂Hadoop:风雨十年,未来何去何从
  160510 全球20个最佳大数据可视化工具,高级PPTers的法宝
  160508 揭秘47万微信群和2亿微信用户背后的数字规律
  160507 未来世界上市值最高的公司,可能是这位。。
  160503 一篇对大数据深度思考的文章,让你认识并读懂大数据
  6年,文本分析、情感分析和社交分析的10大趋势
  年内,这三大领域将被人工智能和大数据重塑
  160412 爬取QQ空间3000万用户,玩玩大数据分析
  160331 华为内部狂转好文,有关大数据,看这一篇就够了!
  160303 大数据的误区:数据统计≠大数据
  160106 用户画像全解析 | 都在说用户画像,你真的了解透了吗?
  160102 自拍有风险!大数据在用什么姿势“出卖”你?
  6年大数据发展七大趋势
  151109 大数据告诉你,电商会把假货发给谁?
  151023 凯文&凯利:未来20年科技的必然走向
  151007 十张图看懂未来的大数据世界
  150928 大数据研究常用软件工具与应用场景
  150812 中国互联网公司最新最全阵亡名单,涉及16个领域千余企业!附死因和反思!
  加载中
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:什么是大数据时代的思维_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
什么是大数据时代的思维
上传于||暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
你可能喜欢什么是真正的大数据
现在大数据火得不行,几乎人人都在说大数据,但到底什么是大数据,恐怕没有多少人知道,鱼目混珠的人太多。
大数据不是指很多很多数据。
所以不是存储了很多数据就是在搞大数据了,因为“大数据”只是个简称,说全一点应是“大数据挖掘”,没经过挖掘的大数据只是没有开采出来的原油,一点用处都没有。
大数据也不是指一般意义上的数据挖掘。
有很多人以前是搞数据分析或数据挖掘的,当《大数据时代》这本书一问世、大数据开始火的时候,他们摇身一变就成了搞大数据的专家了。如果真是这样,就根本没必要提大数据这事儿,因为它本来就一直存在着,只不过换个说法。就好像我们没必要今天突然提出个说法“饮H2O”来代替“喝水”。嗯,对,那叫玩概念。
“大数据挖掘”其实还没有说全,再说完整点,应该是“大数据自动挖掘”。
以前的数据分析或挖掘,是指人通过数据去进行分析,挖掘出一些规律性的东西以供以后使用。
但面对大数据,由于不光是数据量太大,而且往往包括数据的维度也很多,人已不可能去处理这样海量的数据,甚至是如何处理都不知道,这时必须用电脑来自动处理,挖掘出数据中的规律。
但是目前电脑还不能像人那样进行严密、复杂的逻辑思维,因此它们也无法用我们人的思维模式去分析数据,人可能只要较少的数据就能分析出其中的规律,数据多了反而没有办法,所以我们人类都是采用抽样分析。
电脑则正好相反,无法根据少量数据去分析出规律,但它有一个优势,那就是运算速度非常快,因此有可能处理海量数据以后找出其中的规律。
由于电脑还不能进行复杂的逻辑思维,所以它的处理方法很简单,就是进行简单的统计运算,也就是“硬算”,统计出在什么情况会出什么样的结果,然后当类似的情况再出现时,它就会告诉我们可能会出现某种结果了。
由这里也可看大数据的另一个特点,即大数据主要是进行预测,告诉你未来将会出现什么样的结果。而不是只分析出过去的走势和现状,未来还是要由人去判断。
为什么这种简单的方法会有效呢?这就回到“大数据”这个词上来了,那就是因为数据量非常大,统计出来的结果就往往是正确的。
大家一定都知道这个例子,扔硬币来统计正、反面出现的机率,如果只扔10次,也许正面出现9次,以此来得出结论肯定是错的;但如果你扔10万次、100万次,甚至更多,那你统计出来的结果基本是正确的,正、反面出现的机率一定是各50%。
是的,大数据自动挖掘就是依据这一原理。
这里没有严密的因果分析,不是通过数据分析出原因再推导出结果;而是通过统计知道有这样的情况,一般就会有这样的结果,也即现象与结果的相关性。所以大数据就有一个显著的特点,只关心相关性,不关心因果;用更通俗的话说就是“只知道结果,不知道原因”。
这实际是人们根据电脑的优势,找出了一个全新的数据分析、挖掘方式,与传统的方式完全不同,所以传统那些搞数据分析或挖掘的专家并不能称作为搞大数据的。
不过你一定要小心,冷不防你就会碰上一个这样的专家,他们甚至可能是来自某名牌大学的知名教授之类。进到书店你也会看到许多讲大数据的书,封面无一例外都有很大的“大数据”三个字,但其实都是在讲传统、人工的数据分析方式,和大数据一点边都不沾。当然,这里不包括《大数据时代》这本书。
另外,传统搞神经网络、深度学习等人工智能的,也基本不算大数据,因为这里面还是很多人为因素,包括建模型、对程序进行训练等,这里人仍需要对所分析的业务逻辑非常熟悉才能做,目前这种方法也难以达到实用的效果。而大数据只是让电脑根据一些简单却巧妙的算法,去进行大量数据的统计,找出连人都想不到的规律。大数据在这里基本是与业务逻辑无关的,人不需要知道这是什么业务,比如分析移动互联网行业的数据,他不需要知道这个行业的来龙去脉、当前状况等,他只需要对大量历史数据进行统计,就能够找出其未来的走势。
说到这,你一定很想问,那就找不到一个真正搞大数据的了?
先来讲个小故事:
80年代有俩计算机呆子在IBM做翻译系统。当时的砖家都在探索语言之间的内在联系,语法、句法神马的。俩呆子路数不同,他们把能找到的各种语言相对应的文献全部做成数据,旁人批评“这种计算机蛮力不算科学”,后来他俩被一个对冲基金老板招走了。现这俩呆子是复兴科技co-CEO,老板是Jim
复兴科技co-CEO每位年收入大概是1亿美元,比华尔街各大行CEO的年收入要高一些,关键是这两位几乎名不见经传。他们老板James
Simons比较有名,是位数学家,跟陈省身一起写过定理,跟杨振宁是同事,年收入超过10亿美元,现在退休做慈善。清华有Chern-Simons楼,是杨振宁拉Simons掏钱修的。
在金融投资领域,只关注相关性、不关注因果的对冲基金做得很好(复兴科技,DE Shaw),但金融理论基础深厚、大数据分析能力欠佳的公司却没有类似的业绩,MIT金融学家罗闻全坦言不明白复兴科技在干什么。
喂,说你呢,别老盯着人家年收入1亿美元。
这里关键的是很多人批评“这种计算机蛮力不算科学”(这些人肯定都是砖家,否则估计也没资格批评),还有就是金融学家们完全不明白他们在干什么。
这说明了什么?说明了在国外发达国家赞成这种方式的人很少,知道怎么用这种方式的人就更少了,那么各位可以想像下在中国能有多少人知道这种方法该怎么做。
在中国,如果谁用这种非主流的野路子做事,别说评专家、教授了,更别说什么收入上亿了,你估计不被饿死的机率有多大。
反正笔者知道一个家伙,从2000年开始,就像美国那两个呆子,用这种“不科学的蛮力的硬算方法”进行语义相关度分析,做的事与那两个呆子搞的翻译系统异曲同工,都是有关语言的。可以说他在这方面做出了突破性成果,然而他写的成果文档,博士、专家们看都不看。他现在也就在一家小公司做一份普通IT工作,勉强维持温饱,曾经好长一段时间找不到合适工作,差点去洗碗、当保安。
也许有人要问了,搞语言方面的去搞数字,这靠谱吗?用大数据的思路,你别管原因,那两个复兴科技的呆子已经告诉你结果了。
非要知道原因,也可以跟你说说:
其实语言比数字复杂太多了,举个简单的例子吧:1和2,电脑天然就知道它们的关系,知道哪个大、哪个小,以及大多少;但是“人”和“大”,电脑怎么知道这二者有什么关系,要知道也行,传统的方法就是进行很多人工注解(专业叫词性标注)。要让电脑自己通过数据挖掘来知道文字的意义和相关性,甚至连基本的词库都不给电脑,而让它自己去建,那实在太难了点,简直就是匪夷所思,然而那个家伙做到了。
也就是说在大数据方面,语言处理与数字相比,难度绝对不是一、两个数量级的差别,因此能做语言的,做数字就很简单了。在有就还是大数据的特点,大数据是不管你什么样的数据,它就是找出相关性,所以文字和数字并没有太大区别。
前段时间那家伙碰到有人提出一个行业趋势分析的问题,他说只用一个小时就想出了算法,只要把大量数据拿来就能出结果,但是在中国没人敢相信他。
好了,有点跑题,不好意思。不过你现在知道什么是真正的“大数据”了吧。首先记得大数据是用来进行预测的,即直接告诉你未来的结果,另外就是牢牢记住7个字“大数据自动挖掘”,那就谁也忽悠不了你了。
我可以提供“什么是真正的大数据”的讲课,其中会更加详细讲大数据的原理,如果需要可与我联系。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 大数据分析 的文章

 

随机推荐