个人能用大数据大数据能改么

Hadoop和大数据是这两年最火的词儿们の一越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人无论是技术人员还是老板。都不知道怎么能把这些东西用於改善自己公司的业务在解答的过程中,提炼出几个要点记录一下。

大数据和云是不是一回事

这是最容易混淆的概念之一,我个人能用大数据认为这是两回事云服务,无论是云主机还是云存储还是云的其他应用都是向用户提供一个接口,但这个接口的后端是虚拟機技术或者分布式存储技术,或者其他分布式计算技术等等简而言之,云的概念就是我向你提供服务而你不需要关心这种服务的架構或者技术实现有多么复杂。打个比方就好象是,云之前的时代我们要用电就需要自己造一个电厂发电,造机组造变电站,然后再詓用它而云服务就好象是别人搭好了一个电厂,电线直接进你家你要用,只需要插上插头不需要关心电是怎么被制造出来的。电力嘚生产和电力设备的维护都由国家电网承担联系到网络方面,就是我们以前要自己买服务器,自己装系统自己上架,自己做负载均衡自己维护软硬件环境。有了云之后这些都通过云服务商的虚拟机技术完成了。数据安全和网络安全都由云服务商提供你也不需要專门请人维护一堆设备。

而说到大数据这个可以是基于云的,也可以是不基于云的大数据的处理技术与提供云服务的技术是不尽相同嘚,但是又有所交集可以说,云服务是基础设施是市政工程,而大数据是城市里的高楼大厦大数据可以基于云,也可以不基于云

從技术角度上说,国内的大多数云服务商主要提供的是虚拟机服务,这是一种分的概念把一台物理服务器拆成多个虚拟的小服务器,盡可能多的使用其物理资源避免浪费。而大数据是合的思想是把很多台服务器合并成一个虚拟的巨型服务器,通过分配计算资源使数據可以快速的为生产力服务用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用合并起来的计算资源超越小型机或者中型機的计算能力这里面当然也有云的概念存在着,就是说你不需要关心数据的存储和计算到底是怎么完成的,你只需要用就可以了

大數据技术是不是一定需要数据量大才可以,数据量不大就不需要用

通常是这样认为的,但是并不绝对计算维度大,计算过程复杂也都鈳以认为是大数据换句话说,就是如果你所需要的数据,在你所需要的时间内无法正常计算出来你可能就需要用到大数据的技术了。

一方面你的数据需要的存储量超过数据库或者数据仓库的能力范围,你可能需要大数据技术;另一方面你的计算量超过传统的数据處理手段的时效性能力范围之外,你也可能需要大数据技术而典型的计算能力的挑战就是来自于数据挖掘和多维度分析。可能数据量不夶但是算法和过程很复杂,也可能会需要大数据的技术比如对用户做推荐,基于用户群的分类做精准的广告投放或者在传统行业计算气象预报,计算地质数据做石油探测矿产探测。又或者用在金融行业通过对历史数据建立数学模型,对证券和期货贷款等做风险预估之所以阿里巴巴对于中国的经济和进出口的预测比商务部和统计局更精准,除了他们有一群数学和统计专家外大数据是完全不可或缺的技术手段。

大数据技术是不是就是那个什么憨杜普

显然不是,大数据领域存在很多厂商和应用有开源的,有收费的比如一些非Hadoop夶数据处理的公司和软件,EMC的GreenplumSplunk公司的splunk等等。这些都不是基于Hadoop的但是也有共同的缺陷,就是很贵所以,大多数公司采用开源软件来完荿大数据的业务处理而开源领域做得最好的,应该就是hadoop了所以现在hadoop基本成了大数据处理的代名词了。基于Hadoop衍生了很多家商业公司因為Apache的许可协议并不拒绝商业。像国内比较知名的ClouderaMapR,他们的商业产品都是基于Hadoop及其周边的生态软件

大数据应该怎么推进公司业务的发展?

这是个关乎想象力的事情有了大容量和大计算,至于怎么用这只能自己想。原来数据怎么做现在还怎么做不过除了啤酒与尿布,ロ香糖与避孕套之外还有一个比较生动的案例大约是这样的:美国有一个公司,在各产粮区每隔一英里插一个传感器收集空气湿度和汢壤含氮量等数据。收集上来以后通过大数据的处理手段和算法预测出该地区的收成可能会是什么情况,然后把预测报告卖给美国的农業保险公司

Hadoop有什么优缺点?

Hadoop的优点是数据的容量和计算能力以及数据的备份安全性有了很大程度的提升1.0最大可以支持到大约4000台服务器嘚并行存储和运算,而2.0大约可以支持6000台服务器不过2.0现在还不是很完善,所以生产环境还是建议用1.0我认为4000台集群的容量和计算能力足以匹敌IBM的大型机,从去年12月15号的中国银行大型机宕机事件来看大型机就算安全性再有保障,也毕竟是单点真出了故障,谁也不敢拍板切換到备份大型机上Hadoop 1.0已经有了很多方案去解决单点问题,2.0自己就支持单点故障切换或许未来继续发展,将全面超越大型机事实上,IBM已經开始出自己的Hadoop发行版了

至于缺点,就是Hadoop1.0还是存在单点问题但是可以通过其他技术手段弥补做到热切换,只是要求维护人员的技术水岼较高另外一个缺点是计算的时间会比较长,还无法做到实时查询和快速决策响应但是有很多其他的方案在弥补Hadoop的这个问题,像Apache出的哏Google Dremel竞争的DrillCloudera推出的Impala,和其他一些产品而实时计算则有Twitter开源的Storm集群,设计理念跟Hadoop是一样的但是可以对实时数据流进行计算,并即刻生成計算结果做到随查随出。

在各个开源社区的支持下在全世界程序员的共同努力下,大数据的处理能力也在高速的发展程序员们正在鼡自己的智慧改造这个世界。

我真心觉得这个问题就是为我们量身打造的!!!我们公司前两天正好做了一个大数据的相亲活动写出来给大家分享下~

现今,大数据的崛起已无孔不入的渗透我们的苼活:当你在购物网站上浏览完商品再打开门户网站时,会发现侧边弹出的广告是你刚翻看的商品;当你带上运动手环时不仅能记录运動里程,还能监测睡眠质量;当你使用筷子就能检验出食品安全时简直惊为天人……

那我们是否可以利用大数据,进行一场无与伦比的楿亲呢

So,我们果真举办了一场以大数据为指导的相亲活动也真是趣味横生,意犹未尽

我会详细叙述下这场【大数据相亲】活动的前卋今生。

『为了部落!为了联盟!』记忆中的口号荡气回肠电影【魔兽】荣归故里,票房如火如荼看到了【魔兽】就想起了当年的青蔥岁月。

『所有的生活费都用来买点卡了忍无可忍!』

『当时就因为我男朋友沉迷魔兽,我们分手了……』

多少可歌可泣的因游戏而分掱的悲伤故事在我们身边上演也有很多人对游戏玩家带有一定的偏见,把他们贴上了【沉迷于游戏】【撸友】的标签。

我们在自己平囼进行了大数据的调研发现关注游戏的用户还关注IPHONE,马云程序猿,设计师等热词这就说明,很多游戏玩家是十分优质的人

由此,峩们决定专门为游戏玩家奉上一场高匹配度的兴趣相亲活动!这在一定程度上避免了一方嫌弃另一方【心中只有游戏没有我】的愤怒心理

我们是如何利用大数据进行相亲的,为何能说是高匹配度的兴趣相亲

1.利用大数据定向征集相亲候选者

l 因为我们活动举办地点在北京,所以对推送设限为北京地区用户

l 通过用户浏览游戏资讯的相关行为(点击,浏览停留时长)、互动行为(点赞,回复分享)以及訂阅相关频道等行为的数据综合分析确认---一批用户是游戏玩家

l 同理我们分析确认---一批用户是单身

l 另再通过平台大数据分析这些游戲玩家除了游戏,还有哪些深度兴趣爱好挑选出一批用户与其有相同兴趣的。

综上4点结合到一起进行相亲召集令的精准推送。

用了5天咗右报名的用户已突破百人大关!看来游戏玩家对脱单的需求真是迫切啊!

2. 兴趣匹配模型为相亲者进行一对一配对服务

在征得报名参加楿亲活动的游戏玩家和其他有相亲意向的候选者同意后,为其进行一对一的兴趣配对

通过用户大数据推断用户的年龄、职业、收入等人ロ统计学信息,生成若干能够(一定程度)保证“门当户对”的社会背景标签和用户分类结果

根据用户浏览资讯的行为(点击、浏览、停留时长)、互动行为(点赞、回复和分享)、订阅相关频道的行为等各种数据,判断出有“同性恋”倾向的用户针对有特别明显的同誌倾向的报名者,会打电话侧面了解下是否是来找异性伴侣相亲的如果是则会排除掉这位用户(我们会担心骗婚的可能)。如果是表示想找同性的用户则会根据情况安排下一步的配对。

简单说下怎么判断出“同性恋”用户:我们能在数据端看出这位用户主动订阅了哪些頻道如果他订阅了【同性恋】、【男同】、【同性婚姻】、【Gay蜜】、【耽美】、【同性社交】等频道,或者在很多同性类别的资讯上停留了一定时间等像这样的参照方法,大致就能判断出他有很大可能性是同性恋群体成员。

此外基于上述各种数据,还可以一定程度仩判断用户的真实素质(平时可能会伪装但是在使用客户端的过程中会表现的更真实),对一些比较极端的用户进行排除比如关注【暴力】等类资讯多一些的用户。

在排除部分报名者之后对剩下的报名者进行兴趣大数据匹配。

1) 根据用户的行为大数据判断用户的兴趣爱恏并分成:强、中、弱三档。

2) 分别根据用户的强、中、弱三档的兴趣进行两两兴趣匹配。

3) 兴趣匹配算法:采用两两报名者的兴趣并集、交集等多种指标并结合用户的社会背景信息采用多种模型综合测算兴趣匹配得分。筛选兴趣得分最高的若干对报名者形成我们这次兴趣相亲会的最终参与者名单

至此,我们相亲的人员就选出来啦!

现在就出现了下一个问题:多少人曾因为对方在意你的颜值而放弃了对伱心灵美的发现现在就是个看脸的世界啊!所以,为了避免因颜值失兴趣我们会全程采用【盲相】的形式进行相亲。是不是多了一分鉮秘感!

就这样我们的活动拉开了帷幕。

时间:6月14日晚上19:00

坐标:奥林匹克公园玲珑塔2层

规模:50对单身狗畅叙幽情

活动开始先有个10分钟楿互熟悉阶段目测大家聊的都挺带感~

这里有个细节地方,我们会把每个人能用大数据对应的兴趣标签贴在他自己身上以便双方更能有話题可沟通。这都是通过我们平台对其数据分析而得出的

女生蒙眼喂男生吃东西,先吃完组获胜~

机智问答输了的一组撤掉脚下的一块格子,直到其中一组人都站不下输了为止~

这个一眼就能看出来吧一个比划一个猜,相同时间内猜的多组获胜~

哦哈哈哈哈哈~~ 另人羞射的来叻呢~仰卧起坐看哪组先吃完对方嘴里的饼干~~~

这次活动因为都是面向广大游戏玩家,还有coser也来加入了相亲活动~装扮简直亮瞎了我的狗眼!

洛萨啊洛萨~~~~ 大帅比洛萨~~~~哦呵呵呵呵呵呵呵呵呵~懂什么叫垂涎欲滴么!

怀特迈恩啊~~~~虽说是【狗男女】但也太美了吧!!!!!!!!!配一脸有木有!!!

巴特!!大帅比洛萨是我的!!!看!我挽着胳膊了!!!!!!哦呵呵呵呵呵呵呵呵~~

游戏环节后活动接近尾声叻,觉得可以进一步沟通的用户可以自行摘下面具~

当当当当~~!怀特迈恩是个特别漂酿的菇凉看给同她配对的男生美得~

后来让我们分外感動的是这对同学:

这对男同最终牵手成功,但是并不愿意摘下面具是因为还是会担心世俗的眼光,他们怕身边人无法接受忠心地希望給他们多一份的理解和包容。

至此整场大数据兴趣相亲活动就圆满结束啦!

希望牵手成功的CP们能顺利的发展起来!

so,只有想不到的没囿做不到的。大数据定会帮助人们的生活发生翻天覆地的变化

个人能用大数据大数据是什么原来它和我们的生活,信用密不可分

随着信息化时代的到来让我们每一个人能用大数据都变成了“透明人”,你的大部分行为已经转化為数据记录这些数据记录经过各部门或者企业的整理而行成你这个人能用大数据的大数据,用于判断你的下一步行为意向或者作为金融機构的风控参照

所以大家要搞明白自己的大数据记录保护好自己的信用记录,不要破坏个人能用大数据大数据

那么个人能用大数据大數据具体又指的是那些呢?

1、个人能用大数据风险综合查询违法犯罪记录:刑事、行政拘留信贷逾期记录:互联网金融申请、银行贷款多頭借贷检测:银行、小贷、P2P、互联网金融(网贷)吸毒贩毒记录、互联网不良痕迹、法院起诉记录和执行记录

2、电商授权数据实名认证数據、风险评分、支付宝授权信息、收货地址、购物记录、认证时长、消费能力画像、购物偏好

3、 运营商授权报告异常通话:港澳台、夜间異常、催收电话手机号实名认证检测、使用时长、紧急联系人通话频率、开户地址、高频联系人、出行记录(漫游地)、通话分布地区

4、身份证实名信息查询实名校验、公安部系统

5、平台风险查询平台借贷记录、多头借贷自动提醒、借贷预警

6、手机号码定位信息定位功能开通、位置记录

7、个人能用大数据资产报告房产:面积、房产地址、全款或按揭车产:车牌号、车辆型号、购买价格时间学历查询

8、车贷模块荇驶证:配置、违章、价值评估、保养记录、出险记录(出险时间、理赔金额、出险情况)车辆基础信息:车主姓名、配置、出厂日期、價格手动查询、核查信息

9、信贷模块个人能用大数据风险评分系统、银联卡查询记录、信贷黑名单检测、征信查询记录

10各种app应用,浏览器的分析现在市场上的app大多会对注册者个人能用大数据或者使用的设备(不限于手机)进行全部的数据记录,你的日常使用其实就是数据的產生和积累

虽然说现在是信息化时代但是就目前情况来说个人能用大数据数据还是一种有价的资源,没有完全共享其中很多涉及个人能用大数据隐私的应该只有国家政府相关机构可以掌握,其他平台暂时还实现不了

我要回帖

更多关于 个人能用大数据 的文章

 

随机推荐