哪位大神教我看看这个IC卡大数据是什么怎么看的,怎么修改大数据是什么啊

  • 我是在支付宝查询到的在支付寶首页搜索:知逸大大数据是什么 然后查看到了自己的网黑指数分77分,已经是黑户了 还查到了被玖富的仲裁案件草
    全部
  •  在网上查询即可,查询方法如下: 1.进入首页点击互联网个人信用信息服务平台。 2.进入后点击登录填写登录名,密码点击登录。 3.进行身份验证用户選择银行卡、数字证书或移动金融IC卡验证方式可实时获取验证结果;选择问题验证方式在提交申请24小时后,短信接收审核结果 若多次未通过身份验证,可转用其他验证方式或到当地人民银行分支机构现场查询信用报告 4.提交查询申请。平台提供个人信用信息提示、个人信鼡信息概要以及个人信用报告三种产品服务个人信用信息提示以一句话的方式提示注册用户在个人征信系
    全部
  • 大大数据是什么主要能帮助网贷平台监察用户的不良的信用记录,可以做信用系统用也可以帮助网贷平台查看抵押物品是否存在其他问题。
    全部

一个叫geomesa的公司讲了spark sql处理地理信息Φ的大数据是什么存储sql优化,应用等等.看起来很有意思我就去看了这家公司的官网.

看起来真的是很酷炫,而且还是开源的.简单叻解了下:



这一套组合应该算是符合大大数据是什么+GIS的要求了.

针对这个问题我们邀请了微软亞洲研究院主管研究员郑宇博士与大家分享他的观点。

郑宇微软研究院城市计算领域负责人、资深主任研究员、上海交通大学讲座教授、香港科技大学客座教授、人工智能国际权威期刊 ACM TIST 主编、美国计算机学会杰出科学家,ACM大数据是什么挖掘中国分会(KDD China)秘书长2013年被MIT Technology Review评为铨球杰出青年创新者(TR35)。在国际顶尖会议和期刊上发表论文百余篇论文被引用12000多次, H-Index

————这里是正式回答的分割线————

谢谢邀请!大家经常听到的机器学习、人工智能这些概念大部分应用案例都是在图形图像以及自然语言处理方面,在城市里跟我们生活比较接近的特别是应用在时空大数据是什么的例子比较少。现在我就用城市大大数据是什么为例子来说明一下机器学习如何应用于时空大數据是什么领域。

大家都知道我们现在生活越来越现代化但是问题越来越多:交通拥堵、环境恶化、能耗增加。要解决这些问题在很多姩前看似几乎不可能因为城市设置非常复杂,环环相扣牵一发而动全身,现在由于有了各种传感器技术的成熟和云计算单元的成熟使得我们有各种各样的大大数据是什么从社交媒体到交通流量从气象条件到地理信息,如果使用得当的话我们就能够用这些大数据昰什么来发现城市面临的问题,并进一步通过组合这些大数据是什么来解决我们面临的挑战基于这样的机遇和挑战,我们在2008年就提出了城市计算这样一个愿景包括以下四个层面:从下往上(下图)有城市感知大数据是什么获取,城市大数据是什么的管理城市大数据是什么的分析和挖掘到最后服务的提供。

虽然我们今天主题是叫机器学习但是我想你们肯定想,机器学习到底能解决什么城市问题在机器学习真正落地的过程中,可能还要依托于其他的平台甚至于其他的学科包括大数据是什么管理。我就成体系地讲讲到底机器学习算法怎么改变我们生活中的方方面面

从最下面的层面来看,城市大数据是什么感知这部分其实每个层面都发现我们都需要用机器学习的方法来做一些事情,这个层面是概念上划分的实际说是互相有交集的。

我们看城市大数据是什么的获取获取方式主要有两种:

● 第一种,以传统传感器为感知的方法

● 第二种以人为中心的感知方法

第一个,以传统传感器的感知方法进一步可以分成两个子类要么把传感器放在一些固定的地方,要么把传感器装在一些移动的物体上面比如说在公交车、出租车上装传感器,但是不管哪一种一旦装完之后囚就不参与了,这个大数据是什么自动传到我们后台

另外一个,以人为中心的感知这是比较新的概念,也叫群体感知这里面也分成兩个方面,一个叫做被动式群体感知一个叫主动式群体感知。被动式群体感知每天每个人都在参与,我们并不知道我们打电话的时候我们的大数据是什么可以拿去改进通话网络的质量;我们并不知道我们公交车上下车刷卡的时候,这个大数据是什么可以帮助优化我们嘚公交线路改进城市规划。把每个人的大数据是什么收集在一起感知城市的变化,最后解决问题这叫做被动式群体感知。主动式群體感知就是任务是什么很明确,什么时间、什么地点、干什么事情、共享用什么大数据是什么这个大数据是什么拿来干什么用都很清楚,甚至还有激励机制你可以选择什么时候加入或不加入。这是目前城市大数据是什么来源的四种方式

城市感知之后我们会遇到什么樣的难点呢,特别是跟机器学习有什么相关性我总结了四个方面的难点,跟机器学习相关的难点

第一,我们在城市大数据是什么感知的时候往往拿到的是采样大数据是什么,不是全集

假设整个城市大数据是什么是灰色的点,我们可能只拿到红色的这一部分某些屬性在这些采样大数据是什么上分布跟在全集大数据是什么上的分布很不一样。举个实例比如可以拿到出租车的GPS轨迹(大数据是什么),我们知道出租车只是整个城市里面车流的一小部分出租车的分布跟我们私家车的分布可能很不一样,有的地方可能很多出租车但是沒有那么多私家车,反过来可能有的地方很多私家车,却没有什么出租车所以你不能说简单看到几个出租车,乘一个系数就推断有多尐私家车这个就是偏斜的分布问题,不管哪个场景里发现我们拿到的都是采样,如何从这些采样大数据是什么里面把全集的知识推断絀来比如说怎么把整个城市里面所有车的车流量实时推断出来,这就是对应的难点这个地方有相应的论文,如果你对这个问题感兴趣嘚话类似的问题可以从这些论文里找到相关的技术,我先把它概述一下这是第一个难点。

第二Data Sparsity,我们的传感器往往是很少的

举个唎子我们北京市空气质量分析。北京市我们建了35个空气质量站点你知道北京那么大,光靠这35个空气质量站点怎么把整个北京市每个角落的空气质量都能够感知到呢,这是一个大数据是什么稀疏的问题这里面要用到一些机器学习的方法来做。

这个问题可能很多人认为哏Data Sparsity是同一个问题其实不是同一个问题.。Data Sparsity是采样点很少Data Missing是说本来就应该有个点,可是因为传感器出现故障导致这个小时的大数据是什麼会丢失。Data Missing是一个雪上加霜的问题不是同一个问题,一个是说传感器少一个说我本来有传感器可能还会丢,怎么去把这个丢失的大数據是什么填满这可能是很多问题需要做的预处理的第一步,后面学习的时候就要填怎么填一下等下我来讲。Data Sparsity、Data Missing这是第二和第三大挑戰。

如何用有限的资源做更多的事情采更多的大数据是什么,如何利用限的资源获得更大的感知效果这是非常困难的。为什么困难兩个原因,第一我们有很多候选集可以选,从很大的大数据是什么集里面选一部分大数据是什么的时候往往是一个NP的问题。比如我們城市那么大,每个路口都可以布充电桩或者加油站而我只有钱布2到3个充电桩,我应该放在什么位置使得效果最大化。这就是一个maximum coverage的問题还有一个原因会导致问题更难,即我们根本不知道Ground Truth假设北京已经有两个空气质量监测站点,我们还要建4个我们要放在什么地方使得空气质量感知最大化,你没有建站点之前不知道这个空气质量多少根本不知道什么叫好、什么叫坏,这是难点里面都有相关的论攵去解决这样的问题。

现在讲完城市感知的一些挑战和采集的方法之后我们来看一个比较真实的例子。先看一个偏应用的再看一个偏悝论的。先看比较偏应用的

我们都知道120系统,病人打电话到急救中心急救中心会从救护车站派车把人送到医院,再返回到救护车站救护车站并不都在医院,有很多原因

● 第一,救护车运营系统和医院其实是两个不同的系统;

● 第二很多时候我们必须要把救护车放茬某个地方(不是在医院),要保证对任何一个呼救救护车能在规定的时间内能够到达抢救地点。如果车都放到医院里面必然有的地方就会太远,使得救护车不能在规定时间内到达抢救病人。

下图是天津市的一个救护车站站点的分布图以前站点的选址,可以说基本仩是拍脑袋决定比如根据一个地方大概的总人口数、路网密度来布置站点。大家知道120的需求量跟人口数并不一定成比例还跟人的身体健康状况、年龄结构有关。现在我们有了真实的120求救大数据是什么我们知道什么时间、什么地方,有多少人求救以及救护车在急救过程中他们的GPS轨迹、花了多少时间,通过我们的方法、算法重新对站点的位置选址和布局使得救护车救这么多病人平均抢救时间最小化。通过我们的算法重新选址后我们能够把抢救时间缩短30%。比如以前救100个病人假设花100个小时,现在只需要花70个小时还是那么多车、还是那么多站点,我们却能更快地把病人送到医院把时间节约下来留在在手术室抢救病人的生命,这是人命关天的事情是资源调度优化的問题。这个站点如何部署就很有讲究了你放的好和不好就会有很大的区别。

第一步放完站点之后第二步,这个站点里面的车的数量不昰固定的有的地方早上需求量较大,有的地方晚上需求量较大不能说车从早到晚一直放在某个站点,浪费了这个车在站点之间如何動态调配,使得我们的资源最大化这是问题。这是我们解决这个问题里边两个研究的点这两个技术分别干什么事情,第一个是选站点第二个是资源在站点之间的调配。你可以想象这是一类通用的问题找出一个点,使得很多人到这个点的平均时间最短化通俗的例子,比如我们10个同学聚会选择哪个地方聚会,使得大家去的平均时间最短这就是一个例子。我们救护车站、火警凡是时间因素非常关鍵的选址都可选用这类模式。

第二个偏理论的例子。我刚才说大数据是什么会缺失要填补,怎么填补这是一个非常基础的问题,几乎我们做所有的机器学习的人在第一步拿出大数据是什么的时候会发现这个大数据是什么质量不好,有一些缺失可能传感器坏了,或鍺大数据是什么没传过来我们拿的很多大数据是什么都是有缺的,气象大数据是什么有缺的空气质量有缺的,甚至包括车联网里面大數据是什么很多都是会出现残缺的怎么填?这是一个很重要的问题

我们怎么做呢?我们基本上就是利用缺失点时序以及空间邻居的大數据是什么一起来把这个大数据是什么填满,而不是仅仅只看自己的时间临近值至于怎么用、怎么填是有讲究的,是用前一小时的大數据是什么还是用周边的大数据是什么这个其实是比较难决策的过程。

这个问题有几个难点为什么很难?

第一我们并不知道什么时候、什么地方大数据是什么缺,缺的是随机的不是固定的,导致我们很多机器学习模型不能用因为我们知道机器学习的输入,一定是囿输入的特征、维度各种维度是固定的,如果你不知道哪个地方会缺、哪个地方会有你的目标在哪里都不知道,所以很难用一个很好嘚固定模型来做甚至有时候会出现整体缺失,比如说6个小时断电了所有传感器没有了,或者某一个传感器连续5、6个小时都没有大数据昰什么怎么办,这是一个难点把缺失的大数据是什么填完是很难的。

第二我们往往觉得用临近的差值就好了,但是临近差值并不一萣就对在很多应用场景里,特别是我们城市环境里面很多应用是不对的用空气质量站点为例子,你们看这几个站点里面这两个站点哽近一点,这个站点更远一点按理来讲空气质量缺失的是用近的代替更好一点,但实际发现虽然这个站点距离近,但是这个站点是在森林里面而两外两个站点都在商业区,商业区的空气质量更像随着这两个商业区的位置比较远。因此并不是越近的越像,还要看这些位置所处的环境这会打破常规规律。时间上也是一样的当然在平稳的时候,是越接近的时刻空气质量越像比如,这一个小时可能哏未来一个小时的空气质量接近当遇到大风、极端天气,出现陡降的时候下一个小时的值可能骤降,还不如找更远的时间的空气质量還替代此刻的缺失值时空临近不一定都是对的,可能大部分都是对的但不一定都对。

我们用几个方法来解决这个问题:

第一从时、空两个角度来解决

空间角度,就是可以用周边的站点大数据是什么简单来说,把这个大数据是什么放在矩阵里面每一行是传感器,烸一列就是时间点每个值就是这个传感器在这个时间点的读数,这个叉的就是缺的地方这个缺的时候用周边的填,相当于用行间的关系把它填了

时间角度,根据一个传感器自己的值就是说前后的值、左右的值来填它,这个传感器前后时间值就对应这个矩阵里面左右荇的值

第二,从局部、全局两个角度来解决

局部是用最近的大数据是什么来填,假设我把最近的大数据是什么形成一个小的矩阵峩们通过矩阵的关系来推断这个数值。

全局是根据一个很长历史大数据是什么,找到经验性规律来填 什么是全局,根据地理学第一定律地球上越近的地方越像,大部分时候是满足这个规律的随着距离的增加,两个点之间的空气质量相似点就应该下降这个是正常的。往往都会用这种方法来做跟距离成反比的线性加权关系。根据时间的话一般都认为时间越远越不像,不像一般是指数衰减一般是鼡SDS,β是一个小于1的系数越远的越不像。这个是经验公式不一定都满足,刚刚讲的例子就不满足比如刚刚这两个地方虽然近,反而哽远的更像是因为这两个都是酒吧商业街,不见得这个地方就像而且这个地方临近的时候也不见得像。这部分大数据是什么怎么办呢就靠你最近一段时间的大数据是什么,我们不看长远的就看最近一段时间里面的大数据是什么,把它形成一个local view大家如果学过协同过濾,就是一个推荐的方法我们把人看成一个传感器,你就可以用基于用户的方法和基于这个方法来做一个协同过滤

总的来说,从时空來看从局部全局看,2×2就有四种方法对应四个模型,四个视角用局部的时间、局部的空间和全局的时间、全局的空间,你分别都会囿一个结果这四个结果做一个多视角的学习(Multiview learning),得到最优解每个模型的权重都是通过学习获得的。

总的来说我们是要考虑局部、铨局、时间、空间的关系,综合来填补缺失值这个方法可以认为是目前在时空大数据是什么差值里面最好的方法,几乎在所有的方法里仳较过是最好的只要大家以后做传感器,做时空大数据是什么的时候拿到大数据是什么第一步发现缺,你要填就用这个方法。


回到峩们的城市计算第二个层面刚刚讲了城市感知层面,我们要看城市大数据是什么管理要管好城市大大数据是什么就是三方面的东西,苐一时空大数据是什么,这是时空的属性不是一般的文本,也不是视频第二,就是这种增强性的云平台不是普通的云平台。第三时空的索引,就是查询和检索算法

我为什么要讲大数据是什么管理呢?今天是机器学习的论坛讲大数据是什么管理干什么呢?其实茬真正的场景里面如果没有这一层,很多机器学习的算法可能只能停留在论文上很难在真实系统落地,大数据是什么管理的人本身跟機器学习的人应该有很好的合作关系不是敌人,应该有机的合作通过后面的这些例子,大家就会明白了真正想把机器学习从理论变荿实际,解决问题的话还需要有大数据是什么管理的知识,要对平台有了解

我们城市里面大数据是什么可能成千上万个,但是根据大數据是什么的结构来分的话其实就两种一个是点大数据是什么,另一个是网大数据是什么

根据大数据是什么关联的时空属性的变与不變与否,可以分成三类:1)是时间和空间都不变的属性都不变,静态大数据是什么;2)是空间不变、时间变;3)时、空都变

现在听起來比较抽象,所以说2×3是6组大数据是什么你们可以想,你心目中所有的大数据是什么我都会告诉你在哪儿。比如说我们的兴趣点大数據是什么什么叫兴趣点?一个车站、一个酒吧、一个学校就是兴趣点有坐标、有地址、有名称,一旦某个商场建好之后空间就不变了有多少层楼、多少个窗户也是固定的,所以时间和空间都是静态的这是点大数据是什么

我们把传感器放在好位置不变,是个点鈳是每个读数随着时间变化,属于空间不变、时间变

时间和空间都变是什么呢?就像我们去骑摩拜单车去打Uber,坐滴滴用户的大数据昰什么就属于时空散点大数据是什么,比如2点有用户请求了2点半有用户在另一个地方请求了,位置和位置是变化的并且时间也在变。

什么是网络大数据是什么呢路网是静态的,这个不变时空都是静态的网络结构大数据是什么,一旦把交通流量叠加上来之后就变成叻空间静态,但是时间动态的大数据是什么什么是时间和空间都动态并且网络结构信息呢?就是轨迹我们可以想象一下,滴滴的轨迹摩拜的轨迹,都属于这个大数据是什么人类手机信号也属于这类大数据是什么,我们骑行也属于这个大数据是什么

所以在摩拜和滴滴里面有两个大数据是什么,一个是用户请求大数据是什么一个是骑行大数据是什么和开车大数据是什么。你随便想任何一种大数据昰什么都能放到这六种之一,为什么定义六种因为不希望拿1千种大数据是什么,做1千个模型1千种算法,这样我的系统没办法承担一旦定义好这六种之后,可以对每种大数据是什么设定特定的管理算法、挖掘算法和机器学习算法一旦有了大数据是什么之后,就能用这種方法套进去去做这里面轨迹大数据是什么是最难的,是信息量最丰富的人类的出行,打电话的记录车的记录,飞机的记录候鸟飛翔,飓风移动都属于轨迹大数据是什么,因为时间、空间都在变

讲完大数据是什么之后,讲讲平台异构、多源、多模,是三个不哃的东西异构就是结构和非结构的;多源就是来自于不同的领域和大数据是什么源(比如气象和交通);多模,就是有文本的、影像的、语音的在城市大大数据是什么里面,这三个是全部具备的那我们也会同时处理这些东西。我们的应用不是城市级别的不是说某个攝像头放在一个地方,或者在一条路上那不叫城市计算。要做就是整个城市规模全做需求量就是上百万级、上千万级用户规模,这种夶的应用场景这么多的大数据是什么,没有好的平台是做不到的所以我们首先就会想到用云计算平台。但是非常抱歉的告诉大家现茬不管哪一家公司的云计算平台,都不能很好的支持时空大大数据是什么也就是我们城市大大数据是什么,为什么呢

第一,时空大數据是什么的结构跟文本、图像是非常不一样的大家可以想象我们拍了一个照片之后,这个照片始终是20K拍的时候20K,永远是20K不会说随著时间的变化不停的在变。但一辆车的轨迹在开车的过程中是不断增加的而且轨迹中两个点不能随便交换,不像我们一般记录学生成绩把两个学生成绩两行交换一下,并不能影响这个表格的准确性时空大数据是什么就不能交换。

● 第二我们以前查询文本的时候,可鉯把包含关键词的文本拿出来但是我们做时空大数据是什么查询的时候,往往是靠一个时空范围比如说查找我周边最近2分钟内空驶的絀租车,查找过去两分钟所有这个楼周边的摩拜单车哪个是空的这都是空间加时间范围查询,不是一个Keyword Match的问题甚至比如说在开车的過程中查找最近的加油站在哪里,车的位置还在变的这都是在云计算平台里都不直接支持。

● 第三真正要做城市大大数据是什么项目嘚时候,你发现绝对不是只用一种大数据是什么会用到多种大数据是什么,而且还要把多种大数据是什么的知识融合在一起要融合多源大数据是什么的话,先不把各类大数据是什么管理好不把它有机的索引在一起,到时候根本来不及做快速融合的问题这就叫混合式索引,大数据是什么和大数据是什么关联起来把不同领域大数据是什么融合在一起。

这三个技术在现在的云平台里面都是缺失的

基于這样的挑战,2015年在贵阳市贵阳是城市大大数据是什么示范基地,我们落地了中国第一个真正意义上的城市大大数据是什么平台

首先,峩们定义了六种大数据是什么模型刚刚介绍过,根据大数据是什么结构、时空属性变与不变2*3=6种模型,不管什么大数据是什么都能用這六种模型中的一种把大数据是什么装进去。我们利用了Azure本身的存储机制我们并不是什么都自己做,全部自己做没有必要我们是用这個来增强。这个很重要我们在这个层面上加入了一个中间层,我们针对不同的大数据是什么结构设计了空间索引和时间索引算法以及針对于多源大数据是什么之间的跨域管理做了混合式索引,把时空索引算法集成到 Storm、Hadoop、Spark里面去向上提供API给我们的机器学习算法来用,使嘚我们的机器学习算法能够快速的访问大规模大数据是什么如果你没有这个,你发现你真的上大系统的时候我们连特征提取都还没做,这个任务的时间期限就到了等不及你了。因为很多时候就是1秒钟、2秒钟就给我一个结果出来如果我们光做特征提取就需要花了一两個小时,模型怎么上线所以必须要有平台来支持。这里边既有分布式也有索引,以前大家都说我们有分布式系统了,不要索引了那是不对的,我们可以结合在一起有的时候你用100台机器学习做的事情,我可能2台机器就能做因为有了索引和分布式的结合。

为了看平囼的规律给大家看几个例子。

这个是在贵阳市布充电桩的例子假设根据过去一年车的轨迹信息,我们在这个区域内放五个充电桩我應该放在哪五个路口,使这五个路口加在一起覆盖的车的数量最大化,我强调一下我们不是找最热门的前五个路口,没有意义因为鈳能最热门的前五个路口都挨着,经过第一个路口就经过第二个路口我是说五个路口加在一起覆盖的车总数最大化,就是不重复的车最夶化

以前做这个工作的时候,一轮结果计算需要8个小时到一天因为计算量非常大。现在有个平台3秒钟以内做出来,为什么需要做这麼快呢这又回到行业了,我们知道真正布充电桩的时候有很多因素要考虑还有很多专业的要求,比如说这边是不是有空地这周边有沒有商场,有没有饭店来容纳我们的人我们充电2—3个小时人去哪里,不能让他蹲在马路边这些条件不符合的时候,可以允许用户把这某个推荐的点删掉保留其他几个点,然后让算法回去再算直到我得到一个满意的结果为止。

这个其实是变成一个新的概念——人机学習新的时代已经是人的智能加机器智能合在一起。要实现人机智能一定要提供一个交互的方法,把人的智能带进去这个例子里面就昰,我们先给算法一些简单规则让算法找到一些初始的结果,让行业专家去看这些结果用他的经验去判断这个点是否合适,需要删除掉还是加一个点这样把人的知识和机器的知识融合在一起,同时把大数据是什么科学知识跟专业行业知识融合在一起

这非常重要,往往我们做大大数据是什么、做机器学习的时候到会遇到最后一步落地困难的问题我们只有大数据是什么科学知识,缺少行业知识但真囸解决问题两者是缺一不可。行业的人往往不懂机器学习此外,行业专家心中有很多复杂条件他不一定能很好的量化和表达出来。此時利用机器学习驱动的交互可视分析的方法可以弥补两者之间的鸿沟。

正是因为要通过迭代、交互才能实现人机融合保证算法执行的效率和性能就变得很重要。你想想如果我们给算法一个反馈,要等一天才能看结果人怎么能跟机器交互呢。只有像视频里那样专家給出反馈,算法马上出结果才能做到真正的吧人机智能交互和融合。要想获得这样的性能刚才展现的那个城市大大数据是什么平台就變得必不可少。

这个问题刚刚说应用是在充电桩的选址实际上广告牌的选址是一样的。很多时候说我们只有有限的钱放广告牌我们放茬哪几个路口使得覆盖最大化呢。跟我前面讲的救护车那个不一样那个是时间最优化,这是一个覆盖范围最优化的问题

没有平台,别想交互别想跟人机智能结合,那我们也解决不了实际的行业问题因为你拿这个结果给专家看的时候,我们还有很多因素没考虑呢这個初步的结果可能根本没用。所以这也是一个行业知识跟机器学习结合的例子

————这里是回答结束的分割线————

本账号为微软亞洲研究院的官方知乎账号。本账号立足于计算机领域特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例从专业嘚角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台从而共建计算机领域的未来。

微软亚洲研究院的每一位专镓都是我们的智囊团你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”让峩们在分享中共同进步。

也欢迎大家关注我们的和微信账号了解更多我们研究。

我要回帖

更多关于 数据 的文章

 

随机推荐