汽车设备运行工况况大数据需要什么软件

近年来随着感知技术和计算环境的成熟,各种大数据在城市中悄然而生城市计算就是用城市中的大数据来解决城市本身所面临的挑战,通过对多种异构数据的整合、汾析和挖掘来提取知识和智能,并用智能来创造“人—环境—城市”三赢的结果微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题、典型应用、主要技术等方面对城市计算研究进行了全面而详细的分析,让我们一睹为快!

城市计算的基本框架及核心问题

城市计算的基本框架包括城市感知及数据捕获、数据管理、城市数据分析和服务提供(如图1)与自然语言分析和图像处理等“单数据单任务”系统相比,城市计算是一个“多数据多任务”系统城市计算中的任务包括改进城市规划、缓解交通拥堵、保护自然环境、减少能源消耗等。而一个任务又需要同时用到多种数据例如,在城市规划的设计过程中需要同时参考道路结构、兴趣点分布、交通流等多种數据源。

城市计算是一门新兴的交叉领域涵盖面较广。从计算机科学的角度来看其核心的研究问题主要包括以下4 个方面:

如何利用城市现有的资源(如手机、传感器、车辆和人等),在不干扰人们生活的前提下自动感知城市的韵律是一个重要的研究课题。如何从大量嘚传感器和设备中高效而可靠地收集、传送数据将给现有的传感器网络技术带来挑战此外,人作为传感器参与到城市感知过程是一个新概念例如,当一场灾难发生后有些用户会在社交网络上发布消息或上传照片。这些用户其实就是在感知发生在他们身边的事情用户茬出入地铁站时的刷卡行为也间接帮助我们感知了地铁系统的拥挤和人们的出行。人赋予了传统传感器强大的感知能力和前所未有的灵活性但产生的数据更加随机、无序(如微博上的文字),数据的产生时间也变得难以预测、不可控这给数据的收集和解析带来了挑战。

城市产生的数据五花八门属性差别很大。例如:气象是时序数据兴趣点是空间点数据,道路是空间图数据人的移动是轨迹数据(时間+ 空间),交通流量是流数据社交网上用户发布的信息是文本或图像数据。如何管理和整合大规模的异构数据是一个新的挑战尤其是茬一个应用中使用多种数据时,只有提前建立起不同数据之间的关联才能使后面的分析和挖掘过程变得高效、可行。

这部分包括三个方媔:(1) 如何从不同的数据源中获取相互增强的知识是一个新的课题传统的机器学习往往基于单一数据,如自然语言处理主要分析文本数据图像视觉主要基于图像数据。在城市计算的很多应用中对不同性质的数据一视同仁,其效果并不理想(2) 在保证知识提取深度的同时,洳何提高对大数据的分析效率从而满足城市计算中众多实时性要求较高的应用(如空气质量预测、异常事件监测等),也是一个难题(3) 數据维度的增加也容易导致数据稀疏性问题。当数据规模达到一定程度简单的矩阵分解算法都变得难以执行。

城市计算常常催生混合系統如云加端模式,即信息产生在物理世界通过终端设备被收集到云端(虚拟世界)分析和处理,最后云再将提取的知识作为服务提供給物理世界的终端用户数据在物理和虚拟世界中来回穿行,从分散到集中再到分散。这对系统的设计和搭建提出了更高的要求基于浮动车数据的快速行车路线设计以及城市异常事件的监测都是典型的混合式系统。

城市拥堵在一定程度上突显了现有道路网的设计已经不能满足不断发展的城市交通流的需求如图2(a) 所示,利用高速和环路等主干道将城市分割成区域然后分析大规模车流轨迹数据在不同区域の间行驶的一些特征,便可找到连通性较差的区域对从而发掘现有城市道路网的不足之处。图2(b) 给出了基于北京市3 万多辆出租车3 个月轨迹數据的分析结果这些结果可以作为制定下一版交通规划的参考。同时通过对比连续两年的检测结果,可以验证一些已经实施的规划(洳新建道路和地铁)是否合理

城市的不断发展催生了不同的功能区域,如文教、商业和住宅区等准确掌握这些区域的分布对制定合理嘚城市规划有着极其重要的意义。但是一个区域的功能并不是单一的例如在科学文教区里仍然有饭店和商业设施的存在。因此一个区域需要由一个功能的分布来表达(如70%的功能为商业,20% 的功能为住宅剩余的为教育)。由于一个区域杂糅了很多不同类别的兴趣点而且烸个兴趣点的作用大小和被访问频度都很难预知,这给城市规划提出了很大的挑战例如,同样都是餐馆一个小区里的小店和全聚德之類的大店所反映的区域功能是完全不一样的。

所示相同颜色的区域具有相同的功能分布(如红色区域主要为科学文教区)。图中所采用嘚人的移动性数据是从出租车的轨迹数据中提取出来的该轨迹数据包含乘客上车和下车地点的信息。人的移动性数据可以很好地区分相哃类别的兴趣点的热度也可以揭示一个区域的功能。例如有一个区域大部分人都是上午8 点左右离开,晚上7 点返回则这个区域很可能昰住宅区。一个区域的主要功能是文教但也不代表该区域的任何一个地点都服务于文教。因此给定一种功能,我们希望知道它的核心區域所在图3(b) 显示了成熟商业区的核心区域,颜色越深表示该区域是成熟商业区的概率越大

T-Drive 系统利用装有GPS 传感器的出租车来感知交通流量,并为普通用户设计出真正意义上的最快驾车线路如图4 所示,T-Drive 提出了一个基于地标图的路由算法其中一个红点表示出租车司机走过朂频繁的路段之一(称为一个地标),红点之间的连线表示连接两个地标点的一条虚拟边代表连续经过这两个地标点的出租车轨迹的聚匼。根据出租车轨迹数据可以学习出任何一条虚拟边的通行时间。T-Drive 的改进版进一步考虑了天气及个人驾车习惯、技能和道路熟悉程度等洇素提出了针对个人的个性化最快线路设计。这个系统不仅可以为每30 分钟的驾车路程节约5分钟时间还可以通过让不同用户选择不同的噵路来缓解可能出现的拥堵。

打车难是很多大城市面临的一个问题通过分析出租车乘客的上下车记录,T-Finder提供了一个面向司机和乘客的双姠推荐服务一方面,这个系统向出租车司机建议一些“趴活”地点只要向这些地点行驶,司机将在最短的时间内(在路上或者推荐地點)拉到乘客并且使收入最大化。另一方面如图5(a) 所示,该系统向乘客推荐一些周边的路段在这些路段上寻找到空车的概率更高(不哃颜色表示不同概率,蓝色最高红色最低)。同时T-Finder 还可以预测周边的一些出租车停靠站在未来半小时内将驶入的空车数目。T-Finder通过推荐能够缓解非高峰时段的打车难问题但该系统并不能真正解决高峰时段的问题。T-Share则通过出租车实时动态拼车的方案来解决这一难题在T-Share系統里,用户通过手机提交打车请求表明上下车地点、乘客人数和期望到达目的地的时间。后台系统实时维护所有出租车的状态在接收箌一个用户请求后,搜索出满足新用户条件和车上已有乘客条件的最优的车这里的最优是指出租车去接一个新的用户所增加的里程最小。如图5(b)所示该出租车被规划为先后接 u1 和 u2,放下 u1 接 u3再放 u2 ,然后放 u3(+ 表示上车- 表示下车)。根据仿真结果显示TShare系统一年可以为北京市節约8 亿升汽油(可供100 万辆车开10 个月,价值10 亿元人民币并减排二氧化碳 16 亿千克),乘客能打到车的概率提高3 倍但费用降低7%,出租车司机嘚收入增加10%

图5 城市计算中的出租车解决方案

还有一些研究工作,利用乘客在地铁系统中的刷卡数据来估计单个地铁站点内的拥挤程度和鈈同站点间的通行时间从而优化人们的出行线路、时间和购票方式的选择。还有人通过分析出租车的轨迹数据来建议开通公交线路如果有大量的人通过打出租车从一个地点到另一个地点,则说明这两个地点需要公交线路来连通

空气质量信息对控制污染和保护人们身体健康有着重要的意义。很多城市都开始通过建设地面空气监测站来实时感知地面的空气质量但是由于监测站的建设成本高昂,一个城市嘚站点有限并不能完全覆盖整个城市。如图6(a) 所示北京城区仅有22 个空气监测站点(平均约100平方公里设一个站点)。然而空气质量受多方媔因素影响(如地表植被、交通流量、楼房密度等)而且随地域不均匀变化。如果一个区域没有监测站我们并不知道该地区空气质量嘚好坏,更不能用一个笼统的数据来概括整个城市的空气状况

利用群体感知是解决这个问题的一种方式。例如“哥本哈根车轮”项目茬自行车车轮里安装一些传感器,通过用户手机将收集的数据发送至后台服务器依靠群体的力量,我们就可以感知整个城市不同角落的溫度、湿度和二氧化碳浓度由于受传感器大小和感知时间的限制,这种方式只适用于部分气体如一氧化碳和二氧化碳。由于传感器体積较大不便于携带,对于细颗粒物(PM2.5) 这样的悬浮物则需要2~4 小时的测量时间才能产生较为精确的数据

U-Air 利用地面监测站有限的空气质量数据,结合交通流、道路结构、兴趣点分布、气象条件和人们流动规律等大数据基于机器学习算法建立数据和空气质量的映射关系,从而推斷出整个城市细粒度的空气质量图6(b) 显示了北京某时刻的细粒度空气质量(其中不同颜色表示不同污染指数,绿色为优)

社交网络的盛荇,尤其是基于位置的社交网络的风靡带来了丰富的媒体数据,如用户关系图、位置信息(签到和轨迹)、照片和视频等这些数据不僅表现了个人的喜好和习惯,也反映了整个城市人们的生活方式和移动规律基于这些数据,产生了很多推荐系统包括朋友推荐、社区嶊荐、地点推荐、旅行线路推荐和行为活动推荐。文献A survey on recommendations in

城市计算中的社交应用更加强调从大量用户的社交媒体数据中提炼出群体智慧人莋为一个重要的感知和计算单元参与到计算的过程中是城市的重要特点之一。例如一个用户的签到或者带有地标的照片数据都可被看成昰不确定的轨迹,原因在于用户不会不停地签到或拍照在得到这样一条轨迹数据时,我们无法判断出该用户选择的具体线路如图7(a)。但昰当我们把很多个用户的不确定线路叠加到一起,就能猜测出最有可能的线路如图7(b),即“不确定+ 不确定→确定”这样的应用可以帮助人们规划旅行线路。例如一个用户想在一条线路中去后海、天坛和颐和园3 个地方,把这3 个点输入到系统里可以根据大众的签到数据計算出一条最热门的游玩路线。

社交媒体数据同时也向城市计算的其他方面贡献着力量例如,通过网民在社交网络中发布的信息来预测總统选举结果、疾病蔓延和房价走势发现异常事件和灾难,分析交通流量设计广告推送和商业选址。通过社交媒体还能分析一个城市嘚风格以及不同城市之间的相似性

的出租车在加油站的等待时间来估计加油站的排队长度,估算出此时加油站内的车辆数目及加油量通过将全城的加油站数据汇总,便可计算出任意时刻消耗掉(加入到汽车油箱里)的燃油数这些数据能实现三方面的应用:第一,给需偠加油的用户提供推荐信息寻找排队时间最短的加油站;第二,可让加油站运营商知道各个地区的加油需求从而考虑增加新的站点或動态调整某些加油站的工作时间;第三,政府可以实时掌握整个城市的油耗制定更为合理的能源战略,如图8

vehicles通过分析人口数据、车辆的軌迹数据、各地区能源消耗情况和兴趣点的分布来研究未来新能源汽车的充电站建在何处最优也有不少工作通过分析汽车内部的传感器數据(如踩油门、刹车的时间和次数等)来建议经济省油的开车方式。

城市经济是一个相对成熟的研究领域例如,分析决定土地价格的洇素、土地使用限制对经济的影响公司选址和人们选择住宅的位置对周边未来经济的影响等。

placement通过分析大量用户的签到数据为商业选址提供位置建议比如,要开设一个新的麦当劳餐厅什么地方是最理想的位置。结合道路结构、兴趣点分布、人口流动等诸多因素来对屋嘚价值排序即在市场向好时,哪些小区的房价将会涨得更多;市场下行时哪些小区的房价比较抗跌。与使用传统经济学模型不同以仩这两个例子采用了机器学习算法和数据驱动的方法。

城市中总是会有一些突发事件如自然灾害(地震和洪水等)、大型赛事和商业促銷、交通事故和临时管制、群体性事件等。如果能及时感知、甚至预警这些事情将能极大地改善城市管理,提高政府对突发事件的应对能力保障城市安全,减少损失和悲剧的发生

data通过分析北京3 万多辆出租车的轨迹来发现城市中的异常事件。其主要思想是当异常事件发苼时附近的交通流将出现一定程度的紊乱。文献Inferring the root cause in road traffic anomalies 试图用具体的交通线路来进一步解释异常出现的原因如图9所示,L1 连通的两个区域之间絀现了交通流异常但问题本身可能并不在这两个区域。其原因在于天安门附近因马拉松比赛而导致了交通管制之前通过紫色虚线出行嘚车流就不得不绕道到绿色分段线的线路。所以绿色的线路才是产生这次异常的原因根据司机选择路线的改变来捕捉交通异常,并进一步从相关的微博中提取关键词来解释异常的原因如婚博会、道路坍塌等。

移动轨迹数据库来对日本大地震和福岛核事故发生后的灾民移動、避难行为进行建模、预测和模拟这样日后再有类似事件发生时,便可从之前的灾难中吸取经验提前做好准备。例如为人们推荐匼理的撤退线路。

实现现有专业传感器(如温度传感器、位置传感器、交通流线圈、空气质量监测仪等)之间的互联互通完成数据的快速收集。

用户通过主动分享自己获取的数据来共同完成一个复杂的任务例如,每个用户都利用手机上的传感器来分享自己周边的气温和濕度从而构建出全城细粒度的气象信息。

城市里各种信息基础设施(如蜂窝移动通信系统和公交卡系统)为城市计算提供了良好的感知岼台这些基础设施可能并不是专门为城市计算设立的,但当用户在使用这些基础设施时会产生大量的数据将这些数据融合到一起能很恏地反映城市的韵律。例如通过分析大量用户的地铁刷卡数据就能掌握城市的人口流动规律。通过分析大规模的出租车轨迹数据就能感知城市路面的交通流与主动参与式感知技术不同,被动式群体感知中的用户并不知道自己的数据将作何使用甚至不知道自己在产生数據。

由于大量的传感器数据都以流的形式输入高效的流数据库技术是城市计算数据管理层的基石。

交通流、人的移动以及带位置标签的社交媒体都可以表示为轨迹数据(即带有时间戳并按时间排序的点序列)在城市计算中经常会用到轨迹处理技术,如地图匹配算法、轨跡压缩、轨迹搜索、轨迹频繁模式挖掘等

社交网络中人的关系、不同地区之间的人口流动、道路上的交通流等等都可表达为图模型。因此图数据的管理和模式发现技术尤为重要。城市计算的应用中更多会用到带有时空属性的图模型即每个节点都有空间坐标信息,图中邊和点的属性(甚至图结构)会随时间而变化前文提到的最快行车路线设计、查找路网中不合理规划、发现城市不同的功能区域以及交通流异常检测都是以带有时空属性的图为研究模型。

有效的索引可以大大提高数据提取的效率由于空间和时间是城市计算中最常用的两個数据维度,各种空间索引和时空索引都是常用技术更重要的是利用时空索引技术将不同种类的数据(如文本、车流等)关联和组织起來,为之后的高效数据挖掘和分析做好准备

用于城市计算的数据挖掘和机器学习算法比较多。各种模式发现、统计学习和人工智能方法嘟可以应用到该领域但在挑选这些技术时需要考虑以下两个因素:

能从异构数据中学习到相互增强的知识

通常有3 种方法来实现这个目标:(1) 分别从不同数据中提取特征,然后简单地将这些特征直接拼接并归一化到一个特征向量里输入到机器学习的模型中。由于不区分不同數据的特性因此这种方法并不是最有效的。(2) 在计算模型的不同阶段先后使用不同数据例如,文献Urban computing with 来模拟一个地点空气的时序相关性將道路结构、兴趣点分布等空间(非时变)信息输入到神经网络中来模拟不同区域间空气质量的相关性。然后这两个模型在半监督学习嘚框架里相互迭代、增强,共同推断出一个地点的空气质量如果只是简单将所有数据输入到一个分类器中,由于那些空间数据不随时间變化会被忽略,因此预测效果并不好

大数据与数据的稀疏性并不矛盾。以预测城市的细粒度空气为例我们能观测到的交通流、人流、道路和兴趣点数据都是大数据,由于只有有限的监测站能产生空气质量的读数因此,训练数据很稀疏另外一个例子是利用出租车来估计城市的燃油消耗。出租车的GPS 轨迹数据巨大但某些时刻有相当一部分加油站并没有出租车出入。如何估计这些站点的油耗也是一个應对数据稀疏性的问题。解决这一问题通常可采用以下3 种方法:(1) 使用半监督学习算法或转移学习算法如文献使用半监督学习算法来弥补洇空气监测站少而带来的训练样本稀疏性问题。(2)采用矩阵分解算法和协同过滤城市油耗估计就是利用这种方法来解决数据稀疏性问题的。(3) 基于相似性的聚类算法假设我们需要根据埋在地面的线圈传感器来估计行驶在道路上的车辆数,但由于不是所有路面都埋有线圈所鉯很多道路上的流量无法估计。根据道路的拓扑结果、周边的兴趣点分布等信息我们可以计算不同道路之间的相似性,从而对道路进行聚类这样被分在同一个类里的道路很可能具有相同的车流模式。于是在一个类中,我们可以将有传感器道路的读数赋给那些没有传感器的道路

anomalies通过线性规划来分析最有可能造成交通异常的车流。文献Where to Find My Next Passenger? 向出租车司机推荐最优的乘客寻找路线

可视化以直观的方式帮助我們理解获取的知识和模式。图10 是每个工作日 12~14 点之间乘坐出租车到达各个区域的人数的热度图(颜色越深人越多)。将不同时间段的此类熱度图连续播放便可以动态反映整个城市的人口流动规律。相对而言北京东部的中央商业区具有更高的人气。与单一数据可视化不同城市计算中的可视化技术需要同时考虑多个维度,其中空间和时间是两个至关重要的维度

城市计算是一个新兴的交叉领域,是计算机學科与传统城市规划、交通、能源、经济、环境和社会学等多个领域在城市空间的交汇它关系到人类未来的生活质量和可持续性发展。夶数据时代的到来为城市计算提供了更多的机遇和更广阔的前景

基于大数据分析的油气生产设备故障多维分析与预测 [摘 要]文章通过将油气生产设备的故障数据、配套物联网采集的故障期工况数据、设备维修保养记录数据等进行多维组匼通过Hadoop大数据分析技术,对设备的故障率进行分析生成全面的设备质量参考数据;并依据故障率分析结果与实时工况数据进行大数据模型比对分析,实现设备的实时故障预测通过对输入的多维数据进行整合,结合大数据技术在海量数据分析的优势实现了对油气生产領域设备全方位的质量信息评估,并可据此采取针对性的质量改进与预防性措施提升油气生产的安全性和经营效益。 中国 2/vie [关键词]多维分析;故障预测;大数据;油气生产设备 [DOI]10.13939/j.ki.zgsc. 1 引 言 油气生产行业所采用的各类数字化设备较多随着行业的竞争加剧,如何减少设备故障引起的停产时间如何优化采购降低设备故障率,如何提前对故障做出预测以提前应对是石油企业所亟须思考和解决的问题。 随着工业自动化技术、物联网技术、大数据技术在油气生产行业的开始应用为解决上述问题提供了全新的思路。运用大数据技术可高速有效分析多维喥的设备实时运行数据,并结合其他静态和动态信息对设备的故障进行分析和预测,分析结果为生产、经营和QHSE服务实现技术手段和管悝模式的革新,实现科学决策、卓越运营与安全生产最终达到可持续的业务增长。例如茂名石化探索如何在不改变已知原料属性下实現在重整装置上提高汽油收率最高和汽油辛烷值最高的生产目标。为解决这个问题采用大数据分析技术,收集了重整装置近三年的MES、HSE、實时数据库、腐蚀数据、ITCC、机泵监测数据、气象信息等数据通过Hadoop建模,对重整原料历史数据进行主成分聚类分析形成了典型的原料操莋样本库,并据此快速确定每种原料类别下的最优操作方案技术人员对近4600个批次的石油原料进行了分析建模,组成了操作样本库通过該方法计算优化工艺操作参数,可使汽油收率从89.88%提高到90.10%是大数据在油气生产行业应用的成功例子。 本文拟通过将油气生产设备故障数据、配套物联网采集的工况数据、维修保养记录数据及工业自动化数据组合应用于设备故障大数据分析实现对设备的综合故障率分析与故障预测,从而为设备采购的最高性价比提供数据支撑也为预防性维修维护提供决策支持,提升生产运行的安全性和企业经营效益 2 大数據分析技术的运用 油气生产行业设备数据数量大,并发处理要求较高对数据存储、处理、分析的巨大压力,要解决海量数据处理的问题僦需要引入大数据技术 Hadoop是目前最流行和功能最强大的一个软件计算平台,可以很容易地开发和运行处理油气生产过程中的海量数据的分析模型其核心部分主要包括―HDFS(Hadoop Distributed File System)和基于MapReduce机制的并行算法实现。Hadoop提供的分布式文件系统HDFS是建立在大型集群上可靠存储大数据集的文件系統具有强容错性、流式数据访问与大数据集、硬件和操作系统的异构性的优势。而MapReduce是一种简化的分布式程序设计模型用于处理和生成夶量数据集。通过该模型程序自动分布到一个由普通机器组成的超大机群上并发执行。MapReduce通过把对数据集的大规模操作分发给网络上的每個节点来实现可靠性每个节点会周期性地把完成的工作和状态信息返回给主节点,实现大数据的并发处理 Hadoop的上述优点尤其适合于油气苼产行业的海量数据分析应用。 3 设备故障率多维分析 设备故障率是评估设备性能优劣的一个重要指标顾名思义,是设备故障运行与正常運行的比率通过统计的方法可以计算特定个体、特定型号、特定类型或特定厂商的设备的故障信息,对设备时间质量进行评估和横纵向對比 在油气生产中,设备的故障记录信息是故障率分析的依据但因为实际运行中各个井站、矿区的运行情况不同也影响了设备发生故障的情况,因此还需要引入配套物联网采集的工况数据以及日常的维修保养情况记录数据,将这些信息进行进一步组合在Hadoop大数据分析Φ建模挖掘,得出更精确的设备综合故障率结果 本文采用的多维故障率分析,基于3个大类的数据: (1)设备故障信息:包括设备厂商信息、设备类型、设备型号、设备寿命、运行时间、故障类型、故障次数、故障时长、故障恢复时长等; (2)物联网采集的工况数据:油气苼产设备产量、流量、振动、位移以及运行环境温度、湿度、处理物质腐蚀性等; (3)维修保养记录数据:保养级别、保养时间、更换配件比、维修时间、维修级别等数据。 在Hadoop中根据3类数据的权重、优先级,以及每个数据项的占比等进行大数据分析建模。进而将各个維度的数据输入到Hadoop的MapReduce框架中在计算模型中进行分析计算,最后得到分析结果多维分析过程如图1所示。 如上表所示基于大数据分析的油气生产设备故障分析统计过程是从油?馍?产中产生的多维数据(故障相关、设备相关、环境相关、操作相关)中获取在任意时间间隔內的某项故障相关的统计结果。其统计数据源是多维数据按一定规则的组合同时获得相应的不同维度的统计结果。 下面以例子说明分析铨过程 向MapReduce库输入单个设备编号参数、时间区段参数,向Job Tracker提交统计任务MapReduce库将设备故障记录库中的数据分为m个分块。Map Tracker读取分块中的设备故障记录作为map函数输入,map函数按设备编号和时间区段参数将该分块内符合条件的设备故障记录统计出来,结果保存在中间键值对中Reduce Tracker读取所有Map Tracker产生的中间键值对,将其归并为一组统计记录从而得到单位时间内指定设备的故障率,或指定时间范围内该设备故障次数变化趋勢等信息

感谢您能抽出几分钟时间来参加夲次答题现在我们就马上开始吧!

真遗憾,红包与你擦肩而过

来晚一步红包已被抢完了!

用微信扫一扫,即可领取红包

我要回帖

更多关于 运行工况 的文章

 

随机推荐