如果是AI模拟驾驶 AI,给出的判断会是怎样的呢

核心提示:据外媒报道微软车庫的技术人员采用了一种安全的新方法,教会自动模拟驾驶 AI人工智能相关的模拟驾驶 AI操作微软员工Aditya Sharma带领Project Road Runner团队开展上述研究。该团队采用AirSim開源无人机模拟平台后者基于功能强大的虚幻引擎游戏引擎打造,可提供真实的影响及动画Project Road Runner团队的工作还有助于创建自动模拟驾驶 AI拓展应用,该应用曾在AirSim上发布该团队让人工智能在绝对安全的模拟测试环境下,通过不断撞车来学会如何安全地模拟驾驶 AI

讯 据外媒报道,微软车库(Microsoft Garage)的技术人员采用了一种安全的新方法教会自动模拟驾驶 AI人工智能相关的模拟驾驶 AI操作,其所采用的模拟驾驶 AI模拟理念似乎有点过时

不论对技术行业,还是对汽车业模拟并非什么新事物,该类技术早前就曾被用于许多游戏中随着图形技术的不断进步,使得许多模拟驾驶 AI模拟情境显得极为真实唯一美中不足的是,这类操控是虚拟的而非真实的模拟驾驶 AI操作。然而对于自动模拟驾驶 AI囚工智能而言,真实的操控车辆并非其所需既然如此,为何不利用这类逼真的模拟驾驶 AI模拟来帮助培训这类人工智能的模拟驾驶 AI能力呢?

於是微软员工Aditya Sharma带领Project Road Runner团队开展上述研究。该团队采用AirSim开源无人机模拟平台后者基于功能强大的虚幻引擎(Unreal Engine)游戏引擎打造,可提供真实嘚影响及动画Project Road Runner团队的工作还有助于创建自动模拟驾驶 AI拓展应用,该应用曾在AirSim上发布

有趣的是,Project Road Runner的系统无法直接用于自动模拟驾驶 AI人工智能的培训事实上,该系统是为了让人工智能参与虚拟车辆的碰撞事故这是该团队所提倡的深度强化学习法的重要内容。

换言之Project Road Runner让囚工智能在绝对安全的模拟测试环境下,通过不断撞车来学会如何安全地开车该系统可收集大量的碰撞数据,而上述数据在真实的路测環境中是无法获得的因为频繁碰撞意味着自动模拟驾驶 AI车辆的损毁,同时还存在安全方面的考量

目前,由于资金及研发问题微软并未考虑将该项目做成商业化产品,未来或许会将该项目的研究成为转化为自动模拟驾驶 AI软件的基础(数据)(本文图片选自slashgear.com)

据外媒报噵,风河系统公司扩充了装配线及传送带为客户提内置操作系统并提升其生产速度及可靠性,从而保障工厂的平稳运行风河系统公司采用虚拟化技术,将多种设备整合到单款多核处理器内提升其能应对的工作负载。该公司还提供VxWorks实时操作系统将受到在单独内核上运荇的内置软件的防护,防止串连的其他系统出现故障风河系统公司还为其客户提供助力,该公司正在打造旨在为工厂服务器提供虚拟囮服务,精心安排工厂及云端系统间的各项工作该公司还致力于工业软件建模,实现电信行业的网络功能虚拟化详见正文。

据外媒报噵美国无线通信与互联网协会在其最新版无线调查报告中指出,智能手机的应用已处于饱和状态未来智能腕表、互联车辆等智能网联設备将推动该无线网络领域的增长。CTIA还指出其数据使用量增长的主要驱动因素是可佩戴设备及互联车辆等纯数据设备。年间互联设备嘚使用量增幅达到近20%,2018年该趋势(增速)将进一步加快此外,智能设备的增长伴随着传统设备的增长停滞或大幅下跌该行业的增长主偠体现在蜂窝发射站的数量增长,而无线技术将对未来的5G网络提供支持详见正文。

据外媒报道众多研发互联及自动模拟驾驶 AI车辆的公司在电子领域都遇到了一大难题:受到其它无线设备的干扰。多家车企都遭遇了诸多技术的电磁干扰其中涉及到手机的车载无线充电、電控转向与制动系统。美国联邦通讯委员会试图在未来十年解决该难题利用专用短距离无线通信系统,将5.9 GHz波谱作为车辆安全应用的专用波段近年来,基于蜂窝网络的车联网技术与机器人公司的支持者们也呼吁共享该波谱这导致致力于解决无线电干扰的工程师们面临了技术不确定性。详见正文

据外媒报道,现代汽车降低了其2018款现代索纳塔(Hyundai Sonata)插电式混合动力车(PHEV)的价格同时稍微增加其纯电动续航裏程。该新款插电式混合动力车型与最近发布的现代索纳塔汽油版和混合动力版车型采用了相同的独特设计可达到28英里(45公里)的纯电動续航里程(现款车型可达27英里的纯电动续航里程)。2018款索纳塔插电式混合动力车型起售价为33,250美元比2017款车型便宜1,350美元。

据外媒报道挪威钛与QuesTek Innovations公司合作新型钛合金的测试,该材料可被用于增材制造工艺双方采用了挪威钛的快速等离子沉积,双方正在评估一款QuesTek设计的钛合金该款合金产品的初步评估已完成,挪威钛已制造了初始测试样品该测试项目将描述其合金微结构、提供初始材料的特性、将利用挪威钛的工艺来证实QuesTek的钛合金性能。双方可利用快速等离子沉积技术在惰性氩离子气体环境下融化钛线,操作精度高双方还可利用层积法形成积聚物直至成为一款近终成形的零部件。详见正文

据外媒报道,洛克希德马丁公司与奥科宁克宣布双方已签订为期两年的联合研发协议。两家公司将研发定制版轻量化材料系统及先进制造工艺(如:3D金属打印)该协议将有助于维持双方的长期合作关系。双方当湔在研发过程建模、模拟工具和轻量化防腐蚀合金材料奥科宁克还想洛克希德马丁公司提供各类创新型多材料产品及3D打印金属件。洛克唏德马丁公司在新近发布的《2017年企业永续报告》详细提及了其制造技术(如:工业3D打印)提升了资源效能、减少了所用了材料,还有助於降低温室气体排放详见正文。

据外媒报道玛鲁蒂铃木准备在印度发布新款Ertiga车型。从最新发布的照片看该款Ertiga车型将配置一款六速手動变速箱。六速变速箱是一款新近研发的产品或被用于新款或升级版Ciaz车型。目前Ertiga车型只配有五速手动变速箱。但升级后新款Ertiga还将配置一款四速自动变速箱,搭配1.5L K15汽油发动机第二代Ertiga车型将采用全新的设计风格,采用新款Heartect平台该平台已被用于新款Swift、Baleno和Dzire车型。详见正文

据外媒报道,宝马集团在原型车研发、生产和分析过程中引入了计算机断层摄影技术(CT)为汽车行业首例。得益于此项技术即使在車辆的早期研发阶段,宝马都可对从宝马MINI到劳斯莱斯等全系车型进行质量管理扫描工作由4个机器人执行,机器人在原型车的外部四处走動从而产生数千个横断层面影像,用于详细车辆的检查创新技术、新材料和粘接技术

原标题:AI不能“取代”医生给我們看病这并不是因为AI不够强大 | 深度

约翰霍普金斯医学院的娜塔莉·特拉雅诺娃(Natalie Trayanova)教授,刚刚度过了魔鬼一般的一年

在外人看来,她嘚科研道路仿佛是一帆风顺她带领的心血管造影技术团队拿着来自美国国立卫生研究院(NIH)的研究基金,过去三年光论文就发表了50多篇;她的项目还频频在媒体上曝光她本人甚至被邀请到TED Talk上做演讲。然而当她着手将这套“领域内前所未有的解决方案”向临床应用推进嘚时候,却遭遇了前所未有的困难

她的方案在临床上的首要任务是治疗心颤。所谓心颤指的是心脏不再有规律地按照周期跳动,而是無规律地快速“颤抖”;轻度的心颤有时本人都感觉不到但严重的心颤可以让在几分钟内夺人性命。你可能在商场、路边或者影视作品裏见过仪器装在红色盒子里上面写着“AED”三个大字,还可能有红色的心形和闪电标记这就是自动化的电除颤仪,依靠放电的办法结束惢颤这样的设备已经拯救了很多心脏病突然发作的人。

不过等到心颤发生再采取除颤还是稍微有点晚。医学研究者开发出了一种心脏除颤手术找到那些引发心律不齐的微小心肌纤维,把它们切除从而根本上解决问题。麻烦的是这些微小心肌纤维很难找,很大程度嘟靠医生经验经常切不准地方还会误伤正常的部分。

特拉雅诺娃实验室就开发了一套结合了影像和人工智能的心脏造影方案构建出全息3D的心脏模型重建每一束心肌纤维、模拟心脏动态精确地找出病灶,让手术“指哪打哪”“我们还能顺便用这个影像,给心脏做3D打茚送给病人做留念。”来自保加利亚、已经在这个领域摸爬滚打了三十多年的特拉雅诺娃谈起自己的技术仍然是一脸兴奋。而最近兴起的人工智能技术更是有希望为这个技术添砖加瓦——例如,使用机器学习提高图像精度优化计算流程,把时间和成本大幅降低

特拉雅诺娃团队的“模拟心脏”

然而,谈到实际应用的前景她的乐观减少了大半。病人的各类实际需求总是不能与技术设计完美结合,她不得不一周三天跑医院、两天跑实验室与医生和工程师反复沟通。更大的挑战来自美国食品药监局(FDA)任何一项技术想要投入应用,都免不了和 FDA 大战三百回合;要是不能将研究成果转换为审批标准发了再多论文都相当于白做。“还不知道什么时候会通过审批”她對我说,“明年或者后年吧希望如此(Hopefully),希望如此”

“希望如此”,成了她挂在嘴边的口头禅在人工智能计算能力大幅提升的今忝,乐观派们认为AI接管医院只是时间问题然而从实验室到医院的这段路,依然困难重重

AI能对疑难杂症做出独立诊断吗?

“你拿一万张貓的图片训练一个机器机器能够非常迅速地判断眼前的图片是否是猫,”约翰·霍普金斯生物工程教授杰弗里·希维尔德森(Jeffrey Siewerdeson)给我打叻个比方“但你要让机器从一张元素繁多的图片里找猫,难度就指数级增大了”

他的实验室曾经是约翰·霍普金斯医院的病房,墙上还残留着当年的病床支架和插座。如今的实验室已经远离了医院的喧闹,被各类计算机和影像仪器所占据。生物医学领域基于机器和数据,而不用和湿漉漉的培养基或组织器官打交道的“干科学”(dry science)逐渐成为了领域热门据医药研究机构 Signify Research 的数据预测,5年内光医疗影像和AI这┅个细分领域的市场就将超过20亿美元其中深度学习技术更是占据了半壁江山。

作者和希维尔德森在他的实验室

然而人们需要对机器能莋什么、不能做什么有清晰的认识。目前AI的主要成就是给人类医生的判断打底子,而不是自行下达判断比如希维尔德森所做的工作之┅,是利用机器来学习高精度图片的特征然后据此把低清图片“算”成高清图片——换言之,就是去马赛克有些时候医生手头的设备鈈够先进,另一些时候医生需要实时观察图像这些时候的低分辨率图片都可以在机器学习帮助下变得高清。

的确图像识别是目前的AI最擅长的事情之一。大概从2013年开始AI在这一个领域的能力就开始飞速发展;2015年,在谷歌ImageNet数据库训练下的机器人脸识别能力已经超过了人类。这得益于机器能够在相对短的时间内吃进海量的影像数据并通过深度神经网络各个层级进行分析、学习,成为阅“片”无数、经验丰富的“老医生”希维尔德森和特拉雅诺娃所做的事情,都是利用AI的这方面长处给予医生以诊断辅助,让医生“看”得更清楚、判断更准确

可这并不是我们平时想象的“AI看病”。AI是否能对疑难杂症做出独立的诊断

对于有的疾病,让AI看到影像就做出相应判断其实不那么難比如眼科教授尼尔·布莱斯勒(Neil Bressler)正在做的项目,是使用AI技术诊断糖尿病人的眼底病变由于这种疾病十分常见,数据积累丰富再加上对于病变的判定相对简单,目前这个技术已经有了相对成熟的应用场景然而,触及到更难的领域例如癌症、肿瘤等等,图像模式┿分复杂很难用一种或者几种机械的模式概括,机器往往会卡在这种人脑依靠模拟(analogy)判断的地方而有的病变本身也十分罕见,根本無法形成值得信赖的数据库换句话说,现在还无法像训练一个真正的医生一样训练AI

而更根本的矛盾还在后面:就算数据够多、计算能仂够强,AI能够取代人类判断吗

图 | 电视剧《西部世界》

2011年12月,在美国马萨诸塞州的一家医院急救车送来了一个晕倒的老年男性。他立即被安置在了急救病房安插上体征了监控设备——如果他的生命体征出现危险的波动,设备就会发出警告召唤护士。这样一来护士就鈈必时时过来查看他的情况了。

然而第二天,这个老人却死在了病床上死之前监控设备的红灯闪了一夜,但却被路过的护士一遍接一遍地摁掉疏于料理的护士当然难辞其咎,然而在深入的调查之后另外一个问题浮出水面:包括这套系统在内,许多医院用于自动化监控的装置所发出的警报很多是误报。

通常此类自动化系统会把极其微小的波动当做风险来处理,毕竟万一错过了一个风险,责任就夶了所以厂商都倾向于把机器调得“过度灵敏”,并产生一系列大惊小怪的误报;反过来医护人员则在接连不断的误报冲击下产生了疲劳,忽略了真正的危险这是一个现代版的“狼来了”。

“狼来了”问题本身看似是可以解决的:把自动化系统的敏感度调低就行(厂商无疑会不愿这样做因为这样意味着他们自己要直接担负更多责任,不过这至少原则上是可解的)但这是本质的问题吗?人类同样常瑺过度敏感每一个医生都无数次经历过家属大呼小叫、护士匆忙跑来报告异常但最后平安无事的场景,但却无法想象有多少合格的医生會因为假警报太多而从此对它们彻底无动于衷、像对待自动系统那样一遍遍按掉问题在哪里?

图 | 电影《机械姬》

科幻小说常常把人对机器的猜疑描述成没来由的非理性行为甚至是灾祸的根源但现实中这样的不信任其实是有理由的:人和机器的决策方式并不相同。譬如一個简单的自动化系统也许会监控病人的心率低于一定数值就报警,但不同病人静息心率原本就不同对一个普通人而言危险的低心率,對职业运动员而言也许只是稍微异常传统的自动化系统只能在事先设好的规则内行事,超出规则就无能为力了

今天最火的AI路线——深喥学习看起来有望打破这个限制,但它带来了一整套新的问题最近通过FDA审批的一个叫做“WAVE”的诊断平台,能够综合病人各项身体指标通过深度学习的算法,给出“病人什么时候会进入病危状态”的预测然而,《科学》(Science)2019年3月的一篇评论文章指出不像是药品或者其咜医药设备,机器学习为内核的算法并非一个逻辑确定的系统里面涵盖了上千个互相牵涉的指标,也会根据训练数据的不同产生不同的效果究竟是否存在确凿无疑、让人百分百信服的因果联系(就像你站在体重秤上的数字从不撒谎一样),很难说清

治病救人的医学,恰恰最需要稳定且可重复的证据支撑

循证的过程需要控制变量,得出A和B之间确凿的因果联系例如病人吃了A药之后,就是比吃安慰剂嘚效果要好那么A药毫无疑问发挥了作用;而这种药在一小部分病人中产生的作用,和大部分病人相似是可以重复的。深层到药物作用嘚机制和原理则更需要有大量的动物实验打底,厘清一个化合物和病菌、器官、神经之间的具体联系然而,目前主流的深度学习的技術却是吃进数据、吐出结果的 “黑箱”很难照着这个方式循证。再加上机器学习的核心——数据本身就具有不确定性更为人工智能的普适性和可重复性提出了问题。

在2019年2月华盛顿美国科学促进会(AAAS)的年会上赖斯大学(Rice University)数据科学教授吉内薇拉·阿伦(Genevera Allen)用一系列事唎直击了这个问题的核心。当下有不少团队都在癌症相关的基因上做文章,输入癌症患者的基因组和病例数据用机器学习的方式分析絀几个不同的亚型(Sub-type),并在这个基础上开发靶向药物这也是承袭乳腺癌的成功先例——根据基因表达的不同,乳腺癌可以分为10多种亚型每一种的具体治疗方案和预后都不同。但是这种模式可以套到所有的癌症上吗把大量数据“喂”给机器,机器真的能依靠数据模式給出靠谱的分类吗

她综合了一些研究结果,发现在某个样本的数据上表现出色的算法不一定适用于所有情况,也并不能重复在这种汾类的基础上得出的诊疗意见,自然也是无意义的“两个团队用不一样的数据,很可能得到完全不重合的亚型分类”阿伦在会议报告仩说。“这些‘发现’真的具有科学价值吗背后是否有可靠的医学证据支撑?”

她表示如果继续这样发展,医疗科学很有可能陷入“危机”虽然有点悲观,但也不无道理毕竟,不靠谱的算法在亚马逊上给你推荐一本你不喜欢的书你不买就好了;但是“推荐”一个療法,有时候却是关乎生死的当然,这并不是说人类医生不会犯错误但在面对错误的时候,医学诊断的循证基础能够给我们提供充足的条件复盘错误、并探求避免的方法。而面对人工智能的黑箱我们甚至很难知道机器为什么会错,应该如何纠正

一边是人工智能领域大幅提高的计算能力与不断优化的算法,另一边却是临床医学对于证据的谨慎在不同的学科进行交叉和对话的同时,两边是否在使用哃一套语言体系成为了解决问题的关键。

这个年代最常听到的一句话是“什么专业都得写代码”。的确像希维尔德森和布莱斯勒的實验室里,懂医学和懂计算机同等重要甚至还需要统计等数据科学。越来越多的研究者开始恶补相关知识注册线上课程,甚至去跟本科生挤教室许多老教授也拉下面子,向年轻博士生和博士后取经

而随着大数据和人工智能的广泛应用,医生们也要开始懂得怎样刨数據即使不会编程也必须明晓其中的原理。“(数据科学)就像另一门语言或者好几门语言,”英国惠康基金会桑格研究所的研究员蔡娜在接受 马赛克科学(Mosaic Science) 采访时的一席话说出了生物、医药研究人员的心声。“我不得不把之前大脑中的生化路径、流程图转化成编程代码。”

从某种程度上讲编程和数据成为医学领域最重要的能力之一。然而计算机领域和医学领域的学科逻辑和评价标准,却存在┅些分歧特拉雅诺娃说,“现在太多人醉心于技术细节的提升你去参加一个学术会议,到处都是跟你吹嘘自己的技术表现有多好算法性能有多棒,然后在核心期刊上发了多少论文——这是他们领域的‘语言’但最后能达到什么效果呢?” 说到这里特拉雅诺娃摇了搖头。

现有的大部分算法包括诊断和预测等,都不是在传统的医学范式下研究出来的不能直接体现医学所需要的指标,即使一些已經投入应用了但可靠度、可应用程度等,都需要进一步验证宾夕法尼亚大学医学院血液和肿瘤专家拉维·帕里克(Ravi Parikh)在电话里对我說。“他在《科学》期刊上发表的评论文章谈及了这个问题:当下的许多医疗人工智能相关的研究都以计算能力、反应速度、概率分布曲线等作为指标,比如一个算法能够把判断某种征兆的速度提高百分之几之类但是,这到底在临床上意味着什么这对病人的治疗效果囿多大增益?速度提高了但误诊率呢?病人接受了这个诊断是否病程变短、返诊率下降?这些所谓 “落脚点”(endpoint)才是医学关心的指標也是监管机构是否给某个技术放行的依据。

一言以蔽之人工智能想要治病救人,必须要接受医学标准的审视特拉雅诺娃深知其中嘚不易,前文提到的3D造影技术即将投入大规模临床实验最终的评判标准并不是技术、性能,而是手术的成功率“接受了手术的病人,究竟有多少不用返工重来返诊率是多少?”能够让临床医生彻底掌握这个技术把除颤手术目前接近40%的返诊率大幅降低,才是这个技术荿功的标志

希维尔德森也表示,算法必须要“翻译”成为医学实验的成果方才能称之为医疗定量的测试和评估是一切的基础。而在临床实验中需要照顾的不仅仅是数据,还有病人“要验证现有技术的可用性、可靠性和效果,目前通用的方式是回溯性分析研究这样財能在不影响病人的治疗水平的前提下得到好的结果,并且也需要伦理委员会的批准”

而且,我们必须诚实面对算法的局限所有的药粅都有副作用和适用人群,同样做人工智能的人也必须从“用算法去解决普适性问题”的思维中跳出,重视应用情景、数据来源和数据質量等等学会医学语言的谨慎。监管也必须面对一些关键挑战——例如如何保证数据的多样性,如何打开人工智能和机器学习的“黑箱”确定一个算法的具体原理与医学证据之间的联系。“目前可以做的是建立完善的事后审计机制(auditing system)追踪算法和数据之间的关系,鉯及可能出现的数据偏差”帕里克说,“但最后一定还是落在临床的表现上,保证效用和可重复性”

AI和医生的关系也许不是替代,

峩在希维尔德森的实验室里看到了一个比乒乓球略小的3D打印模型质感柔韧,中间的裂痕用细密的针脚缝了起来“这是一个有着先天心髒缺陷婴儿的心脏的一部分。”希维尔德森对我解释道“我们用当前的造影技术,结合人工智能技术为心脏建模然后打印出来供进行掱术的医生练手。”

看着这个小小的模型我仿佛能看到主刀医生和助手们围在屏幕前讨论手术方案,仔细观察和打量模型思考着从哪裏入手——这才是人机的完美配合,也是当下的医疗技术带来的最实际的进步“在诊断和治疗中,一个医生的训练、经验和观察依然是朂重要的即使是最好的技术,也只能是增强医生的知识和能力而不是替代。” 希维尔德森说

帕里克也认为,我们不应该拿人工智能囷医生相比关键并不在于人工智能本身的能力,而是人工智能和现有的医学条件结合能够发挥多大的功效。医生多年所见、所识、所領悟的并不能完全被翻译成数据、变成机器学习的资料;而人工智能亦有更精准的观察、更快的速度和永不疲倦的眼谈论“医生+算法”嘚效果,远比谈论如何替代、或者谁比谁好要更有意义

未来的医疗场景,一定不是病人被送进机器人医生的诊所进行全身扫描之后得箌“智能”的诊疗,而是可复制、可量产的机器为医生提供足够多有价值的参考,节省更多人力物力让诊疗变得更普及、更平民、更赽捷。医疗人工智能领域的科技树不是冲着天空、往高处长而是伸开枝叶,为更多的人提供安全和健康的荫蔽

这个未来甚至并不遥远,脚踏实地一定走得到

(拇姬对本文有重要贡献;感谢美国科学促进会AAAS提供访问支持。)

本文来自果壳未经授权不得转载。如有需要請联系


图1 增强学习和环境交互的框图

增強学习存在着很多传统机器学习所不具备的挑战首先,因为在增强学习中没有确定在每一时刻应该采取哪个行为的信息增强学习算法必须通过探索各种可能的行为才能判断出最优的行为。如何有效地在可能行为数量较多的情况下有效探索是增强学习中最重要的问题之┅。其次在增强学习中一个行为不仅可能会影响当前时刻的奖励,而且还可能会影响之后所有时刻的奖励在最坏的情况下,一个好行為不会在当前时刻获得奖励而会在很多步都执行正确后才能得到奖励。在这种情况下增强学习需要判断出奖励和很多步之前的行为有關非常有难度。

虽然增强学习存在很多挑战它也能够解决很多传统的机器学习不能解决的问题。首先由于不需要标注的过程, 增强学習可以更有效地解决环境中所存在着的特殊情况比如,无人车环境中可能会出现行人和动物乱穿马路的特殊情况只要我们的模拟器能夠模拟出这些特殊情况,增强学习就可以学习到怎么在这些特殊情况中做出正确的行为其次,增强学习可以把整个系统作为一个整体的系统从而对其中的一些模块更加鲁棒。例如自动模拟驾驶 AI中的感知模块不可能做到完全可靠。前一段时间Tesla无人模拟驾驶 AI的事故就是洇为在强光环境中感知模块失效导致的。增强学习可以做到即使在某些模块失效的情况下也能做出稳妥的行为。最后增强学习可以比較容易学习到一系列行为。自动模拟驾驶 AI中需要执行一系列正确的行为才能成功的模拟驾驶 AI如果只有标注数据,学习到的模型如果每个時刻偏移了一点到最后可能就会偏移非常多,产生毁灭性的后果而增强学习能够学会自动修正偏移。

综上所述增强学习在自动模拟駕驶 AI中有广阔的前景。本文会介绍增强学习的常用算法以及其在自动模拟驾驶 AI中的应用希望能够激发这个领域的探索性工作。

增强学习Φ的每个时刻t∈{0,1,2,…}中我们的算法和环境通过执行行为at进行交互,可以得到观测st和奖励rt一般情况中,我们假设环境是存在马尔科夫性质嘚即环境的变化完全可以通过状态转移概率Pass′=Pr{st+1=s′|st=s,at=a}刻画出来。也就是说环境的下一时刻观测只和当前时刻的观测和行为有关,和之前所囿时刻的观测和行为都没有关系而环境在t+1时刻返回的奖励在当前状态和行为确定下的期望可以表示为:Ras=E{rt+1|st=s,at=a}. 增强学习算法在每一个时刻执行荇为的策略可以通过概率π(s,a,θ)=Pr{at=a|st=s;θ}来表示。其中θ是需要学习的策略参数。我们需要学习到最优的增强学习策略也就是学习到能够取得最高獎励的策略。

其中γ是增强学习中的折扣系数,用来表示在之后时刻得到的奖励折扣。同样的奖励,获得的时刻越早,增强学习系统所感受箌的奖励越高

同时,我们可以按照如下方式定义Q函数Q函数Qpi(s,a)表示的是在状态为s,执行行为a之后的时刻都使用策略π选择行为能够得到的奖励。我们能够学习到准确的Q函数,那么使Q函数最高的行为就是最优行为

增强学习的目的,就是在给定的任意环境通过对环境进行探索学习到最佳的策略函数π最大化rho(π)。下面的章节中我们会简单介绍常用的增强学习算法包括REINFORCE算法和Deep Q-learning算法。

REINFORCE是最简单的reinforcement learning算法其基本思想是通过在环境里面执行当前的策略直到一个回合结束(比如游戏结束),根据得到的奖励可以计算出当前策略的梯度我们可以用这个梯度更新当前的策略得到新策略。在下面的回合我们再用新的策略重复这个过程,一直到计算出的梯度足够小为止最后得到的策略就昰最优策略。

假设我们当前的策略概率是πθ(x)=Pr{at=a|st=s;θ} (θ是策略参数)。每个回合,算法实际执行的行为at是按照概率π(x)采样所得到的算法在当湔回合时刻t获得的奖励用rt表示。那么策略梯度可以通过以下的公式计算。

其中π(at|st;θ)是策略在观测到st时选择at的概率Rt=∑Tt′=tγt′-trt′是算法在采取了当前策略之后所获得的总的折扣后的奖励。为了减少预测出梯度的方差我们一般会使用(Rt-bt)来代替Rt。bt一般等于Eπ[Rt]也就是当前t时刻的環境下使用策略π之后能获得的折扣后奖励的期望。

计算出方差之后,我们可以使用θ=θ+▽θρ(π)更新参数得到新的策略

REINFORCE的核心思想是通過从环境中获得的奖励判断执行行为的好坏。如果一个行为执行之后获得的奖励比较高那么算出的梯度也会比较高,这样在更新后的策畧中该行为被采样到的概率也会比较高反之,对于执行之后获得奖励比较低的行为因为计算出的梯度低,更新后的策略中该行为被采樣到的概率也会比较低通过在这个环境中反复执行各种行为,REIFORCE可以大致准确地估计出各个行为的正确梯度从而对策略中各个行为的采樣概率做出相应调整。

作为最简单的采样算法REINFORCE得到了广泛应用,例如学习视觉的注意力机制和学习序列模型的预测策略都用到了REINFORCE算法倳实证明,在模型相对简单环境随机性不强的环境下,REINFORCE算法可以达到很好的效果

但是,REINFORCE算法也存在着它的问题首先,REINFORCE算法中执行叻一个行为之后的所有奖励都被认为是因为这个行为产生的,这显然不合理虽然在执行了策略足够多的次数然后对计算出的梯度进行平均之后,REINFORCE以很大概率计算出正确的梯度但是在实际实现中,处于效率考虑同一个策略在更新之前不可能在环境中执行太多次。在这种凊况下REINFORCE计算出的梯度有可能会有比较大的误差。其次REINFROCE算法有可能会收敛到一个局部最优点。如果我们已经学到了一个策略这个策略Φ大部分的行为都以近似1的概率采样到。那么即使这个策略不是最优的,REINFORCE算法也很难学习到如何改进这个策略因为我们完全没有执行其他采样概率为0的行为,无法知道这些行为的好坏最后,REINFORCE算法之后在环境存在回合的概念的时候才能够使用如果不存在环境的概念,REINFORCE算法也无法使用

最近,DeepMind提出了使用Deep Q-learning算法学习策略克服了REINFORCE算法的缺点,在Atari游戏学习这样的复杂的任务中取得了令人惊喜的效果

Deep Q-learning是一种基于Q函数的增强学习算法。该算法对于复杂的每步行为之间存在较强的相关性环境有很好的效果Deep Q-learning学习算法的基础是Bellman公式。我们在前面的嶂节已经介绍了Q函数的定义如下所示。

如果我们学习到了最优行为对应的Q函数Q*(s,a)那么这个函数应该满足下面的Bellman公式。

另外如果学习到叻最优行为对应的Q函数Q*(s,a),那么我们在每一时刻得到了观察st之后选择使得Q*(s,a)最高的行为做为执行的行为at。

我们可以用一个神经网络来计算Q函數用Q(s,a;w)来表示。其中w是神经网络的参数我们希望学习出来的Q函数满足Bellman公式。因此可以定义下面的损失函数这个函数的Bellman公式的L2误差如下。

其中r是在s的观测执行行为a后得到的奖励s′是执行行为a之后下一个时刻的观测。这个公式的前半部分r+γmaxa′Q*(s′,a′,w)也被称为目标函数我们唏望预测出的Q函数能够和通过这个时刻得到的奖励及下个时刻状态得到的目标函数尽可能接近。通过这个损失函数我们可以计算出如下梯度。

可以通过计算出的梯度使用梯度下降算法更新参数w。

使用深度神经网络来逼近Q函数存在很多问题首先,在一个回合内采集到的各个时刻的数据是存在着相关性的因此,如果我们使用了一个回合内的全部数据那么我们计算出的梯度是有偏的。其次由于取出使Q函数最大的行为这个操作是离散的,即使Q函数变化很小我们所得到的行为也可能差别很大。这个问题会导致训练时策略出现震荡最后,Q函数的动态范围有可能会很大并且我们很难预先知道Q函数的动态范围。因为我们对一个环境没有足够的了解的时候,很难计算出这個环境中可能得到的最大奖励这个问题会使Q-learning工程梯度可能会很大,导致训练不稳定

Q-learning算法使用了经验回放算法。其基本思想是记住算法茬这个环境中执行的历史信息这个过程和人类的学习过程类似。人类在学习执行行为的策略时不会只通过当前执行的策略结果进行学習,而还会利用之前的历史执行策略经验进行学习因此,经验回放算法将之前算法在一个环境中的所有经验都存放起来在学习的时候,可以从经验中采样出一定数量的跳转信息(st,at,rt+1,st+1)也就是当处于环境,然后利用这些信息计算出梯度学习模型因为不同的跳转信息是从不同囙合中采样出来的,所以它们之间不存在强相关性这个采样过程还可以解决同一个回合中的各个时刻的数据相关性问题。

而且Deep Q-learning算法使鼡了目标Q网络来解决学习过程中的震荡问题。我们可以定义一个目标Q网络Q(s,a;w-)这个网络的结构和用来执行的Q网络结构完全相同,唯一不同就昰使用的参数w-我们的目标函数可以通过目标Q网络计算。

目标Q网络参数在很长时间内保持不变每当在Q网络学习了一定时间之后,可以Q网絡的参数w替换目标Q网络的参数w-这样目标函数在很长的时间里保持稳定。可以解决学习过程中的震荡问题

最后,为了防止Q函数的值太大導致梯度不稳定Deep Q-learning的算法对奖励设置了最大和最小值(一般设置为[-1, +1])。我们会把所有奖励缩放到这个范围这样算法计算出的梯度更加稳萣。


因为使用了深度神经网络来学习Q函数Deep Q-learning算可以直接以图像作为输入学习复杂的策略。其中一个例子是学习Atari游戏这是计算机游戏的早期形式,一般图像比较粗糙但要玩好需要对图像进行理解,并且执行复杂的策略例如躲避,发射子弹走迷宫等。一些Atari游戏的例子如圖3所示其中包含了一个简单的赛车游戏。


Deep Q-learning算法在没有任何额外知识的情况下完全以图像和获得的奖励进行输入。在大部分Atari游戏中都大夶超过了人类性能这是深度学习或者增强学习出现前完全不可能完成的任务。Atari游戏是第一个Deep Q-learning解决了用其他算法都无法解决的问题充分顯示了将深度学习和增强学习结合的优越性和前景。

现有的深度增强学习解决的问题中我们执行的行为一般只对环境有短期影响。例如在Atari赛车游戏中,我们只需要控制赛车的方向和速度让赛车沿着跑道行驶并且躲避其他赛车就可以获得最优的策略。但是对于更复杂决筞的情景我们无法只通过短期奖励得到最优策略。一个典型的例子是走迷宫在走迷宫这个任务中,判断一个行为是否是最优无法从短期的奖励来得到只有当走到终点时,才能得到奖励在这种情况下,直接学习出正确的Q函数非常困难我们只有把基于搜索的和基于增強学习的算法结合,才能有效解决这类问题

基于搜索算法一般是通过搜索树来实现的。搜索树既可以解决一个玩家在环境中探索的问题(例如走迷宫)也可以解决多个玩家竞争的问题(例如围棋)。我们以围棋为例讲解搜索树的基本概念。围棋游戏有两个玩家分别甴白子和黑子代表。围棋棋盘中线的交叉点是可以下子的地方两个玩家分别在棋盘下白子和黑子。一旦一片白子或黑子被相反颜色的子包围那么这片子就会被提掉,重新成为空白的区域游戏的最后,所有的空白区域都被占领或是包围占领和包围区域比较大的一方获勝。

在围棋这个游戏中我们从环境中得到的观测st是棋盘的状态,也就是白子和黑子的分布我们执行的行为是所下白子或者黑子的位置。而我们最后得到的奖励可以根据游戏是否取胜得到取胜的一方+1,失败的一方-1游戏进程可以通过如下搜索树来表示:搜索树中的每个節点对应着一种棋盘状态,每一条边对应着一个可能的行为在如图4所示的搜索树中,黑棋先行树的根节点对应着棋盘的初始状态s0。a1和a2對应着黑棋两种可能的下子位置(实际的围棋中可能的行为远比两种多)。每个行为ai对应着一个新的棋盘的状态si1接下来该白棋走,白棋同样有两种走法b1和b2对于每个棋盘的状态si1,两种不同的走法又会生成两种不同状态如此往复,一直到游戏结束我们就可以在叶子节點中获得游戏结束时黑棋获得的奖励。我们可以通过这些奖励获得最佳的状态


通过这个搜索树,如果给定黑棋和白棋的策略π=[π1,π2]我們可以定义黑棋的值函数为黑棋在双方分别执行策略π1和π2时,最后黑棋能获得奖励的期望

黑棋需要寻找的最优策略需要最优化最坏的凊况下,黑棋所能得到的奖励我们定义这个值函数为最小最大值函数。黑棋的最优策略就是能够达到这个值函数的策略π1

如果我们能夠穷举搜索树的每个节点,那么我们可以很容易地用递归方式计算出最小最大值函数和黑棋的最优策略但在实际的围棋中,每一步黑棋囷白棋可以采用的行为个数非常多而搜索树的节点数目随着树的深度指数增长。因此我们无法枚举所有节点计算出准确的最小最大值函数,而只能通过学习v(s;w)~v*(s)作为近似最小最大值函数我们可以通过两种方法使用这个近似函数。首先我们可以使用这个近似函数确定搜索嘚优先级。对于一个节点白棋或者黑棋可能有多种走法,我们应该优先搜索产生最小最大值函数比较高节点的行为因为在实际游戏中,真实玩家一般会选择这些相对比较好的行为其次,我们可以使用这个近似函数来估计非叶子节点的最小最大值如果这些节点的最小朂大值非常低,那么这些节点几乎不可能对应着最优策略我们再搜索的时候也不用考虑这些节点。

因此主要问题是如何学习到近似最小朂大值函数v(s;w)我们可以使用两个学习到的围棋算法自己和自己玩围棋游戏。然后通过增强学习算法更新近似最小最大值函数的参数w在玩唍了一局游戏之后,我们可以使用类似REINFORCE算法的更新方式:

在这个式子中Gt表示的是在t时刻之后获得的奖励因为在围棋这个游戏中,我们只茬最后时刻获得奖励所以Gt对应的是最后获得的奖励。我们也可以使用类似Q-learning的方式用TD误差来更新参数

因为围棋这个游戏中,我们只在最後时刻获得奖励一般使用REINFORCE算法的更新方式效果比较好。在学习出一个好的近似最小最大值函数之后可以大大加快搜索效率。这和人学習围棋的过程类似人在学习围棋的过程中,会对特定的棋行形成感觉能一眼就判断出棋行的好坏,而不用对棋的发展进行推理这就昰通过学习近似最小最大值函数加速搜索的过程。

通过学习近似最小最大值函数Google DeepMind在围棋领域取得了突飞猛进。在今年三月进行的比赛中AlphaGo以四比一战胜了围棋世界冠军李世石。AlphaGo的核心算法就是通过历史棋局和自己对弈学习近似最小最大值函数AlphaGo的成功充分的显示了增强学習和搜索结合在需要长期规划问题上的潜力。不过需要注意的是,现有将增强学习和搜索结合的算法只能用于确定性的环境中确定性嘚环境中给定一个观测和一个行为,下一个观测是确定的并且这个转移函数是已知的。在环境非确定并且转移函数未知的情况下,如哬把增强学习和搜索结合还是增强学习领域中没有解决的问题

自动模拟驾驶 AI的人工智能包含了感知、决策和控制三个方面。感知指的是洳何通过摄像头和其他传感器输入解析出周围环境的信息例如有哪些障碍物,障碍物的速度和距离道路的宽度和曲率等。这个部分是洎动模拟驾驶 AI的基础是当前自动模拟驾驶 AI研究的重要方向,在前文我们已经有讲解控制是指当我们有了一个目标,例如右转30度如何通过调整汽车的机械参数达到这个目标。这个部分已经有相对比较成熟的算法能够解决不在本文的讨论范围之内。本节我们着重讲解洎动模拟驾驶 AI的决策部分。

自动模拟驾驶 AI的决策是指给定感知模块解析出的环境信息如何控制汽车的行为来达到模拟驾驶 AI目标例如,汽車加速、减速、左转、右转、换道、超车都是决策模块的输出决策模块不仅需要考虑到汽车的安全和舒适性,保证尽快到达目标地点還需要在旁边车辆恶意模拟驾驶 AI的情况下保证乘客安全。因此决策模块一方面需要对行车计划进行长期规划,另一方面还需要对周围车輛和行人的行为进行预测而且,自动模拟驾驶 AI中的决策模块对安全和可靠性有着严格要求现有自动模拟驾驶 AI的决策模块一般根据规则構建,虽然可以应付大部分模拟驾驶 AI情况对于模拟驾驶 AI中可能出现的各种突发情况,基于规则的决策系统不可能枚举到所有突发情况峩们需要一种自适应系统来应对模拟驾驶 AI环境中出现的各种突发情况。

现有自动模拟驾驶 AI的决策系统大部分基于规则该系统大部分可以鼡有限状态机表示。例如自动模拟驾驶 AI的高层行为可以分为向左换道、向右换道、跟随、紧急停车。决策系统根据目标可以决定执行高層行为根据需要执行的高层行为,决策系统可以用相应的规则生成出底层行为基于规则决策系统的主要缺点是缺乏灵活性。对于所有嘚突发情况都需要写一个决策。这种方式很难对所有的突发系统面面俱到

自动模拟驾驶 AI的决策过程中,模拟器起着非常重要的作用決策模拟器负责对环境中常见的场景进行模拟,例如车道情况、路面情况、障碍物分布和行为、天气等同时还可以将真实场景中采集到嘚数据进行回放。决策模拟器的接口和真车的接口保持一致这样可以保证在真车上使用的决策算法可以直接在模拟器上运行。除了决策模拟器之外自动模拟驾驶 AI的模拟器还包含了感知模拟器和控制模拟器,用来验证感知和控制模块这些模拟器不在本文的讨论氛围之内 (详细请见CSDN《程序员》2016年8月)。

自动模拟驾驶 AI模拟器的第一个重要功能是验证在迭代决策算法的过程中,我们需要比较容易地衡量算法性能比如,需要确保新决策算法在之前能够正确运行和常见的场景都能够安全运行我们还需要根据新决策算法对常见场景的安全性、赽捷性、舒适性打分。我们不可能每次在更新算法时都在实际场景中测试这时有一个能可靠反映真实场景的无人模拟驾驶 AI模拟器是非常偅要的。

模拟器的另一个重要的功能是进行增强学习可以模拟出各种突发情况,然后增强学习算法利用其在这些突发情况中获得的奖励学习如何应对。这样只要能够模拟出足够的突发情况,增强学习算法就可以学习到对应的处理方法而不用每种突发情况都单独写规則处理。而且模拟器也可以根据之前增强学习对于突发情况的处理结果,尽量产生出当前的增强学习算法无法解决的突发从而增强学習效率。

综上所述自动模拟驾驶 AI模拟器对决策模块的验证和学习都有着至关重要的作用,是无人模拟驾驶 AI领域的核心技术如何创建出能够模拟出真实场景、覆盖大部分突发情况、并且和真实的汽车接口兼容的模拟器,是自动模拟驾驶 AI研发的难点之一

增强学习在自动模擬驾驶 AI中的应用和展望

增强学习在自动模拟驾驶 AI中很有前景。我们在TORCS模拟器中使用增强学习进行了探索性的工作TORCS是一个赛车模拟器。玩镓的任务是超过其他AI车以最快速度达到终点。虽然TORCS中的任务和真实的自动模拟驾驶 AI任务还有很大区别但其中算法的性能非常容易评估。TORCS模拟器如图5所示增强学习算法一般可以以前方和后方看到的图像作为输入,也可以环境状态作为输入(例如速度离赛道边缘的距离囷跟其他车的距离)。


我们这里使用了环境状态作为输入使用Deep Q-learning做为学习算法学习。环境奖励定义为在单位时刻车辆沿跑道的前进距离叧外,如果车出了跑道或者和其他的车辆相撞会得到额外惩罚。环境状态包括车辆的速度、加速度、离跑道的左右边缘的距离以及跑噵的切线夹角,在各个方向上最近的车的距离等等车的行为包括向上换挡、向下换挡、加速、减速、向左打方向盘、向右打方向盘等等。

与普通的Deep Q-learning相比我们做了以下的改进。首先使用了多步TD算法进行更新。多步TD算法能比单步算法每次学习时看到更多的执行部数因此吔能更快地收敛。其次我们使用了Actor-Critic的架构。它把算法的策略函数和值函数分别使用两个网络表示这样的表示有两个优点:1. 策略函数可鉯使用监督学习的方式进行初始化学习。2. 在环境比较复杂的时候学习值函数非常的困难。把策略函数和值函数分开学习可以降低策略函數学习的难度

使用了改进后的Deep Q-learning算法,我们学习到的策略在TORCS中可以实现沿跑到行走换道,超车等行为基本达到了TORCS环境中的基本模拟驾駛 AI的需要。Google DeepMind直接使用图像作为输入也获得了很好的效果,但训练的过程要慢很多

现有的增强学习算法在自动模拟驾驶 AI模拟环境中获得叻很有希望的结果。但是可以看到如果需要增强学习真正能够在自动模拟驾驶 AI的场景下应用,还需要有很多改进第一个改进方向是增強学习的自适应能力。现有的增强学习算法在环境性质发生改变时需要试错很多次才能学习到正确的行为。而人在环境发生改变的情况丅只需要很少次试错就可以学习到正确的行为。如何只用非常少量样本学习到正确的行为是增强学习能够实用的重要条件

第二个重要嘚改进方向是模型的可解释性。现在增强学习中的策略函数和值函数都是由深度神经网络表示的其可解释性比较差,在实际的使用中出叻问题很难找到原因,也比较难以排查在自动模拟驾驶 AI这种人命关天的任务中,无法找到原因是完全无法接受的

第三个重要的改进方向是推理和想象能力。人在学习的过程中很多时候需要有一定的推理和想象能力比如,在模拟驾驶 AI时不用亲身尝试,也知道危险的荇为会带来毁灭性的后果 这是因为人类对这个世界有一个足够好的模型来推理和想象做出相应行为可能会发生的后果。这种能力不仅对於存在危险行为的环境下下非常重要在安全的环境中也可以大大加快收敛速度。

只有在这些方向做出了实质突破增强学习才能真正使鼡到自动模拟驾驶 AI或是机器人这种重要的任务场景中。希望更多有志之士能投身这项研究为人工智能的发展贡献出自己的力量。

  • 王江百度研究院硅谷深度学习实验室资深科学家。在复旦大学获得学士和硕士学位美国西北大学获得博士学位。曾在微软亚洲研究院、Redmond研究院、Google研究院、Google图像搜索组实习
  • 吴双,原百度研究院硅谷人工智能实验室资深研究科学家原百度美国研发中心高级架构师。美国南加州夶学物理博士加州大学洛杉矶分校博士后。研究方向包括计算机和生物视觉互联网广告算法和语音识别。
  • 刘少山PerceptIn联合创始人。加州夶学欧文分校计算机博士研究方向智能感知计算、系统软件、体系结构与异构计算。现在PerceptIn主要专注于SLAM技术及其在智能硬件上的实现与优囮

我要回帖

更多关于 AI判断 的文章

 

随机推荐