yoshua bengio 书大神为什么要留在学术界

深度学习进入芯片领域,揭秘寒武纪神经网络处理器
就在全世界媒体的焦点锁定于谷歌AlphaGo连续3盘战胜李世石的同时,中国科学院计算技术研究所陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu被计算机体系结构领域顶级国际会议ISCA2016(InternationalSymposiumonComputerArchitecture)所接收,其评分排名所有近300篇投稿的第一名。模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。&(寒武纪处理器)寒武纪处理器是长期技术积累的成果陈天石和陈云霁研究员在2014年5月刊发的《中国计算机学会通讯》(第10卷第5期)写道: “从2008年到现在,我们已经在体系结构和人工智能的交叉研究方向上工作了6年。作为国际上为数不多的几个长期开展此方向研究的团队之一,我们在不被认可中坚持了下来,并尝试通过自己的努力来改善这个领域的环境(当然近年来环境的改善也得益于深度学习的兴起),最终得到了学术界一定程度的肯定。
回想起来,如果我们紧紧跟随国际学术圈的热点走,我们是很难拿到ASPLOS最佳论文奖的。原因有两个方面:第一,当我们看到别人的“热点”论文发表后再去跟着做,可能已经比别人晚了若干年。尤其是体系结构领域,论文的工作周期非常长(ASPLOS2014上发表的论文,我们在2012年就启动相关工作了),要跟上热点很困难。第二,当跟随热点时,我们的工作不可避免地会被视为对某个过往论文的改进。这种改进效果必须非常显著,机理必须非常清晰,才能打动顶级会议挑剔的审稿人。这对于论文写作提出了很高的要求,而中国大陆研究者往往在英文论文写作上不占优势。但这里存在一个矛盾:紧跟多变的国际学术圈热点,论文不容易在顶级会议上发表;而探讨的问题若不是国际学术圈热点,论文同样很难在顶级会议上发表。
面对这个矛盾,我们的看法是:研究者应该坚持自己的学术理想,重视论文但不为论文发表所左右;同时尽力宣传自己的研究方向,推动这个方向被国际学术圈的主流认可。经过长期的等待和努力,也许有一天,自己的研究方向就会成为热点。到那时,过去的一切坎坷都会被证明是值得的。”截至目前,陈天石博士和陈云霁研究员就光寒武纪系列的技术成果,已经斩获两篇ASPLOS,两篇ISCA,一篇MICRO,一篇HPCA,这些是计算机体系结构方面国际四大顶级会议,只不过只有科研圈子里关注,普通人还不明白其中的意义。因此,寒武纪处理器并非借着借着阿法狗对决李世石的热点横空出世,而是长期技术积累的结果,并在数年前就于高端国际会议中荣获殊荣。事实上,中国在智能芯片上是引领世界的——以寒武纪芯片为例,美国的哈佛、斯坦福、MIT、哥伦比亚等高校都跟在我们后面做。铁流认为,寒武纪之所以过去一直不见于主流媒体,仅仅是国内很多媒体人缺乏专业知识和辨识能力,而导致了更愿意鼓吹国外所谓“高科技”,却对真正非常具有含金量的自主技术选择性失明。&陈云霁(左)和陈天石(右)兄弟寒武纪神经网络处理器庐山真面目目前,寒武纪系列已包含三种原型处理器结构: 寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构); 寒武纪2号(英文名DaDianNao,面向大规模神经网络); 寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。DianNao的核心问题是如何让有限的内存带宽喂饱运算功能部件,使得运算和访存平衡,从而达到高效能比。难点在于选取运算功能部件的数量、组织策略以及片上RAM的结构参数。由于整个结构参数空间有上千万种选择,模拟器运行速度不及真实芯片的十万分之一,不可能蛮力尝试各种可能的设计参数。为解决此问题,使用了一套基于机器学习的处理器性能建模方法,并基于该性能模型最终为DianNao选定了各项设计参数,在运算和访存间取得了平衡,显著提升了执行神经网络算法时的效能。即便数据已经从内存取到了片上,搬运的能耗依然非常高。NVidia首席科学家Steve&Keckler曾经指出,在40nm工艺下,将64位数据搬运20毫米所花的能耗是做64位浮点乘法的数倍。因此,要降低处理器功耗,仅仅降低运算功耗是不够的,必须优化片上数据搬运。中科院计算所提出对神经网络进行分块处理,将不同类型的数据块存放在不同的片上RAM中,并建立理论模型来刻画RAM与RAM、RAM与运算部件、RAM与内存之间搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于cache层次的数据搬运,DianNao可将数据搬运减少10~30倍。&&(DianNao结构)DaDianNao在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm&工艺下,DaDianNao的主频为606MHz,面积67.7&mm2,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍,但总能耗仅为1/150。虽然神经网络已成为模式识别等领域的主流算法,但用户很多时候可能倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下,寒武纪3号多用途机器学习处理器PuDianNao应运而生,当前已可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近十种代表性机器学习算法。PuDianNao的主频为1GHz,峰值性能达每秒10560亿次基本操作,面积3.51mm2,功耗为0.596W(65nm工艺下)。PuDianNao运行上述机器学习算法时的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。&(PuDianNao版图)神经网络处理器的市场前景在上世纪80年代,因人工智能无法达到公众/投资人的预期,导致整个行业陷入低谷。近年来,随着算法、应用和工艺三个方面都发生了剧烈的变化,神经网络处理器涅磐重生。&2006年,&Hinton、LeCun和Bengio等人提出了深度学习方法,在深层人工神经网络的训练上取得了巨大的突破。简单地说,深度学习方法在传统的人工神经网络训练中增加了一个预训练阶段,即用无监督学习对每一层网络进行一次专门的训练,然后才用有监督学习对整个网络进行总体训练。通过深度学习方法,人工神经网络的效果一举赶上甚至显著超过了支持向量机等其他机器学习方法,在IBM、谷歌、微软、科大讯飞、百度等公司很多工业级图像和语音处理应用上取得了非常好的效果。为什么深度学习会有效,暂时还没有传统的统计学习理论方面的完美证明。目前一种比较直观的的解释是:分层预训练相当于对输入数据进行逐级抽象,这暗合生物大脑的认知过程比较(例如人脑就是一种深层的神经网络,在认知过程中会逐层将看到的原始图像或听到的原始声波最终抽象成语义符号)。既然人工神经网络已经重新成为最有效的认知任务处理算法(至少是之一),只要人工智能健康发展,专门的神经网络处理器自然能随着产业发展而茁壮成长。另外,随着日常生活显然需要进行大量的认知活动,自然而然地,计算机体系结构研究者的目光必须要从传统的科学计算转到认知任务上。事实上,很多大公司已经认识到这一点。Intel和IBM等传统的硬件厂商都已经成立了专门的部门进行认知任务处理的研究。而现在体系结构研究中最常见的测试集Parsec中近半数都是认知类的应用(如bodytrack、facesim、freqmine、streamcluster、vips等)。在认知任务已经成了当前计算机最主要的任务之一的情况下,用户和市场自然会有加速人工神经网络的需求。因此,笔者认为只要不发生社会和媒体过分炒作人工智能,最终导致整个行业陷入低谷的情况正如80年代已经发生过的情况,寒武纪的市场前景是非常值得期待的——寒武纪处理器失败的风险就是社会和媒体过分炒作人工智能,如果最后人工智能的发展速度达不到公众(投资人)预期(这必然会发生,例如现在很多媒体,甚至谷歌自己都发话天网就要造出来),那么整个领域都会陷入大低谷,覆巢之下焉有完卵。至于将来寒武纪产业化成果几何,还请由时间去检验。【作者介绍】铁流,微信公众号:tieliu1988
您将要订阅:
27293位用户
爱搞机以趣味、知识分享和数字化产品推荐为特色,为广大机友提供最及时的资讯、最权威的评测、最深入的分析、最奇特的玩法和最实时的导购推荐。
【上一篇】:
【下一篇】:
相关文章:
猜你喜欢:
用微信扫描二维码分享至好友/朋友圈您所在的位置:&&正文
【聚行业】-机器人行业要闻-
1、3月16日冀东溶剂醋酸丁酯价格动态
07 d、智能制造: :、汇川技术、美的集团、大族激光 3D打印:康得新、金运激光、亚夏股份、南风股份、 北斗:振芯科技、华力创通、四川九州 新材料:万马股份、金发科技、 16:10:15 e、信息经济 智慧物流:皖通科技、...
2、似乎可以在任何领域抢走人类的“饭碗”了?
近年来,智能性复杂工作也被盯上。像智力抢答、下象棋等“脑力”劳动,流水线上那些工业干不了,但对智能来说就是小菜一碟。以往根据现场 情况做出选择和判断是缺失的一环,进入物联网、大数据时代,这个问题迎刃而解:大数据能够告诉...
3、概念站上风口 产业发展机遇凸显
业内专家介绍,是计算机科学的一个分支,该领域的研究包括、语言识别、图像识别、自然语言处理和专家系统等,而基础技术,即计算机算法,包括自我学习、深度学习、神经网络、强化学习之类,可以应用到所有领域...
4、快讯:两市午后回暖 创业板跌幅收窄至0.74%
开盘后,沪指在银行、券商等板块带领下翻红并维持震荡,但创业板在开盘后持续下行,盘中下探跌近1.5%,振幅超3%。午后开盘,概念崛起,带动两市回暖,创业板跌幅收窄。截至发稿,沪指报2869.64点,涨0.19%;创业板指报1983.55点,跌...
5、【图解】李世石又输了!一张图告诉你围棋怎么下
人机大战最终以1:4的比分宣告结束,这场大战不仅引发了人们对于的热议,也掀起了全民对围棋这项古老的智力运动的关注。围棋起源于中国,迄今已有数千年历史,传说为“尧帝”所发明,在春秋战国时已有记载...
6、4:1压倒性取胜 “阿尔法”颠覆了人的围棋认知
技高一筹目前在世界职业围棋排名网站上,“阿尔法”排名世界第四,仅次于中国柯洁、韩国朴廷桓以及日本井山裕太。“阿尔法”的研发团队表示,“‘阿尔法’现在可以有正式排名了。柯洁,准备好了吗?...
7、晚间利好公告迎爆发 多股望大涨(更新中)
(行情300024, 买入 )一季报业绩预增5%至25%3月16日晚间公告,预计2016年第一季度实现净利润5404万元?6434万元,比上年同期增长5%-25%。2016年第一季度公司主营业务收入持续稳定增长...
8、Yoshua Bengio大神为什么要留在学术界?
为了达成更大的进步并实现更多的应用,领域无论在学术界还是工业界都需要成千上万个科学家和工程师们。对于大公司的人才抢夺策略,Hinton曾说,“有些危险的是,如果足够多的大公司雇了足够多的研究人员,那么,大学就没有足够多的人来培养学生、进行纯...
9、年报数据揭秘平安互联网金融帝国
围绕多个主题,如客户画像、LBS及设备等,利用金融+互联网多维数据源,结合大数据技术进行挖掘,更深入了解客户。云系统产品,使用生物识别、图像处理等先进的技术,打破线上线下的边界,极大提升用户体验及效率...
10、赢了棋的“阿尔法狗”炒股 能对投资者“割韭菜”?
能对投资者“割韭菜”?资料显示,华尔街上的金融机构曾制定了一些智能交易程序,正当机构管理者为智能程序下单沾沾自喜时,一个针对下单特点来套利的职业偷偷诞生了――美股日内交易员。这些人类的交易员找出机器买卖的特点,破解其交易的程序后,...您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
发私信给宗仁
导语:作为仅存的几个仍然全身心投入在学术界的深度学习教授之一,雷锋网尽自己开扒小能手的义务,为大家找到了所有我们能找到的资料,让他不再活在传说中。
同步到新浪微博
专注AIR(人工智能+机器人)
专注人工智能+机器人报道,经验分享请加微信keatslee8(请注明原因)。
科学的本质是:问一个不恰当的问题,于是走上了通往恰当答案的路。
当月热门文章
为了您的账户安全,请
您的邮箱还未验证,完成可获20积分哟!
您的账号已经绑定,现在您可以以方便用邮箱登录966,690 二月 独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于:
对话机器学习大神Yoshua Bengio(下)
对话机器学习大神Yoshua Bengio(下)
日. 估计阅读时间:
欲知区块链、VR、TensorFlow等潮流技术和框架,请锁定
相关厂商内容
相关赞助商
QCon北京-18日,北京&国家会议中心,
问:据我所知,您是机器学习领域唯一公开的以深度学习来研究社会学的科学家。在你那篇大作&&中,您的阐述非常精彩,我有如下几个问题期待您的解答:
文章中您描述了个体是如何通过浸入社会来自学习的。众所周知,个体通常无法学到很多大局观念。如果您是这个世界的主宰,你有能力,设定一些观念,让所有个体从童年就开始学习,您会如何选择这些观念?
&文化浸入&的一个必然结果,会让个体意识不到整个学习过程,对它来讲世界就是这个样子。作家David Foster Wallace曾经生动的将其比喻为&鱼需要知道水是什么&。在您的观点里,这种现象是神经网络结构的副产品还是它的确有一些益处?
您觉得文化趋势是否会影响个体并且导致它们赖在局部优化情况?比如各种宗教机构和启蒙哲学之间的争端,家长式社会和妇女参政之间的冲突。这种现象是有益还是有害的?
您对于冥想和认知空间如何看待?
答:我不是社会学或者哲学科学家,所以大家在看待我的回答的时候,需要用分析和辩证的眼光。我的看法是,非常多的个体固守自己的信念,因为这些信念已经变成了他们身份的一部分,代表了他们是怎么样的一个群体。改变信念是困难而且可怕的。我相信,我们大脑的很大一部分工作,就是试着让我们的所有经验和谐并存,从而形成一个良好的世界观。从数学的角度来讲,这个问题和推理(Inference)有关系,即个体透过观察到的数据,来寻找合适的解释(隐变量)。在随机模型里,推理过程通过一种给定配置的随机探索完成(比如马尔科夫网络是完全随机探索)。冥想之类的行为,从某种程度上帮助了我们提升推理能力。冥想的时候,有些想法灵光一现,而后我们发现它具有普适意义。这恰恰是科学进步的方法。
问:在讨论和积网络(sum product network,SPN)的时候,Google Brain小组的一个成员告诉我他对可计算的模型(tractable model)不感兴趣,您对此有何看法?
答:各种学习算法都不同程度地有很多不可计算性。通常来讲,越具有可计算性的模型的模型越简单,但是从表达能力上来讲就越弱。我并没有确切的计算过,和积网络将联合分布拆分之后,会损失多少计算能力。通常来讲,我所知道的模型都会受到不可计算性的影响(至少从理论上看,训练过程非常困难)。SVM之类的模型不会受到此类影响,但是如果你没有找到合适的特征空间,这些模型的普适性会受到影响。(寻找是非常困难的,深度学习正是解决了寻找特征空间的问题)。
网友补充:什么是模型的可计算性?
就和积网络来讲,可计算性的意思就是,模型的推理能力在加入更多变量的时候,在计算要求上不会有指数级别的增加。可计算性是有代价的,和积网络只能表现某些特定的分布,详情可以参考Poon和Dmingo的论文。
实际上,所有的图模型都能够表示成因子的乘积形式,深度信念网络也一样。图模型的推理,其可计算性主要取决于图的宽度(treewidth)。因此,低宽度的图模型被认为是可计算的,而高宽度则是不可计算的,人们需要使用MCMC、信念传播(BP)或者其他近似算法来寻求答案。
任何的图模型网络,都可以转换成类似和积网络的形式(一种算数电路,AC)。问题在于,在极坏的情况下,转换生成的网络通常都是指数级别。所以,哪怕推理是跟网络规模线性相关的,在图模型大小增长的情况下,计算性也会呈指数下降。但是,值得一提的是,有一些指数级别的,或者说高宽度的图模型可以被转换成紧致(compact)算数电路,使得我们仍然可以在其上进行推理,即可计算,这个发现曾经让图模型社区非常振奋。
我们可以把AC和SPN理解成一种紧致的表示图模型上下文无关的方式。它们能够将一些高宽度的图模型表示成紧致形式。AC和SPN的区别在于,AC是通过贝叶思网络转换而来,SPN则是直接表示概率分布。所以,取代传统图模型的训练,我们可以将其转换成紧致电路(AC),或者学出来一个紧致电路(SPN)。
为什么深度网络会比浅层网络效果更好?众所周知,有一个隐含层的网络实际上是一个全局逼近器,添加更多全联通层次通常会改进效果,这种情况有没有理论依据呢?我所接触到的论文都声称确实改进了效果,但是都语焉不详。
在您没有发表的想法里面,您最中意哪一个?
您曾经审阅过的最可笑或者最奇怪的论文是什么?
如果我没弄错的话,您用法语授课,这是个人爱好还是学校的要求?
答:全局逼近器并不会告诉你需要多少个隐含层。对于不确定的函数,增加深度并不会改进效果。然而,如果函数能够拆分成变量组合的形式,深度能够起到很大作用,无论从统计意义(参数少所需训练数据就少)来讲,还是从计算意义(参数少,计算量小)来讲。
我用法语教书是因为Montreal大学的官方语言是法语。不过我的毕业生里面四分之三都不是以法语为主要语言的,感觉没什么影响。关于在Montreal生活,我的学生写了一个生活描述,提供给申请的同学们。Montreal 是个很大的城市,有四所大学,非常浓厚的文化氛围,贴近自然,生活质量(包括安全)全北美排第四。生活成本相对其他类似城市也低很多。
问:众所周知,深度学习已经在图像、视频和声音上取得了突破,您觉得它能否在文本分类上也会取得进展呢?大部分用于文本分类的深度学习,结果看起来跟传统的SVM和贝叶思相差无几,您怎么认为?
答:我预感深度学习肯定会在自然语言处理方面产生非常大的影响。实际上影响已经产生了,跟我在NIPS 2000年和JMLR 2003年的论文有关:用一个学习出来的属性向量来表示单词,从而能够对自然语言文本中单词序列的概率分布建模。目前的工作主要在于学习单词、短语和句子序列的概率分布。可以看一看Richard Socher的工作,非常的深入。也可以看看Tomas Mikolov的工作,他用递归神经网络击败了语言模型的世界纪录,他研究出来的分布,在一定程度上揭示了单词之间某些非线性的关系。例如,如果你用&意大利&这个单词的属性向量来减去&罗马&的属性向量,再加上&巴黎&的属性向量,你能得到&法国&这个单词或者相近的意思。类似的,用&国王&减去&男人&加上&女人&,能得到&王后&。这非常令人振奋,因为他的模型并没有刻意的设计来做这么一件事。
问:我看到越来越多的杂志报道深度学习,称之为通往真正人工智能(AI)的必经之路,连线杂志是&罪魁祸首&啊。鉴于人工智能在七八十年代的低潮(当时的人们也是对此期望颇高),您觉得深度学习和机器学习研究者应该做一些什么来防止类似再次发生呢?
答:我的看法是,还是要以科学的方式来展示研究进展(就这一点,很多标榜自己从事深度研究的公司都做不到)。别过度包装,要谦虚,不能将目前取得的成绩过度消费,而是立足一个长远的愿景。
问:首先您实验室开发的theano和pylearn2非常赞。四个问题:
您对于Hinton和Lecun转战工业界啥看法?
比起私人公司里闷头赚大钱,您觉得学术研究和发表论文的价值在于?
您觉得机器学习会不会变得和时间序列分析领域一样,很多研究都是封闭的,各种知识产权限制?
鉴于目前判别式神经网络模型取得的进展,您觉得产生式模型未来能有什么发展?
答:我觉得Hinton和Lecun投身工业界,会带动更多更好的工业级神经网络应用,来解决真正有趣的大规模问题。遗憾的是深度学习领域可能短期少掉很多给博士申请同学们的offer。当然,深度研究领域的第一线还是有很多成长起来的年轻研究者,很愿意招收有能力的新同学。深度学习在工业界的深入应用,会带动更多的同学了解和理解这个领域,并投身其中。
个人来讲,我喜欢学术界的自由,而非给薪水上多加几个零。我觉得就论文发表来讲,学术界会持续产出,工业界的研究所也会保持热情高涨。
产生式模型未来会变得很重要。你可以参考我和Guillaume Alain关于非监督学习方面的(注意这两者并不是同义词,但是通常会一起出现,尤其是我们发现了自动编码器(auto-encoder)的产生式解释之后)。
问:在您工作的启发下,我去年用概率模型和神经网络完成了关于自然语言处理(NLP)的本科论文。当时我对此非常感兴趣,决定从事相关领域的研究,目前我在攻读研究生,还听了一些相关课程。
但是,过了几个月,我发现NLP并没有我想象的那么有意思。这个领域的研究人员都有那么一点迟钝和停滞,当然这是我的个人片面看法。您觉得NLP领域的挑战是什么?
答:我相信,NLP里面真正有意思的挑战,即&自然语言理解&的关键问题,是如何设计学习算法来表示语意。例如,我现在正在研究给单词序列建模的方法(语言模型)或者将一个语言里的一句话翻译成另一个语言里同样意思的一句话。这两种情况,我们都是在尝试学习短语或者句子的表示(不仅仅是一个单词)。就翻译这个情况来讲,你可以把它当成一个自动编码器:编码器(比如针对法语)将一句法语句子映射到它的语意表示(用一个通用方法表示),另一个解码器(比如针对英语),可以将这个表示依照概率分布映射到一些英文句子上,这些句子跟原句都有一样或者近似的语意。同样的方法,我们显然可以应用到文本理解,稍微加上一点额外的工作,我们就可以做自动问答之类的标准自然语言处理任务。目前我们还没有达到这个水平,主要的挑战我认为存在于数值优化部分(训练数据量大的时候,神经网络很难训练充分)。此外,计算方面也存在挑战:我们需要训练更大模型(比如增大一万倍)的能力,而且我们显然不能容忍训练时间也变成一万倍。并行化并不简单,但是会有所帮助。目前的情况来讲,还不足以得到真正好的自然语言理解能力。好的自然语言理解,能通过一些图灵测试,并且需要计算机理解世界运行所需要的很多知识。因此我们需要训练不光仅仅考虑了文本的模型。单词序列的语意可以同图像或者视频的语意表示相结合。如上所述,你可以把这个结合过程认为是从一个模态向另一个模态的转化,或者比较两个模态的语意是否相似。这是目前Google图片搜索的工作原理。
问:我正在写本科论文,关于科学和逻辑的哲学方面。未来我想转到计算机系读硕士,然后攻读机器学习博士学位。除了恶补数学和编程以外,您觉得像我这样的人还需要做些什么来吸引教授的目光呢?
阅读深度学习论文和教程,从介绍性的文字开始,逐渐提高难度。记录阅读心得,定期总结所学知识。
把学到的算法自己实现一下,从零开始,保证你理解了其中的数学。别光照着论文里看到的伪代码复制一遍,实现一些变种。
用真实数据来测试这些算法,可以参加Kaggle竞赛。通过接触数据,你能学到很多;
把你整个过程中的心得和结果写在博客上,跟领域内的专家联系,问问他们是否愿意接收你在他们的项目上远程合作,或者找一个实习。
找个深度学习实验室,申请;
这就是我建议的路线图,不知道是否足够清楚?
问:教授您好,蓝脑项目组的研究人员试图通过对人脑的逆向工程来建造一个能思考的大脑。我听说Hinton教授在某次演讲的时候抨击了这个想法。这给了我一个印象,Hinton教授觉得机器学习领域的方法才更可能造就一个真正的通用人工智能。
让我们来假想一下未来的某一个时候,我们已经创造出了真正的人工智能,通过了图灵测试,它活着并且有意识。如果我们能看到它的后台代码,您觉得是人脑逆向工程造就了它,还是人造的成分居多?
答:我不认为Hinton教授实在抨击人脑逆向工程本身,即他并不反对从人脑中学习如何构建智能机器。我猜测他可能是对项目本身的质疑,即一味的尝试拿到更多大脑的生理细节,而没有一个全局的计算理论来解释人脑中的计算是如何进行和生效的(尤其是从机器学习的角度)。我记得他曾经做过这么一个比喻:想象一下我们把汽车所有的细节都原封不动的复制过来,插上钥匙,就期待汽车能够在路上自己前进,这根本就不会成功。我们必须知道这些细节的意义是什么。
问:有没有人将深度学习应用到机器翻译中呢?您觉得基于神经网络的方法,什么时候才能在商业机器翻译系统中取代基于概率的方法呢?
答:我刚开了一个,罗列一些机器翻译方面的神经网络论文。简单来说,由于神经网络已经从语言模型上胜出了n-grams,你可以首先用它们来替代机器翻译的语言模型部分。然后你可以用它们来代替翻译表(毕竟它只是另一个条件概率表)。很多有意思的工作都正在开展。最宏大和让人兴奋的是完全摒弃现在的机器翻译流水线方法,直接用深度模型从头到尾学习一个翻译模型。这里有意思的地方在于,输出结果是结构化的(是一个单词序列的联合分布),而不简单的是一个点预测(因为对于一个原句来说,有很多翻译的可能性)。
网有补充资料:纽约时报有一篇谈到了从英语到普通话的,微软出品。
问:教授您好,我在各种项目里应用最多的还是决策树和随机森林。您能给讲讲深度学习对比而来的好处么?
答:我曾经写过一篇,阐述为什么决策树的普适性比较差。这里面的核心问题是,决策树(以及其他机器学习算法)将输入空间划分,而后每个区域分配独立的参数。因此对于新的区域以及跨区域的情况,算法的效果就会变差。你没办法学到这么一个函数,能够覆盖比训练数据要多的独立区域。神经网络没有这个问题,具有全局特性,因为它的参数可以被多个区域公用。
问:在深度学习领域,您有什么好书或者论文推荐?
答:好文章太多了,我们组内有一个给新同学的。
问:今日的机器学习技术是否会成为明日人工智能的基石?人工智能发展的最大困难在哪里?是硬件还是软件算法的问题?您对于Ray Kurzweil'预言2029年机器会通过图灵测试怎么看? 他还写了一篇打赌的呢。
答:我不敢说2029年机器会通过图灵测试,但是我能确定的是,机器学习会成为研发未来人工智能的核心技术。
人工智能发展的最大问题,是改进机器学习算法。要想得到足够好的机器学习算法,有很多困难,比如计算能力,比如概念理解上的。比如学习一些联合概率。我觉得我们在训练超大规模神经网络的优化问题上,还是浮于表面。接着就是增强学习,非常有用,亟待改善。可以参看一下最近DeepMind公司的工作,他们用神经网络来自动进行八十年代的Atari游戏,非常有意思。文章发表在我组织的NIPS的讨论会上。
问:您对Jeff Hawkins对深度学习的批评有什么看法?Hawkins是On Intelligence一书的作者, 该书2004年出版,内容关于大脑如何工作,以及如何参考大脑来制造智能机器。他声称深度学习没有对时间序列建模。人脑是基于一系列的传感数据进行思考的,人的学习主要在于对序列模式的记忆,比如你看到一个搞怪猫的视频,实际是猫的动作让你发笑,而不是像Google公司所用的静态图片。参见
答:时间相关的神经网络其实有很多工作,递归神经网络模型对时间关系隐性建模,通常应用于语音识别。比如下面这两个工作。
还有这篇文章:.
自然语言处理中的序列也有所考虑:
问:深度学习到底在什么领域很有前途?什么领域是它的弱项呢?为什么栈式RBM效果很好?其原理能否解释清楚?还是仍然类似魔术黑箱一样?聚合学习和深度学习之间有何联系?
答:完全不是魔术黑箱。我相信我已经给出了栈式RBM或者自动编码器为何有效的解释。参见我和Courville 以及Vincent的文章:
除了dropout技术的解释以外,我不知道聚合学习和深度学习之间的关系,可以参考这篇文章:
问:根据我的理解,深度神经网络训练上的成功跟选取正确的超参数有关系,比如网络深度,隐含层的大小,稀疏约束值等等。有些论文基于随机搜索来寻找这些参数。可能跟代码写得好也有关系。有没有一个地方能让研究者找到某些特定任务的合理超参数呢?在这些参数的基础上,可能更容易找到更优化的参数。
答:可以看上文关于超参数的部分。James Bergstra 继续了这部分工作。我觉得有这么一个数据库,存储着许多推荐的超参数设置,对于神经网络训练是非常有好处的。Github上面的项目,做了类似的事情。hyperopt项目聚焦于神经网络、卷积网络,给出一些超参数设置的建议。以简单的因子分布的形式给出。比如隐含层的数量应该是1到3,每一层的隐含单元数目应该是50到5000。其实超参数还有很多,以及更好的超参数搜索算法等等。下面是更多的参考论文:
问:有没有什么应用,传统机器学习方法都失败了,而深度学习成功了?
答:有一个构造出来的应用,由两个简单的任务构成(物体检测,逻辑推理),该应用聚焦于隐变量的内在表示,传统黑盒机器学习算法都失败了,有一些深度学习算法结果还不错,但也有深度学习算法失败了。可以看看这篇。这个应用有意思的地方在于它比那两个任务随便一个都复杂得多。
问:Bengio教授,在深度学习中,有那么一类方法,采用比较高级的数学如代数和拓扑集合。John Healy几年前声称通过通过范畴论(Category Theory)改进了神经网络(ART1)。您对于这类尝试有什么看法?是儿戏还是很有前途?
答:可以看看Morton和Montufar的工作,参考附加材料:
热带几何以及概率模型中的热带几何
问:Bengio教授,我即将完成计算神经学的博士,我对于神经科学和机器学习交叉产生的&灰色地带&非常感兴趣。您觉得脑科学的那些部分和机器学习有关?您想要了解脑科学的什么方面?
答:我认为,理解大脑的计算过程跟机器学习强相关。我们尚未知晓大脑的工作机制,它的高效学习模式会对我们设计和实现人工神经网络有很大的指导意义,所以这个是非常重要的,也是机器学习领域和脑科学的交叉区域。
英文原文:
感谢对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至。也欢迎大家通过新浪微博()或者腾讯微博()关注我们,并与我们的编辑和其他读者朋友交流。
Author Contacted
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
InfoQ每周精要
通过个性化定制的新闻邮件、RSS Feeds和InfoQ业界邮件通知,保持您对感兴趣的社区内容的时刻关注。
架构 & 设计
文化 & 方法
<及所有内容,版权所有 &#169;
C4Media Inc.
服务器由 提供, 我们最信赖的ISP伙伴。
北京创新网媒广告有限公司
京ICP备号-7
注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为:
公司性质:
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为:
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。

我要回帖

更多关于 yoshua bengio是谁 的文章

 

随机推荐