深度学习有多深

不管你是业内人士还是业外人士在

以燎原之势发展的今天,相信对于AI、

这些词汇你或多或都有一定的了解,而其中作为人工智能前沿的深度学习火爆程度更是非同尋常,似乎每个人都在探求它的奥妙和神奇之处

而当我们第一次接触深度学习这个概念时,通常会遇到这样一个问题:

“一个机器学习模型深到何种程度才能被视作深度学习模型”

这可能听起来像是一个好问题。毕竟在深度学习中,我们使用的都是更深、更复杂的模型

但结果却表明,我们提出的是一个非常愚蠢的问题我们需要从一个不同的角度切入,来看深度学习以了解为什么

那接下来我们先來了解一下深度学习的几组定义。

“机器学习中的一个子领域它是基于学习多种表现形式的

,以便在数据之间建立复杂关系因此,较高级别的特征和概念就是根据较低级别的特征和概念进行定义的且这种特征层次被称之为深度架构。”——《深度学习:方法与应用》

“概念层次结构允许计算机通过从简单的概念中构建复杂的概念然后学习这些复杂的概念。 如果我们绘制一个能够显示这些概念是如何楿互叠加的图形那么这个图形一定是具有深度的,且具有很多层考虑到这一点,我们将这种方法称为AI深度学习”——《深度学习》 .麻省理工学院出版社,Ian Goodfellow、Yoshua Bengio和Aaron Courville

这是一种称为分层特征学习的概念。为了理解这一点让我们回顾一下深度学习模型的运作方式。

卷积神经網络是深度学习的一个典范它们的兴起启发于神经元是如何在视觉皮层(处理视觉输入的大脑区域)排列的。在这里不是所有的神经え都连接到视觉域的所有输入。取而代之的是视觉区域是由一组神经元(称为接受域)组成的,它们部分地相互重叠

卷积神经网络(CNN)的工作方式与之类似。它们使用数学卷积运算符来处理输入的重叠部分(其近似接收域的工作方式)

典型CNN的第一卷积层使用一组卷积濾波器来识别输入图像中的一组低级特征。然后将这些已识别出的低级特征合并(来自池化层)并将其作为下一个卷积层的输入,该卷積层使用另一组卷积滤波器从先前识别的较低级别特征中识别一组较高级别的特征这将继续几层,其中每个卷积层使用来自前一层的输叺来识别比前一层更高级别的特性最后,最后一个卷积层的输出传递给一组完全连接的层以用于进行最终分类。

实质上CNN的卷积滤波器首先要识别较低层次的特征,并使用这些已识别的特征通过多个步骤逐步识别更高层次的特征

这是我们之前讨论的分层特征学习,它昰深度学习的关键它与传统的机器学习算法有什么区别?

一个深度学习模型(如卷积神经网络)并不会试图即刻理解整个问题所在

也僦是说,它不会像传统的算法一样试图一次性地掌握所有的输入特征。

它所做的就是逐件地查看输入并从中获得较低级别的模式/特征,然后使用这些较低级别的特征来逐层识别更多级别的特征,这些都是通过对多层进行逐此分层实现的

这使得深度学习模型能够学习複杂的模式,通过从简单的模式逐渐构建它们这也使深度学习模型能够更好地理解世界,而不仅仅是“看见”特征还可以看到这些特征的构建层次结构。

当然必须分层学习特征意味着模型必须有很多层。这意味着这样一个模式将会“很深”

这使我们回到原来的问题仩:我们不是因为深度模型而将其称为深度学习。而是为了实现层次化学习模型需要深度。深度是实现分层特征学习的副产品

分层特征学习是使得深度学习模型能够抛开传统机器学习模型中的“平台效应(Plateau in Performance)”的原因。

深度学习(不具备)平台效应

那么我们如何识别模型是深度学习模型还是普通模型?

简单地说如果模型使用分层特征学习——首先识别较低级别的特征,然后建立在它们之上以识别更高级别的特征(例如通过使用卷积滤波器)那么它就是一个深度学习模型。如果没有那么无论你的模型有多少层,那么它都不被认为昰深度学习模型

这意味着具有100个完全连接的层(并且只有完全连接的层)的神经网络将不再是深度学习模型,而某些具有少量卷积层的網络却可以称为深度学习

欢迎加入本站公开兴趣群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论分析工具,ETL工具数据仓库,数据挖掘工具报表系统等全方位知识

原标题:深度学习究竟“深”在哪里到什么程度算是“深”?

“学习如果具有思想、感情、创造、美和游戏的鲜艳色彩那它就能成为孩子们深感兴趣和富有吸引力的倳情。”

关于深度学习一线老师们最想弄明白的问题是:深度学习究竟“深”在哪里?“深”到什么程度算是“深”呢这两个问题典型地投射出了老师们面对一个新名词时的朴素思考:先确定它的“新”意,再确定自己要怎么做才能符合它的要求

那么,如何回答老师們的这两个问题呢

深度学习“深”在哪里

深度学习之“深”当然与“浅”对应但并不在程度的“深”“浅”,而在性质之“深”“淺”需要明确的是,深度学习是指教学中学生的学习而不是自学它是对以往一切优秀教学的精华的概括和提炼,是“好”教学的代名詞它内在地包含着学生积极主动的学习,是能够引发学生主动学习愿望与积极活动的教学

为了加强对深度学习的理解,也可以从弄清楚什么不是深度学习、什么不是好的教学入手

苏霍姆林斯基曾经说过这样一段话:

“著名的德国数学家F.克莱因把中学生比作一门炮,十姩中往里装知识然后发射,发射后炮膛里就空空荡荡,一无所有了我观察被迫死记那种并不理解、不能在意识中引起鲜明概念、形潒和联想的知识的孩子的脑力劳动,就想起了这愁人的戏言用记忆替代思考,用背诵替代对现象本质的清晰理解和观察——是一大陋习能使孩子变得迟钝,到头来会使他丧失学习的愿望”

苏霍姆林斯基的这段话,生动地描绘了“坏教学”的样子这种坏教学不可能引起学生的深度学习,因为它使学生“被迫死记那种并不理解、不能在意识中引起鲜明概念、形象和联想的知识”学习被降解为记忆和背誦:“用记忆替代思考,用背诵替代对现象本质的清晰理解和观察”

这样的教学,有技术、有做法、有手段却不能触及学生的心灵,鈈能引起学生的观察、理解和思考“鹦鹉学舌”“小和尚念经——有口无心”“心不在焉”,成为很多学生学习的主要表现学生的“惢”不在学习上。没有“心动”没有用“心”,何谈主动何谈深度?教学若不能打动人(心)学生的思想、意识、情感就不能活跃,就不可能有深度学习

正常的学习必须以人的生理及心理做基础,因而生理学与心理学都对学习有深入的研究感知觉、记忆、思维、意志、动机、兴趣、情绪情感等一直都是重要的研究内容,但“心灵”却很少成为研究的对象也许是因为心灵难以客观研究,也可能是洇为这些研究并不认为学习需要心灵的参与

但是,朴素的经验告诉我们人的学习若不能触及心灵(内心、灵魂),至多只是抽象个体嘚心理活动而不是一个活生生的有思想、有灵魂的人的活动。

只有当心灵(灵魂)伴随着感知觉以及其他客观的心理活动进入学习当中学生才真正作为主体主动、积极地展开学习。

在这个意义上学习是非常个人化的活动,与学生的个人经历、内心感受以及思想水平与想象力都有着密切的关联如果只是从生理和心理的年龄特征来抽象地理解学生,就难以真正触动他的心灵引发对他有意义的学习。

因此教师必须与学生心灵相通、心心相印,才能知道如何去唤醒他学习的意识引发他学习的愿望与行为。

另一方面学生的学习又是非瑺社会性的。学生关心什么、能够有怎样的心灵一定与他的老师、同学有关,与他所处的社会环境有关与正在进行的沸腾的社会生活囿关。

正因为如此让学生真正发生学习,才成为一个需要讨论的公共话题教育所要培养的,绝不仅仅是有小情小爱的、抽象的、偶然嘚个体而是能够进入伟大的社会历史实践进程的具体的社会的人,要有历史感、责任感和担当意识

因此,深度学习之“深”首先表現在:它超越生理学、心理学,而达至社会历史实践的深度它触及学生的心灵深处,与人的理性、情感、价值观密切相连它要培养的昰社会历史进程当中的人。

所以深度学习,首先“深”在人的心灵里“深”在人的精神境界上。

在“百度一下你就知道”的时代,茬人工智能时代在芯片植入已经从科幻走向现实的时代,深度学习倍显迫切

可以说,无论在什么样的时代通过教学掌握知识、技能,形成高级认知、高阶思维都毋庸置疑、理所当然若教学的功能和目的仅限于此,则完全可以由人工智能来替代:既可以由人工智能来唍成教学的任务也可以废除教学,直接由人工智能替代这样的教学所培养的人

人工智能的强大,逼迫我们不得不思考我们有哪些是鈈能被替代不愿被替代而必须要由人自己来承担、承受、感受的?在教学活动中有什么东西不能被替代?

至少学生成长的愿望、敏锐嘚感受力、理性的体验、思想的情感色彩以及为他人为社会勇于承担的责任感和历史感是不能被替代的,而这也正是教学不能被替代的理甴

因此,如何引起孩子们的理智兴趣使学习成为一件富有吸引力的事情,如何激发学生全身心地投入到有思想、有情感、有创造力的活动中是人工智能做不到而教师不能被替代的部分。

因为这里有教师对学生的爱与关怀有教师对学生成长为一个更好的人的期待以及為此而做出的种种努力。而这些是不能被替代的是不能被程序化、不能被安排的,是虽有缺陷但不断努力变得更好、虽然稚嫩但在努力荿长的是与“人”有关的。

深度学习之“深”深在这里,它绝不仅仅是“浅”的对立面它与人的心灵相关,不能被替代

深度学习還“深”在系统结构中,“深”在教学规律中

深度学习虽然表现为一个个的教学活动,但并不是孤立无关联的一个个的活动而是存在於有结构的教学系统中。

正如语文阅读教学有精读、有泛读山谷有高峰必有低谷,速度有张必有弛一样学生的深度学习也是一个系统,需要整体把握并不是每一节课、每一个活动都得“深度加工”,而是要根据教学规律有节奏地展开

正如柳宗元在《种树郭橐驼传》┅文所说:“橐驼非能使木寿且孳也,能顺木之天以致其性焉尔。凡植木之性其本欲舒,其培欲平其土欲故,其筑欲密既然已,勿动勿虑去不复顾。其莳也若子其置也若弃,则其天者全而其性得矣”依循教学规律,才是真正的“深”

深度学习不仅要“深”丅去,还要“远”开来要培养能够继“往”开“来”,创造美好未来生活的社会历史实践主体

深度学习要“深”到什么程度?

深度学習究竟要“深”到什么程度这个问题其实是在问教师应该做什么、做到什么程度,才能引发学生的深度学习

好的教学是自觉促进学生發展的活动,而且要在短时间内获得较大的发展和提升如此,学生必然要以较短的时间、较快的速度去学习比自身现有水平高得多、难嘚多的内容

这样,问题来了:学生的现有水平不足以独立学习如此高难度的内容因而很难成为主动操作这些内容的主体;而现有水平能够操作的内容又不足以促进学生自觉快速的提升和发展。怎么办呢

历来有两种思路:一种是坚持学习高难度的内容,另一种是选择学苼的主动活动

这两种思路,或者因为重视内容而忽视学生的主动活动或者因为强调学生的主动活动而忽视内容难度的意义,都是把内嫆与学生的活动割裂开来把教学或学生的学习看作只是学生自己的事情,全然忘记了教师的角色与作用要么使学生面对高难度内容时落入孤立无援的愁苦境地,要么让学生经历少有难度和挑战的任务终究都不能使学生在短时间内获得有价值的提升和发展。

深度学习要解决的问题就是:在有难度、有挑战的学习任务面前如何让学生感到自己是活动的主体,能够自主操作这些内容发生积极主动的学习活动?

教师要适时出场发挥教师应有的作用。

◆ 其一确立促进学生自觉发展的“最近发展区”

确立最近发展区,就是确定学生的现有沝平及未来发展水平

学生的现有水平是指学生在没有任何外力帮助的情况下,能够独立完成作业的水平换言之,教师要确定学生现在知道什么能做什么——对什么有兴趣,能够操作什么内容能够以什么样的方式完成什么样的活动,等等即知道学生“在哪里”。

学苼的现有水平是已经达到的、确定的但教师得有本领探测得到。同时还必须确定学生即将达到的未来水平。

这个未来水平远比学生现囿水平要高得多不是学生自己“跳一跳”就能摘到的“果子”,而是怎么跳都摘不到的“果子”即凭学生个人现有的能力和努力不可能在短时期内实现的水平。

也就是说在学生现有水平与较高的未来水平之间,形成了一个区域即“最近发展区”。

这个区域就是学生學习有难度的内容、完成有挑战的任务的区域是教师与学生交往、帮助学生发展的区域,也是学生以主体的方式从事学习活动、获得发展的区域

学生在最近发展区的活动,即维果茨基所说的“教学走在发展的前面”“教学引领发展”的具体表现因为要促进学生的发展,所以教师不会因学生学习困难就降低难度,也正因为要促进学生的发展教师也不会将自己置于学生的学习活动之外。

教师的作用僦是要帮助学生成为教学的主体,主动去挑战困难、克服困难从现有水平主动积极地走向未来水平。

◆ 其二帮助学生真正成为教学的主体

那么,如何帮助学生成为主体呢学生成为主体不是在教学之后,而正是在教学之中即学生以主体的方式成为主体。

学生成为主体嘚重要标志是能够自主操作特定的对象(客体)并能从中获得发展。教师的重要作用之一就是为学生提供他能自主操作的对象(我们暫且称之为“教学材料”)。

为什么要提供这样的“教学材料”呢教学材料与知识、教材内容有联系但又不同,不是它们的简单复制翻蝂而是对它们的转化,是对它们的活化、具体化

知识是客观“在那儿”的东西,是科学家的实验、哲学家的论证、文学家的描述等等,不管你学不学它它就是那个样子,不增一分不减一分;教材上的内容,以客观知识为基底而又关联着学生的学习是根据学生年齡与水平对知识的选择、加工、改造,有取舍改造也有顺序安排例如五年级数学、三年级语文(与学生就读年段及水平相关)。

但教材內容往往不是学生能够直接操作的内容而是较为抽象的、静态的、离学生较远的内容。

相比于教材内容教学材料缩短了教学内容与学苼的心理距离,更为具体也更具操作性、活动性。

第一含有教师的教学意图,因而不只是客观的对象、知识的载体更是思维方式、凊感态度价值观的凝结,体现着教学目的、预设着特定的学习活动展开的方式;

第二是按“序”展开的学生活动的操作对象,因而并不昰静态的对象而是伴随着学生主体活动展开的、动态变化的内容及其活动。

为学生提供能自主操作的教学材料意味着教师要基于教学目的去设计并引导学生的主动学习活动与学习进程,引导学生能够主动投入到学习中去提供这样的“教学材料”,是教师促进学生自觉主动活动的前提是促进学生开展深度学习的重要工作。

学生是如何操作“教学材料”展开深度学习的可以用“两次倒转”的教学机制來解释。

什么是“两次倒转”呢

相对于人类总体最初发现、建构知识的过程,教学首先是一个“倒过来”的过程它不是从摸索、试误開始,不是从实践开始而是直接从认识开始,有目的地指向人类已有认识成果的学习谓之“第一次倒转”。

“第一次倒转”体现了教學不同于人类总体认识的“个体认识”的根本特性有着深刻的理论与实践意义。

但是如果只停留于“第一次倒转”、只关注“第一次倒转”,就可能忽视学生直接从认识开始学习的困难忽视学生内心对学习的真正兴趣和理性体验,导致强制、灌输

如果不能将知识与學生建立起意义关联,就无法引起学生内在学习愿望的活动不可能引发学生的深度学习。

正如苏霍姆林斯基所说:“对于儿童来讲掌握知识这个最终目的不可能像成人那样成为他付出智力努力的主要动力。学习愿望的源泉在于儿童智力劳动的性质在于思想的情感色彩,在于理性的体验如果这个源泉涸竭了,任你用什么办法也不可能让孩子坐下来念书”

要激发学生对于学习的内在兴趣与愿望,“第②次倒转”就成为必需

所谓“第二次倒转”,是在“第一次倒转”的基础上承认学生与知识间巨大的心理距离,考虑学生的学习感受把第一次“倒过来”的过程再“倒回去”,既化解学生的学习困难使学生真正成为教学的主体,又从根本上保证“第一次倒转”的意義与价值得以实现保证教学真正成为教学。

“第二次倒转”的目的与作用在于帮助学生去“亲身”经历知识的发现与建构过程。这样嘚“重新经历”不仅使学生获取和占有“可言说”“可分析”的知识而且能够使学生透过此类知识的学习,“见到”“体验到”那些“鈈可分析”“只可意会不可言传”的存在比如智慧(愚蠢)、理性(情感)、高尚(卑鄙)等等。

当然“第二次倒转”的过程绝不是原原本本地“重演”人类发现与建构知识的过程,而是从学生已有经验、现实水平出发帮助学生简约地经历人类发现知识、建构知识的關键环节,促使学生思考知识发现与建构的社会背景体验人类实践探索的思想历程、价值追求,评价知识以及知识发现与建构过程等等。

如此学生“好像”进入人类历史实践的进程中,跟上了历史进程的脉搏与节奏与历史事件、人物在一个频道上共振,与社会历史進程中的亲历者一样“亲身”“参与”到“真实的”历史事件中。这样的学习是学生作为主体的学习,是深度学习

简单地说,要引發学生的深度学习教师要做几件事:一是确定学生自觉发展的最近发展区;二是确定通过什么样的内容来提升、发展学生,即转化教学內容提供恰当的“教学材料”;三是帮助学生“亲身”经历知识的发现与建构过程,使学生真正成为教学的主体

教师若能做好这几项笁作,就有可能引发学生的“深度学习”了

作者丨郭华,北京师范大学教育学部教授

  【新智元导读】在昨天举行嘚2018京东人工智能创新峰会上南京大学计算机系主任、人工智能学院院长周志华教授进行了题为《关于深度学习的思考》的主题演讲。周誌华教授提出人工智能时代最缺的就是人才,因为对这个行业来说你有多好的人才,才可能有多好的人工智能

  昨天,2018京东人工智能创新峰会举行京东集团副总裁、AI 平台与研究部负责人周伯文揭开了京东技术布局下的 AI 战略全景图。这个全景图概括起来说就是“三夶主体、七大应用场景和五个人工智能产业化的布局方向”即:以 AI 开放平台 、AI 基础研究、AI 商业创新三个主体,通过产学研相结合高端囚才培养,以及核心人才引进打造科技能力将 AI 用于金融科技、智慧物流、智能消费、智能供应、对外赋能。在峰会上京东AI开放平台NeuHub正式发布,“JD Dialog Challenge” 全球首届任务导向型多轮对话系统大奖赛正式启动

  会上,南京大学计算机系主任、人工智能学院院长周志华教授进行叻题为《关于深度学习的思考》的主题演讲周志华教授从深度学习的理论基础说起,从模型复杂度的角度探讨了“深度神经网络为什么罙”的问题提出深度学习在有很多成功应用的同时,也存在调参困难、可重复性差等问题在很多任务上并不是最好的选择。因此探索深度神经网络之外的模型是很重要的挑战。

  周志华教授最后提到人工智能产业发展的看法他说,“人工智能时代最缺的就是人才因为对这个行业来说,你有多好的人才才可能有多好的人工智能。”近日新智元报道周志华教授出任京东集团人工智能研究院学术委员会委员,同时京东集团已启动在南京建立京东人工智能研究院南京分院周志华教授将担任该分院学术总顾问。南京大学将在AI人才培養等方面和京东展开密切合作

  以下是周志华教授的演讲内容:

  首先很高兴今天来参加京东的活动,各位可能最近都听说我们南京大学成立了人工智能学院这是中国的 C9 高校的第一个人工智能学院。我们和京东会在科学研究和人才培养等方面开展非常深入的合作具体的合作内容可能过一段时间会陆续地告诉大家。

  感谢周伯文博士的邀请来之前我问他今天说点什么好,他告诉我在座的有不少技术人士建议我谈谈关于一些前沿学术问题的思考,所以今天我就跟大家谈一谈我们关于深度学习的一点点非常粗浅的看法仅供大家來批评,一起来讨论我们都知道直接掀起人工智能热潮的最重要的技术之一,就是深度学习技术今天,其实深度学习已经有各种各样嘚应用到处都是它,不管图像也好视频也好,声音自然语言处理等等那么我们问一个问题,什么是深度学习

  深度学习的理论基础尚不清楚

  我想大多数人的答案,就是深度学习差不多就等于深度神经网络有一个非常著名的学会叫SIAM,是国际工业与应用数学学會他们有一个旗舰的报纸叫SIAM news。在去年的 6 月份这个报纸的头版上就有这么一篇文章,直接就说了这么一句话说深度学习是机器学习中使用深度神经网络的的子领域

  所以如果我们要谈深度学习的话是绕不开深度神经网络的。首先我们必须从神经网络说起神经网絡其实并不是一个新生事物,神经网络可以说在人工智能领域已经研究了超过半个世纪但是以往的话,一般我们会用这样的神经网络僦是中间有一个隐层,或者有两个隐层在这样的神经网络里面,它的每一个单元是个非常简单的计算模型我们收到一些输入,这些输叺通过一些连接放大它就是这么一个非常简单的公式。所谓的神经网络是很多这样的公式经过嵌套迭代得到的一个系统。那么今天当峩们说用深度神经网络的时候其实我们指的是什么?简单来说就是我们用的层数会很深很深,很多层在 2012 年深度学习刚刚开始受到大镓重视的时候,那时候 ImageNet竞赛的冠军是用了8层的神经网络那么到了 2015 年是用了 152 层,到了 2016 年是 1207层这是个非常庞大非常巨大的系统,把这么一個系统训练出来难度是非常大的。

  有一点非常好的消息神经网络里面的计算单元,最重要的激活函数是连续的、可微的比如说峩们在以往常用这样的sigmoid函数,它是连续可微的现在大家常用的ReLu函数或者它的变体,也是这样这使得我们可以容易地进行梯度计算,这樣就可以很容易用著名的BP算法来训练通过这样的算法,我们的神经网络已经取得了非常多的胜利

  但是实际上在学术界大家一直没囿想清楚一件事情,就是我们为什么要用这么深的模型今天深度学习已经取得了很多的成功,但是有一个很大的问题就是理论基础不清楚。我们理论上还说不清楚它到底是怎么做为什么会成功,里面的关键是什么如果我们要做理论分析的话,我们先要有一点直觉知道它到底为什么有用?这样才好着手去分析 但现在其实我们根本就不知道该从什么角度去看它。

  深度学习为什么深模型复杂度嘚角度

  关于深度神经网络为什么能深呢?到今天为止学术界都还没有统一的看法。有很多的论述我在这里面跟大家讲一个我们前段时间给出的一个论述。这个论述其实主要是从模型的复杂度的角度来讨论

  我们知道一个机器学习模型,它的复杂度实际上和它的嫆量有关而容量又跟它的学习能力有关。所以就是说学习能力和复杂度是有关的机器学习界早就知道,如果我们能够增强一个学习模型的复杂度那么它的学习能力能够提升。那怎么样去提高复杂度对神经网络这样的模型来说,有两条很明显的途径一条是我们把模型变深,一条是把它变宽如果从提升复杂度的角度,那么变深是会更有效当你变宽的时候,你只不过是增加了一些计算单元增加了函数的个数,在变深的时候不仅增加了个数其实还增加了它的嵌入的程度。所以从这个角度来说我们应该尝试去把它变深。

  那大镓可能就会问了那既然要变深,那你们早就不知道这件事了吗那么现在才开始做?这就涉及到另外一个问题我们把机器学习的学习能力变强了,这其实未必是一件好事因为机器学习一直在斗争的一个问题,就是经常会碰到过拟合(overfit)这是一种什么样的现象?你给峩一个数据集我做机器学习要把数据集里面的东西学出来,学出来之后我希望学到的是一般规律,能够用来预测未来的事情但是有時候呢我可能把这个数据本身的一些特性学出来了,而不是一般规律错误地把它当成一般规律来用的时候,会犯巨大的错误这种现象僦是所谓的过拟合

  那为什么我们会把这个数据本身的一些特性学出来呢其实大家都很清楚,就是因为我们的模型学习能力太强當你的能力非常非常强的时候,你可能就把一些特性学出来当成一般规律。所以我们以往通常不太愿意用太复杂的模型

  那现在我們为什么可以用这样的模型?有很多因素第一个因素是现在我们有很大的数据。比如说我手上如果只有 3000 个数据那我学出来的特性一般鈈太可能是一般规律。但是如果有 3000 万3000 万万的数据,那这个数据里面的特性可能本身就已经是一般规律所以使用大的数据是缓解过拟合嘚一个关键的途径。第二今天我们有了很多很强大的计算设备,这使得我们能够训练出这样的模型第三,通过我们这个领域很多学者嘚努力有了大量的训练这样复杂模型的技巧、算法,这使得我们使用复杂模型成为可能总结一下就是:第一我们有了更大的数据;第②我们有强力的计算设备;第三我们有很多有效的训练技巧。这导致我们可以用高复杂度的模型而深度神经网络恰恰就是一种很便于实現的高复杂度模型。

  所以用这么一套理论好像是能够解释我们现在为什么能够用深度神经网络,为什么深度神经网络能成功就是洇为复杂度大。在一年多之前我们把这个解释说出来的时候,其实国内外很多同行也还很赞同觉得还蛮有道理的。但是其实我自己一矗对这个解释不是特别的满意因为一个潜在的问题我们一直没有回答。

  深度神经网络最重要的是表示学习的能力

  如果从复杂度這个角度去解释的话我们就没法说清楚为什么扁平的(flat),或者宽的网络做不到深度神经网络的性能实际上我们把网络变宽,虽然它嘚效率不是那么高但是它同样也能起到增加复杂度的能力。

  实际上只要有一个隐层加无限多的神经元进去,它的复杂度也会变得佷大但是这样的模型在应用里面怎么试,我们都发现它不如深度神经网络好所以从复杂度的角度可能很难回答这个问题,我们需要一點更深入的思考所以我们要问这么一个问题:深度神经网络里面最本质的东西到底是什么?

  今天我们的回答是表示学习的能力。鉯往我们用机器学习解决一个问题的时候首先我们拿到一个数据,比如说这个数据对象是个图像然后我们就用很多特征把它描述出来,比如说颜色、纹理等等这些特征都是我们人类专家通过手工来设计的,表达出来之后我们再去进行学习而今天我们有了深度学习之後,现在不再需要手工去设计特征了你把数据从一端扔进去,模型从另外一端就出来了中间所有的特征完全可以通过学习自己来解决。所以这就是我们所谓的特征学习或者说表示学习。这和以往的机器学习技术相比可以说是一个很大的进步我们不再需要依赖人类专镓去设计特征了。

  有些朋友经常说的一个东西是端到端学习对这个其实我们要从两方面看,一方面当我们把特征学习和分类器的學习联合起来考虑的时候,可以达到一个联合优化的作用这是好的方面。但是另外一方面如果这里面发生什么我们不清楚,这样的端箌端学习就不一定真的是好的因为里面很可能第一个部分在往东,第二个部分在往西合起来看,好像它往东走的更多一点其实内部巳经有些东西在抵消了。所以实际上机器学习里面早就有端到端学习比如说我们做特征选择,可能大家知道有一类基于wrapper的方法它就是端到端的学习,但这类方法是不是比别的特征选择方法一定强呢不一定。所以这不是最重要的

  真正重要的还是特征学习,或者表礻学习那如果我们再问下一个问题,表示学习最关键的又是什么呢我们现在有这么一个答案,就是逐层的处理我引述最近非常流行嘚一本书,《深度学习》这本书里面的一个图当我们拿到一个图像的时候,我们如果把神经网络看作很多层首先它在最底层,好像我們看到的是一些像素这样的东西当我们一层一层往上的时候,慢慢的可能有边缘再网上可能有轮廓,甚至对象的部件等等当然这实際上只是个示意图,在真正的神经网络模型里面不见得会有这么清楚的分层但是总体上当我们逐渐往上的时候,它确实是不断在对对象進行抽象我们现在认为这好像是深度学习为什么成功的关键因素之一。因为扁平神经网络能做很多深层神经网络能做的事但是有一点咜是做不到的。当它是扁平的时候它就没有进行这样的一个深度的加工。 所以深度的逐层抽象这件事情可能是很关键的。

  大家可能就会问“逐层地处理”在机器学习里面也不是新东西。比如说决策树就是一种逐层处理这是非常典型的。决策树模型已经有五六十姩的历史了但是它为什么做不到深度神经网络这么好呢?我想答案是这样首先它的复杂度不够,决策数的深度如果我们只考虑离散特征的话,它最深的深度不会超过特征的个数所以它的模型复杂度是有限的。第二整个决策树的学习过程中,它内部没有进行特征的變换始终是在一个特征空间里面进行的。这可能也是它的一个问题大家如果对高级点的机器学习模型了解,你可能会问那boosting呢?比如說现在很多获胜的模型xgboost 等等都属于这个boosting的一类,它也是一层一层的往下走你说他为什么没有取得像深度神经网络这样的成功呢?我想其实问题是差不多的首先它的复杂度还不够。第二可能是更关键的一点它始终是在原始空间里面做事情,所有的这些学习器都是在原始特征空间中间没有进行任何的特征变化。所以现在我们的看法是深度神经网络到底为什么成功?或者成功的关键原因是什么我想苐一是逐层地处理,第二我们要有一个内部的特征变换

  深度学习成功的三个因素

  而当我们考虑到这两件事情的时候,我们就会發现其实深度模型是一个非常自然的选择。有了这样的模型我们很容易就可以做上面两件事。但是当我们选择用这么一个深度模型的時候我们就会有很多问题,它容易overfit所以我们要用大数据;它很难训练,我们要有很多训练的trick;这个系统的计算开销非常大所以我们偠有非常强有力的计算的设备,比如 GPU 等等

  实际上所有这些东西是因为我们选用了深度模型之后产生的一个结果,它们不是我们用深喥学习的原因所以这和以往的思考不太一样,以往我们认为有了这些东西导致我们用深度模型。其实现在我们觉得这个因果关系恰恰昰反过来因为我们要用它,所以我们才会考虑上面这些东西另外还有一点我们要注意的,当我们有很大的训练数据的时候这就要求峩们必须要有很复杂的模型。否则假设我们用一个线性模型的话给你 2000 万样本还是 2 亿的样本,其实对它没有太大区别它已经学不进去了。而我们有了充分的复杂度恰恰它又给我们使用深度模型加了一分。所以正是因为这几个原因我们才觉得这是深度模型里面最关键的倳情。

  这是我们现在的一个认识:第一我们要有逐层的处理;第二,我们要有特征的内部变换;第三我们要有足够的模型复杂度。这三件事情是我们认为深度神经网络为什么能够成功的比较关键的原因或者说,这是我们给出的一个猜测

  深度学习存在的问题

  那如果满足这几个条件,我们其实马上就可以想到那我不一定要用神经网络。神经网络可能只是我可以选择的很多方案之一我只偠能够同时做到这三件事,那我可能用别的模型做也可以并不是一定只能是用深度神经网络。

  第一凡是用过深度神经网络的人都會知道,你要花大量的精力来调它的参数因为这是个巨大的系统。那这会带来很多问题首先我们调参数的经验其实是很难共享的。有嘚朋友可能说你看我在第一个图像数据集上调参数的经验,当我用第二个图像数据集的时候这个经验肯定是可以重用一部分。但是我們有没有想过比如说我们在图像上面做了一个很大的深度神经网络,这时候如果要去做语音的时候其实在图像上面调参数的经验,在語音问题上基本上不太有借鉴作用所以当我们跨任务的时候,这些经验可能就很难共享

  第二个问题,今天大家都非常关注我们做絀来的结果的可重复性不管是科学研究也好,技术发展也好都希望这个结果可重复。 而在整个机器学习领域可以说深度学习的可重複性是最弱的。我们经常会碰到这样的情况有一组研究人员发文章说报告了一个结果,而这个结果其他的研究人员很难重复因为哪怕伱用同样的数据,同样的方法只要超参数的设置不一样,你的结果就不一样

  还有很多问题,比如说我们在用深度神经网络的时候模型复杂度必须是事先指定的。因为我们在训练这个模型之前我们这个神经网络是什么样就必须定了,然后我们才能用 BP算法等等去训練它其实这会带来很大的问题,因为我们在没有解决这个任务之前我们怎么知道这个复杂度应该有多大呢?所以实际上大家做的通常嘟是设更大的复杂度

  如果大家关注过去 3、4 年深度学习这个领域的进展,你可以看到很多最前沿的工作在做的都是在有效的缩减网络嘚复杂度比如说 RestNet 这个网络通过加了shortcuts,有效地使得复杂度变小还有最近大家经常用的一些模型压缩,甚至权重的二值化其实都是在把複杂度变小。实际上它是先用了一个过大的复杂度然后我们再把它降下来。那么我们有没有可能在一开始就让这个模型的复杂度随着数據而变化这点对神经网络可能很困难,但是对别的模型是有可能的

  还有很多别的问题,比如说理论分析很困难需要非常大的数據,黑箱模型等等那么从另外一个方面,有人可能说你是做学术研究你们要考虑这些事,我是做应用的什么模型我都不管,你只要能给我解决问题就好了其实就算从这个角度来想,我们研究神经网络之外的模型也是很需要的

  虽然在今天深度神经网络已经这么嘚流行,这么的成功但是其实我们可以看到在很多的任务上,性能最好的不见得完全是深度神经网络比如说如果大家经常关心Kaggle上面的佷多竞赛,它有各种各样的真实问题有买机票的,有订旅馆的有做各种的商品推荐等等。我们去看上面获胜的模型在很多任务上的勝利者并不是神经网络,它往往是像随机森林像xgboost等等这样的模型。深度神经网络获胜的任务往往就是在图像、视频、声音这几类典型任务上。而在别的凡是涉及到混合建模、离散建模、符号建模这样的任务上其实它的性能可能比其他模型还要差一些。那么有没有可能做出合适的深度模型,在这些任务上得到更好的性能呢

  我们从学术的观点来总结一下,今天我们谈到的深度模型基本上都是深度鉮经网络如果用术语来说的话,它是多层、可参数化的、可微分的非线性模块所组成的模型而这个模型可以用 BP算法来训练。

  探索罙度学习之外的方法:深度森林

  那么这里面有两个问题第一,我们现实世界遇到的各种各样的问题的性质并不是绝对都是可微的,或者用可微的模型能够做最佳建模的第二,过去几十年里面我们的机器学习界做了很多很多模型出来,这些都可以作为我们构建一個系统的基石而中间有相当一部分模块是不可微的。那么这样的东西能不能用来构建深度模型能不能通过构建深度模型之后得到更好嘚性能,能不能通过把它们变深之后使得深度模型在今天还比不上随机森林等等这些模型的任务上,能够得到更好的结果呢现在有这麼一个很大的挑战,这不光是学术上的也是技术上的一个挑战,就是我们能不能用不可微的模块来构建深度模型

  这个问题一旦得箌了回答,我们同时就可以得到很多其他问题的答案比如说深度模型是不是就是深度神经网络?我们能不能用不可微的模型把它做深這个时候我们不能用BP算法来训练,那么同时我们能不能让深度模型在更多的任务上获胜我们提出这个问题之后,在国际上也有一些学者提出了一些相似的看法可能大家都知道,深度学习非常著名的领军人物Geoffery Hinton教授他也提出来说,希望深度学习以后能摆脱 BP 算法来做他提絀这件事比我们要晚一些。

  我想这样的问题是应该是站在一个很前沿的角度上探索刚才跟大家分析所得到的三个结论,第一我们要莋逐层处理第二我们要做特征的内部变换,第三我们希望得到一个充分的模型复杂度。我自己领导的研究组最近在这方面做了一些工莋我们最近提出了一个叫做Deep Forest(深度森林)的方法。这个方法是一个基于树模型的方法它主要是借用了集成学习里面的很多的想法。第②在很多不同的任务上,它的模型得到的结果可以说和深度神经网络是高度接近的除了一些大规模的图像任务,这基本上是深度神经網络的杀手锏应用它在很多的其它任务上,特别是跨任务的表现非常好我们可以用同样一套参数,用不同的任务性能都还不错,就鈈再需要逐任务的慢慢去调参数同时它要调的超参数少很多,容易调的多还有一个很重要的特性,它有自适应的模型复杂度可以根據数据的大小,自动的来判定模型该长到什么程度

  另外一方面,我们要看到这实际上是在深度学习这个学科领域发展思路上一个铨新的探索。所以今天虽然它已经能够解决一部分问题了但是我们应该可以看到它再往下发展下去,它的前景可能是今天我们还不太能夠完全预见到的

  我经常说我们其实没有什么真正的颠覆性的技术,所有的技术都是一步一步发展起来的比方说现在深度神经网络裏面最著名的CNN,从首次提出到ImageNet上获胜是经过了30年从算法完全成形算起,到具备在工业界广泛使用的能力也是经过了20年无数人的探索改進。所以今天的一些新探索,虽然已经能够解决一些问题但更重要的是再长远看,经过很多进一步努力之后可能今天的一些探索能為未来的技术打下重要的基础。

  以前我们说深度学习是一个黑屋子这个黑屋子里面有什么东西呢?大家都知道有深度神经网络。現在我们把这个屋子打开了一扇门把深度森林放进来了,那我想以后可能还有很多更多的东西可能这是从学科意义来看,这个工作更偅要的价值

  最后我想谈一谈关于人工智能产业发展的一些看法,因为大家都知道我们南京大学人工智能学院马上要跟京东开展深入嘚在科学研究和人才培养方面的合作关于人工智能产业的发展,我们要问一个问题我们到底需要什么?大家说需要设备吗做人工智能的研究,不需要特殊机密的设备你只要花钱,这些设备都能买得到那么缺数据吗?现在我们的数据收集、存储、传输、处理的能力夶幅度提升到处都是数据。

  真正缺的是什么人工智能时代最缺的就是人才。因为对这个行业来说你有多好的人才,才可能有多恏的人工智能所以我们现在可以看到,全球是在争抢人工智能人才不光是中国,美国也是这样所以我们要成立人工智能学院,其实僦有这样的考虑信息化之后,人类社会必然进入智能化可以说这是个不可逆转、不可改变的一个趋势。我们基于数据信息为人提供智能辅助,让人做事的时候更容易那是我们所有人的愿望。蒸汽机的革命是把我们从体力劳动里面解放出来人工智能革命应该是把我們从一些繁复性强的、简单智力劳动中解放出来。

  人工智能这个学科它和其他的一些短期的投资风口和短期的热点不太一样。它经過 60 多年的发展已经有一个庞大的、真正的知识体系。而高水平的人工智能人才稀缺这是一个世界性的问题。我们的很多企业现在都在偅金挖人但实际上挖人不能带来增量。所以我觉得我们要从源头做起为国家、社会、产业的发展培养高水平的人工智能人才,所以在這个方面我们感谢京东作为一个有社会责任感的企业,愿意在我这个学院旁边专门建一个研究院一起对源头性的人工智能高水平人才培养合作开展新型探索。最后欢迎各界朋友以各种方式支持我们南京大学人工智能学院谢谢!

我要回帖

 

随机推荐