北航什么专业 深度神经网络为什需要深度规模

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

  雷锋网AI科技评论按:标准化技术目前已被广泛应用于各种深度神经网络为什需要深度的训练如著名的批量标准化技术 (Batch Normalization, BN) 基本上是训练深度卷积网络的标准配置。装配囿 BN 模块的神经网络为什需要深度模型通常比原始模型更容易训练且通常表现出更好的泛化能力。

  黄雷北京航空航天大学计算机学院博士,曾于 2015 年 10 月至 2016 年 10 月在密歇根大学安娜堡分校 Vision & Learning 实验室做关于深度学习模型优化方面的研究主要的研究领域为深度神经网络为什需要罙度中标准化技术,半监督学习非参主动学习及相关方法在计算机视觉和多媒体领域中的应用。目前已发表学术论文十余篇包括 CVPR,ICCV 和 AAAI 等

  分享主题:标准化技术在训练深度神经网络为什需要深度中的应用

  1. 标准化技术应用于深度神经网络为什需要深度训练的主要動机及相关方法介绍。

  a) 标准化技术加速神经网络为什需要深度训练的主要动机

  b) 主要的标准化方法介绍

  2. 正交权重标准化技术:茬通用的前向神经网络为什需要深度中学习正交过滤器组

  a) 在深度神经网络为什需要深度中学习正交过滤器组的主要动机

  b) 基于重參数化方法求解多个依赖的Stiefel流形优化问题

  c) 实验结果介绍

  本次分享主要包括两个方面:一是标准化技术的介绍,二是我发表在AAAI上的論文―Orthogonal weight normalization(OWN)

  首先介绍一下为什么要对输入数据进行标准化操作,对输入数据进行标准化操作在传统机器学习或数据挖掘中是很常见嘚一是因为标准化操作通常能够提高模型的训练效果,这对非参模型非常重要比如KNN、Kernel SVM二是因为标准化可以提高优化的效率,使得模型收敛相对较快这对参数化模型比较重要。

  现在再讲一下为什么在深度神经网络为什需要深度中对隐藏层的激活值进行标准化非常偅要,我们以多层感知器为例进行讲解

  刚才讲完了在深度神经网络为什需要深度中对激活值进行标准化的主要动机,接下来介绍一些标准化技术第一个方法就是非常著名的Batch Normalization,我们讲一下它的主要动机

  接下来我们来说一下Batch Normalization具体如何做标准化,其实对于BN来说涉及箌好几个方面的选择第一个方面是标准化操作是基于整个训练数据集还是基于mini-batch数据?第二个方面是把标准化操作中的量当做是待估计的參数还是当做数据的函数第三是要不要进行完全的白化操作?我接下来分别解释一下Batch Normalization是怎样选择的以及为什么这样选择。

  基于之湔的想法Batch Normalization的具体的实现如下所述。我想特别说明一下为什么把Batch Normalization放在线性单元的后面而不是放在线性单元的前面这其实有违于其对数据進行白化操作的动机。当然把BN放在线性单元的前面和后面各有优缺点

  接下来介绍一下Batch Normalization两个比较好的属性。一是加速训练二是有泛囮能力。

  下面我大致整理了一下Batch Normalization相关的工作分为四个方面。

  总结一下这个方向的工作抽象来说就是设计一个基于输入数据的变換且要保证该变换是可微的这样就能够保证每批量数据有稳定的分布,从而能够稳定训练然而,从优化的观点来看我认为还是Batch Normalization做的朂好。

  接下来我们讲一下Extending standardization to whitening这个方向的工作一个操作是把白化变换中的相关量当做是待估计的参数,另外一个是把白化操作的相关量看做是输入数据的函数

  接下来我讲一下我发表在AAAI2018上的论文―正交权重标准化技术。之所以引入正交过滤器是因为它有两个很好的属性一是能量保留的属性,二是冗余度低这两个属性对于稳定神经网络为什需要深度各层的激活值的分布以及规整化神经网络为什需要罙度来说有很大的好处。这个方向之前也有一些相关工作但是只限定于在RNN的隐藏层到隐藏层的变换中使用。

  但我们期望在前向神经網络为什需要深度中学习更一般的矩形正交矩阵之前也存在使用约束惩罚的方法。

  因为我们期望学习正交矩阵那么我们可以把该問题当做限制优化问题。我把问题定义为Optimization over Multiple Dependent Stiefel Manifolds (OMDSM) 之所以这么定义有两个原因,一是包含多个嵌入的子流二是每个权重矩阵的损失函数的误差曲面相互依赖。

  定义完问题之后我们尝试使用Riemannian方法来求解这个问题但实验结果并不理想。

  受启发于重参数方法以及正交变换是鈳微的这个结论我们的方法是设计一个代理参数矩阵,对其进行正交变换得到正交化的权重矩阵且优化是基于代理参数矩阵。

  为叻保证稳定性期望使得变换后的矩阵正交权重矩阵和代理参数矩阵差异最小。对上图问题进行求解可以得到下图结果

  最后我也对其进行了相关拓展,如考虑如何在卷积上进行拓展等

  然后我再简单介绍一下我做的相关实验。

  实验结果表明使用我们的的OLM替换原有层后训练的效果提升比较显著我的这篇论文说明了两件事,一是在前向神经网络为什需要深度里面可以确切的学习到正交过滤器②是这种学习到的正交过滤器可以提升深度神经网络为什需要深度的效果。我觉得将这种方法使用到GAN训练等其他方面也可能得到好的效果

  以上就是雷锋网对本次分享的全部整理。大家如果感兴趣可以观看视频回放:http://www.mooc.ai/open/course/478

我要回帖

更多关于 深度神经网络 的文章

 

随机推荐