如何加快推进深度扶贫深度网络训练

如何快速简单地训练神经网络?
如何快速简单地训练?谷歌大脑研究人员研究了CNN的可训练性,提出了一种简单的初始化策略,不需要使用残差连接或批标准化,就能训练10000层的原始CNN。作者表示,他们的这项工作清除了在训练任意深度的原始卷积网络时存在的所有主要的障碍。
2015年,ResNet横空出世,以令人难以置信的3.6%的错误率(人类水平为5-10%),赢得了当年ImageNet竞赛冠军,在图像分类、目标检测和语义分割各个分项都取得最好成绩,152层顺序堆叠的残差模块让业界大为赞叹。
此后,ResNet作为训练&极&深网络的简单框架,得到了广泛的应用,包括最强版本的AlphaGo&&AlphaGo Zero。
此后,随着神经网络向着更深、更大的规模发展,性能不断提高的同时,也为训练这样的网络带来了越来越大的挑战。虽然现在有类似谷歌AutoML的项目,将设计和优化神经网络的工作,交给神经网络自己去做,而且效果还比人做得更好。但是,研究者还是在思考,为什么残差连接、批标准化等方法,会有助于解决梯度消失或爆炸的问题。
在谷歌大脑研究人员发表于ICML 2018的论文《CNN动态等距和平均场论》(Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convoluonal Neural Networks)中,他们对CNN的可训练性和信号在卷积网络中的传输特点进行了研究,并拓展了此前关于平均场论(Mean Field Theory)的工作。
他们发现,卷积核在空间上的分布情况扮演了很重要的角色:当使用在空间上均匀分布的卷积核对CNN做初始化时,CNN在深度上会表现得像全连接层;而使用在空间上不均匀分布的卷积核时,信号在深度网络中就表现出了多种传输模式。
基于这一观察,他们提出了一个简单的初始化策略,能够训练10000层乃至更深的原始CNN结构。
不用残差连接,也不用批标准化,只用一个简单的初始化策略,就能训练10000层深度的网络。上图为在MNIST数据集的结果,下图是CIFAR10,实线是测试,训练是训练。来源:论文
作者表示,他们的这项工作提供了对残差连接、批标准化等实践方法的理论理解。&残差连接和批标准化(Batch Normalization)这些结构上的特征,可能在定义好的模型类(model class)中有着重要的作用,而不是仅仅简单地能够提高训练的效率。&
CNN可以被训练的深度,就是信号能完全通过的层数
在物理学和概率论中,平均场论(Mean Field Theory,MFT)是对大且复杂的随机模型的一种简化。未简化前的模型通常包含数量巨大且存在相互作用的小个体。
平均场理论则做了这样的近似:对于某个独立的小个体,所有其他个体对它产生的作用可以用一个平均的量给出,这样简化后的模型就成了一个单体问题。&
这种思想源于皮埃尔&居里(对,就是居里夫人的老公)和法国物理学家皮埃尔&外斯(Pierre-Ernest Weiss)对相变的研究。现在,平均场论广泛用于如传染病模型、排队论、计算机网络性能和博弈论当中。
在深度学习领域,平均场论也得到了研究。这些研究都揭示了一点,那就是在初始化阶段,信号能在网络中传输的深度存在一个最大值,而深度网络之所以能够被训练,恰恰是因为信号能够全部通过这些层。
平均场论预测信号在网络中传输深度存在一个最大值,这也就是网络可以被训练的深度
在这项工作中,作者基于平均场论开发了一个理论框架,研究深度CNN中信号的传播情况。通过研究信号在网络中向前和向后传播而不衰减的必要条件,他们得出了一个初始化方案,在不对网络的结构进行任优化(比如做残差连接、批标准化)的情况下,这个方案能帮助训练超级深&&10000乃至更深的原始CNN。
简单初始化策略,训练10000层原始CNN
那么,这个初始化方案是什么呢?先从结论说起,就是这个算法:
这是一个生成随机正交卷积核的算法,目的是为了实现动态等距(dynamical isometry)。
大家都知道,深度神经网络中权重的初始化会对学习速度有很大的影响。实际上,深度学习建立在这样一个观察之上,即无监督的预训练为随后通过反向传播进行的微调提供了一组好的初始权重。
这些随机权重的初始化主要是由一个原理驱动,即深度网络雅可比矩阵输入-输出的平均奇异值应该保持在1附近。这个条件意味着,随机选择的误差向量在反向传播时将保持其范数。由于误差信息在网络中进行忠实地、等距地反向传播,因此这个条件就被称为&动态等距&。
对深度线性网络学习的非线性动力学的精确解进行理论分析后发现,满足了动态等距的权重初始化能够大大提高学习速度。对于这样的线性网络,正交权重初始化实现了动态等距,并且它们的学习时间(以学习轮数的数量来衡量)变得与深度无关。
这表明深度网络雅可比矩阵奇异值的整个分布形状,会对学习速度产生巨大的影响。只有控制二阶矩,避免指数级的梯度消失和爆炸,才能留下显著的性能优势。
现在,最新的这项研究发现,在卷积神经网络中也存在类似的情况。作者将要传播的信号分解为独立的傅里叶模式,促进这些信号进行均匀的传播。由此证明了可以比较容易地训练10000层或更多的原始CNN。
清除训练任意深度原始CNN的所有主要障碍
在ICLR 2017的一篇论文中,谷歌的研究人员,包括深度学习教父 Geoffrey Hinton 和谷歌技术大牛 Jeff Dean在内,提出了一个超大规模的神经网络&&稀疏门控混合专家层(Spaely-Gad Mixture-of-Experts layer,MoE)。
MoE 包含上万个子网络(也即&专家&),每个专家都有一个简单的前馈神经网络和一个可训练的门控网络(gating network),门控网络会选择专家的一个稀疏组合来处理每个输入。
嵌入在循环语言模型中的混合专家(Mixture of Experts,MoE)模块。在这种情况下,稀疏门函数选择两个专家来执行计算,它们的输出由门控网络的输出控制。
最终的网络虽然是含有1370亿个参数的庞然大物,但由于实现了条件计算的好处,模型容量得到了超过1000倍的提升,而计算效率只有相对微小的损失。MoE在大规模语言建模和机器翻译基准测试中,花费很小的计算力实现了性能的显著提升。这项工作也是深度网络条件计算在产业实践中的首次成功。
2017年6月,Facebook人工智能实验室与应用团队合作,提出了一种新的方法,能够大幅加速任务的模型训练过程,仅 1 小时就训练完ImageNet这样超大规模的数据集。Facebook 团队提出的方法是增加一个新的预热阶段(a new warm-up phase),随着时间的推移逐渐提高学习率和批量大小,从而帮助保持较小的批次的准确性。
现在,谷歌大脑的这项工作,提供了对这些实践方法的理论理解。作者在论文中写道,
我们的结果表明,我们已经清除了在训练任意深度的原始卷积网络时存在的所有主要的障碍。在这样做的过程中,我们也为解决深度学习社区中的一些突出问题奠定了基础,例如单凭深度是否可以提高泛化性能。
我们的初步结果表明,在一定的深度上,在几十或几百层的这个数量级上,原始卷积结构的测试性能已经饱和。
这些观察结果表明,残差连接和批标准化(Batch Normalization)这些结构上的特征,可能在定义好的模型类(model class)中有着重要的作用,而不是仅仅简单地能够提高训练的效率。
这一发现对深度学习研究社区有着重大的意义。不用批标准化,也不用残差连接,仅仅通过一个初始化函数,就训练10000层的原始CNN。
即使你不训练10000层,这个初始化带来的训练速度提升也是可观。
不过,作者目前只在MNIST和CIFAR10数据集上验证了他们的结果,推广到更大的数据集后情况会如何,还有待观察。
原文标题:【谷歌ICML】简单初始化,训练10000层CNN
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先
扫地机器人、智能农药喷洒机、无人机、自动驾驶汽车……人工智能技术在不断突破我们想象力的同时,也越来越....
飞搜科技通过采用NVIDIA Tesla P100对图像进行大规模的深度学习训练,实现了对视频监控图....
对于语音,我们使用了公开的LibriSpeech数据集中100小时的子数据集。虽然数据集不提供原始文....
既然目的是让AI做题,我们先得有题啊!当然了,手动搜集整理是不可能的,为了创建题库,首先我们构建了一....
这些都是除了从零学习之外的强化学习方法。特别是元学习和零次学习体现了人在学习一种新技能时更有可能的做....
这不是石建萍第一次来CVPR了。过去这八年,她几乎没落下过一届,倒也习惯了每年办一次美国签证。
中国创客第四季夏季峰会——“AI降临”在深圳举行。这是一场大咖云集、干货满满,关注人工智能最前沿命题....
我们的 AutoAugment 算法为一些最著名的计算机视觉数据集找到了增强策略,将这些策略纳入神经....
我们还没有办法让机器学习智能体接触到类似的“日常体验”,这意味着我们无法轻易地衡量它们将知识从现实世....
如何生成清晰的图像是医学成像检测(如MRI)和天文图像中的共同问题,因为这些场景根本没有足够的时间和....
我们曾分享过的实时图像识别只是其中一种应用。我们还可以利用深度学习来做超分辨率。我们这次就分享一下用....
神经网络是否可以学习抽象推理,还是仅仅浅显地学习统计数据学习,是最近学术界辩论的主题。
谷歌的研究人员在Arxiv.org发表了一篇题为“神经网络的对抗性重编程”的论文,描述了一种能够对机....
总体来说,机器学习(ML)的研究人员正在致力于数据驱动算法知识的创建与传播。
CODEnn接受代码、描述作为输入,预测其嵌入表示的余弦相似度。具体而言,每个训练样本为一个三元组(....
尽管设计一套能够在受控环境中有效执行重复任务的机器人系统(例如,在装配线上组装产品)十分平常,但设计....
换个不严谨的白话说法,深度学习的层层网络可以从数据中自动学习到有用的、高度抽象的特征,而最终目的是为....
而我们在深度学习中的卷积神经网络(如下图为例),就是模仿了人类视觉系统的处理过程。正因此,计算机视觉....
医学研究员Viksit Kumar通过基于GPU的深度学习研究,力图利用超声图像实现更准确的癌症诊断....
深度学习语音增强技术是该领域的新起之秀,却有攻入破竹之势。不同于主流而传统的数字信号处理方法,它借鉴....
本期的公开课主要包含以下 4 个方面的内容:1、人脸识别背景介绍;2、人脸识别前沿算法简介;3、分布....
在第二节,我们描述了我们的分层方法所解决的确切挑战。一个例子是Cityscapes和GTSDB的综合....
研究者还使用深度神经网络实现了这种基于反馈的树搜索算法并在《王者荣耀》1v1 模式上进行了测试。为了....
很多机器学习问题是深度为2的子案例,例如,输入层和输出层之间的一个隐含层。通常假设网络的结构、数据分....
采用一种基于计数的仲裁机制(counter-based arbitration scheme)来选择....
如上所述,神经网络非常适合对非结构化数据进行建模,而本文的示例数据集是泰坦尼克号,它只包含表格数据。....
为下游任务提供了有用的隐藏空间。自回归模型的隐藏层有着位置的边缘分布,使其更难对数据进行正确操作。在....
PixelPlayer能够利用人工智能来区分和过滤声音,让音乐听起来更洪亮或更柔和。
我们目睹了数据的一系列巨大变化,包括数据如何被生成、处理以及进一步利用以获取额外的价值和智能,而这些....
基于云的机器学习和深度学习一再被误用。这多半都可以轻松解决,当然,基于云的机器学已得到了广泛的使用。....
由于自我训练的系统很难应对现实世界的混乱局面,像纽约大学的加里o马库斯(Gary Marcus)这些....
为了更深入了解商汤科技,深圳市机器人协会特派记者对商汤科技香港公司总裁尚海龙进行了专访。
京东宣布与斯坦福人工智能实验室(SAIL)启动京东-斯坦福联合AI研究计划(SAIL-JD AI R....
由浙江生物医学工程学会放射学专业委员会主办、浙江大学医学院附属第二医院承办,医学人工智能联盟协办的第....
7月4日至5日,百度在国家会议中心召开了2018百度AI开发者大会(Baidu Create 201....
这种方法的关键在于较好的控制人工突触,当施加电压的时候,非晶结构的神经形态芯片上的离子流动很难控制。....
多年来,深度学习一直处于所谓的人工智能革命的最前沿,许多人相信深度学习将带领我们进入通用AI时代。
确定这个函数的依据是函数能够很好的解释训练样本,让函数输出值f(x)与样本真实标签值y之间的误差最小....
深度学习领域仍在不断发展,特别地,专家们认识到如果芯片能够使用低精度的计算方式得出近似答案,神经网络....
对于人类观察者来说,要让孩子的参与意愿和行为达成高度一致是很有挑战性的。普通的机器人(非个性化的)与....
在最顶级,也是最容易的层级,是几何光学。几何光学是对波光学的抽象,光射线于于表达简单的矢量波光 学的....
谷歌技术人员、MIT博士Ali Rahimi受光学的启发,从功能模块化和层级的角度讨论了一种解释深度....
人工智能只是一项新技术吗?从任一角度诠释AI,都是狭隘并且不完整的。亿欧智库在最新发布的研究报告中,....
针对当下深度学习的技术瓶颈,包括清华大学张钹在内的多位院士、教授给出了自己的研究思路。
百度EasyDL团队利用Tesla P4 GPU稳定承载每天数百个并发训练任务,以及数千个并发定制模....
供应链服务
版权所有 (C) 深圳华强聚丰电子科技有限公司
电信与信息服务业务经营许可证:粤B2-如何提高深度神经网络测试准确率_百度知道
如何提高深度神经网络测试准确率
我有更好的答案
沉下心来推推公式,多思考,明白了反向传播本质上是链式法则(虽然之前也知道,但是当时还是理解的迷迷糊糊的)。所有的梯度其实都是对最终的loss进行求导得到的,也就是标量对矩阵or向量的求导。当然同时也学到了许多其他的关于cnn的。并且建议题主不仅要完成练习,最好能自己也写一个cnn,这个过程可能会让你学习到许多更加细节和可能忽略的东西。
采纳率:94%
来自团队:
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。> 综述论文:当前深度神经网络模型压缩和加速方法速览
综述论文:当前深度神经网络模型压缩和加速方法速览
原标题:综述论文:当前深度神经网络模型压缩和加速方法速览选自arXiv作者:Yu Cheng等机器之心编译参与:蒋思源、路雪、刘晓坤本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。大型神经网络具有大量的层级与结点,因此考虑如何减少它们所需要的内存与计算量就显得极为重要,特别是对于在线学习和增量学习等实时应用。此外,近来智能可穿戴设备的流行也为研究员提供了在资源(内存、CPU、能耗和带宽等)有限的便携式设备上部署深度学习应用提供了机会。高效的深度学习方法可以显著地影响分布式系统、嵌入式设备和用于人工智能的 FPGA 等。典型的例子是 ResNet-50[5],它有 50 层卷积网络、超过 95MB 的储存需求和计算每一张图片所需要的浮点数乘法时间。如果剪枝一些冗余的权重后,其大概能节约 75% 的参数和 50% 的计算时间。对于只有兆字节资源的手机和 FPGA 等设备,如何使用这些方法压缩模型就很重要了。实现这个目标需要联合多个学科以寻找解决方案,包括但不限于机器学习、最优化、计算机架构、数据压缩、索引和硬件设计等。在本论文中,我们回顾了在压缩和加速深度神经网络方面的工作,它们广泛受到了深度学习社区的关注,并且近年来已经实现了很大的进展。我们将这些方法分为四个类别:参数修剪和共享、低秩分解、迁移/压缩卷积滤波器和知识精炼等。基于参数修剪(parameter pruning)和共享的方法关注于探索模型参数中冗余的部分,并尝试去除冗余和不重要的参数。基于低秩分解(Low-rank factorization)技术的方法使用矩阵/张量分解以估计深层 CNN 中最具信息量的参数。基于迁移/压缩卷积滤波器(transferred/compact convolutional filters)的方法设计了特殊结构的卷积滤波器以减少存储和计算的复杂度。而知识精炼(knowledge distillation)则学习了一个精炼模型,即训练一个更加紧凑的神经网络以再现大型网络的输出结果。在表 1 中,我们简单地总结了这四种方法。通常参数修剪和分享、低秩分解和知识精炼方法可以通过全连接层和卷积层用于 DNN,它们能实现有竞争力的性能。另外,使用迁移/压缩滤波器的方法只适用于全卷积神经网络。低秩分解和迁移/压缩滤波器的方法提供了一种端到端的流程,并且它们很容易直接在 CPU/GPU 环境中实现。而参数修剪和共享使用了不同的方法,如向量量化、二进制编码和系数约束以执行这些任务,通常他们需要花一些处理步骤才能达到最终的目标。表 1. 不同的模型压缩方法。至于训练协议,基于参数修剪/共享、低秩分解的模型可以从预训练的模型中抽取或者从头开始训练,这些训练比较灵活高效。而迁移/压缩滤波器和知识精炼模型只支持从头开始训练。这些方法独立设计,互为补充。例如,迁移层和参数修剪/共享可以一起使用,模型量化/二进制化(binarization)可以和低秩分解一起使用,以实现进一步提速。论文作者详细介绍了每一类方法,包括特性、优势和缺陷等。参数修剪和共享根据减少冗余(信息冗余或参数空间冗余)的方式,这些技术可以进一步分为三类:模型量化和二进制化、参数共享和结构化矩阵(structural matrix)。A. 量化和二进制化网络量化通过减少表示每个权重所需的比特数来压缩原始网络。Gong et al. [6] 和 Wu et al. [7] 对参数值使用 K 均值标量量化。Vanhoucke et al. [8] 展示了 8 比特参数量化可以在准确率损失极小的同时实现大幅加速。[9] 中的研究在基于随机修约(stochastic rounding)的 CNN 训练中使用 16 比特定点表示法(fixed-point representation),显著降低内存和浮点运算,同时分类准确率几乎没有受到损失。[10] 提出的方法是首先修剪不重要的连接,重新训练稀疏连接的网络。然后使用权重共享量化连接的权重,再对量化后的权重和码本(codebook)使用霍夫曼编码,以进一步降低压缩率。如图 1 所示,该方法首先通过正常的网络训练来学习连接,然后再修剪权重较小的连接,最后重新训练网络来学习剩余稀疏连接的最终权重。缺陷:此类二元网络的准确率在处理大型 CNN 网络如 GoogleNet 时会大大降低。另一个缺陷是现有的二进制化方法都基于简单的矩阵近似,忽视了二进制化对准确率损失的影响。图 1. [10] 中提到的三阶段压缩方法:修剪、量化(quantization)和霍夫曼编码。修剪减少了需要编码的权重数量,量化和霍夫曼编码减少了用于对每个权重编码的比特数。稀疏表示的元数据包含压缩率。压缩机制不会带来任何准确率损失。B. 剪枝和共享网络剪枝和共享已经被用于降低网络复杂度和解决过拟合问题。有一种早期应用的剪枝方法称为偏差权重衰减(Biased Weight Decay),其中最优脑损伤(Optimal Brain Damage)和最优脑手术(Optimal Brain Surgeon)方法基于损失函数的 Hessian 矩阵减少连接的数量,他们的研究表明这种剪枝方法的精确度比基于重要性的剪枝方法(比如 weight dDecay 方法)更高。缺陷:剪枝和共享方法存在一些潜在的问题。首先,若使用了 L1 或 L2 正则化,则剪枝方法需要更多的迭代次数才能收敛,此外,所有的剪枝方法都需要手动设置层的敏感度,即需要精调超参数,在某些应用中会显得很冗长繁重。C. 设计结构化矩阵如果一个 m x n 阶矩阵只需要少于 m×n 个参数来描述,就是一个结构化矩阵(structured matrix)。通常这样的结构不仅能减少内存消耗,还能通过快速的矩阵-向量乘法和梯度计算显著加快推理和训练的速度。低秩分解和稀疏性一个典型的 CNN 卷积核是一个 4D 张量,需要注意的是这些张量中可能存在大量的冗余。而基于张量分解的思想也许是减少冗余的很有潜力的方法。而全连接层也可以当成一个 2D 矩阵,低秩分解同样可行。所有近似过程都是一层接着一层做的,在一个层经过低秩滤波器近似之后,该层的参数就被固定了,而之前的层已经用一种重构误差标准(reconstruction error criterion)微调过。这是压缩 2D 卷积层的典型低秩方法,如图 2 所示。图 2. CNN 模型压缩的低秩近似(Low-rank approximation)。左:原始卷积层。右:使用秩 K 进行低秩约束的卷积层。表 2. 低秩模型及其基线模型在 ILSVRC-2012 数据集上的性能对比。缺陷:低秩方法很适合模型压缩和加速,该方法补充了深度学习的近期发展,如 dropout、修正单元(rectified unit)和 maxout。但是,低秩方法的实现并不容易,因为它涉及计算成本高昂的分解操作。另一个问题是目前的方法逐层执行低秩近似,无法执行非常重要的全局参数压缩,因为不同的层具备不同的信息。最后,分解需要大量的重新训练来达到收敛。迁移/压缩卷积滤波器使用迁移卷积层对 CNN 模型进行压缩受到 [42] 中研究的启发,该论文介绍了等变群论(equivariant group theory)。使 x 作为输入,Φ(·) 作为网络或层,T (·) 作为变换矩阵。则等变概念可以定义为:即使用变换矩阵 T (·) 转换输入 x,然后将其传送至网络或层Φ(·),其结果和先将 x 映射到网络再变换映射后的表征结果一致。根据该理论,将变换矩阵应用到层或滤波器Φ(·) 来对整个网络模型进行压缩是合理的。表 3. 基于迁移卷积滤波器的不同方法在 CIFAR-10 和 CIFAR-100 数据集上的性能对比。缺陷:将迁移信息应用到卷积滤波器的方法需要解决几个问题。首先,这些方法的性能可与宽/平坦的架构(如 VGGNet)相媲美,但是无法与较窄/特殊的架构(如 GoogleNet、Residual Net)相比。其次,迁移假设有时过于强大以致于无法指导算法,使得在某些数据集上的结果不稳定。知识精炼据我们所知,Caruana 等人 [49] 首先提出利用知识迁移(KT)来压缩模型。他们通过集成强分类器标注的伪数据训练了一个压缩模型,并再现了原大型网络的输出结果。然而他们的工作仅限于浅层网络。这个想法近来在 [50] 中扩展为知识精炼(Knowledge Distillation/KD),它可以将深度和宽度的网络压缩为浅层模型,该压缩模型模仿了复杂模型所能实现的功能。KD 的基本思想是通过软 softmax 学习教师输出的类别分布而降大型教师模型(teacher model)的知识精炼为较小的模型。[51] 中的工作引入了 KD 压缩框架,即通过遵循学生-教师的范式减少深度网络的训练量,这种学生-教师的范式即通过软化教师的输出而惩罚学生。该框架将深层网络(教师)的集成压缩为相同深度的学生网络。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。尽管 KD 方法十分简单,但它同样在各种图像分类任务中表现出期望的结果。缺点:基于 KD 的方法能令更深的模型变得更加浅而显著地降低计算成本。但是也有一些缺点,例如 KD 方法只能用于具有 Softmax 损失函数分类任务,这阻碍了其应用。另一个缺点是模型的假设有时太严格了,以至于其性能有时比不上其它方法。表 4. 模型压缩不同的代表性研究中使用的基线模型。讨论与挑战深度模型的压缩和加速技术还处在早期阶段,目前还存在以下挑战:大多数目前的顶尖方法都建立在设计完善的 CNN 模型的基础上,这限制了改变配置的自由度(例如,网络结构和超参数)。为了处理更加复杂的任务,还需要更加可靠的模型压缩方法。剪枝是一种压缩和加速 CNN 的有效方式。目前大多数的剪枝技术都是以减少神经元之间的连接设计的。另一方面,对通道进行剪枝可以直接减小特征映射的宽度并压缩模型。这很有效,但也存在挑战,因为减少通道会显著地改变下一层的输入。确定这类问题的解决方式同样很重要。正如之前所提到的,结构化矩阵和迁移卷积滤波器方法必须使模型具有人类先验知识,这对模型的性能和稳定性有显著的影响。研究如何控制强加先验知识的影响是很重要的。知识精炼(knowledge distillation/KD)方法有很多益处比如不需要特定的硬件或实现就能直接加速模型。开发基于 KD 的方法并探索如何提升性能仍然值得一试。多种小型平台(例如,移动设备、机器人、自动驾驶汽车)的硬件限制仍然是阻碍深层 CNN 扩展的主要问题。如何全面利用有限的可用计算资源以及如何为这些平台设计特定的压缩方法仍然是个挑战。论文:A Survey of Model Compression and Acceleration for Deep Neural Networks论文链接:https://arxiv.org/abs/深层卷积神经网络(CNN)目前已经在很多视觉识别任务中达到了非常准确的表现。然而,目前的深层卷积神经网络模型非常耗费计算资源和内存,面临着在终端部署和低延迟需求场景下难以应用的问题。因此,一种很自然的解决方案就是在保证分类准确率不显著下降的前提下对深层卷积神经网络进行压缩和加速。近年来,该领域实现了极大的发展。我们将在本论文中介绍近期压缩和加速 CNN 模型的先进技术。这些技术可以大致分为四类:参数修剪和共享(parameter pruning and sharing)、低秩分解(low-rank factorization)、迁移/压缩卷积滤波器(transfered/compact convolutional filter)和知识精炼(knowledge distillation)。参数修剪和共享的方法将在论文开头详细描述,其他几类方法也都会在文中介绍。我们对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。然后本文将介绍几个最近的其他成功方法,如动态网络和随机深度网络(stochastic depths network)。之后,我们将研究评估矩阵(evaluation matrix)——用于评估模型性能和近期基准的主要数据集。最后,我们总结并讨论了现有的挑战和可能的发展方向。本文为机器之心编译,转载请联系本公众号获得授权。?------------------------------------------------

我要回帖

更多关于 加快推进深度 的文章

 

随机推荐