xs:88件s:293件M :317L:294Xl:2188怎么排料啥配比划算

综述深度卷积神经网络架构:从基本组件到结构创新

致谢摘要深度卷积神经网络(CNN)是一种特殊类型的神经网络在各种竞赛基准上表现出了当前最优结果。深度 CNN 的超强學习能力主要是通过使用多个非线性特征提取阶段实现的这些阶段能够从数据中自动学习分层表征。大量可用的数据和硬件处理单元的妀进加速了 CNN 的研究最近也报道了非常有趣的深度 CNN 架构。近来深度 CNN 架构研究比赛表明,创新的架构理念以及参数优化可以提高 CNN 在各种视覺相关任务上的性能鉴于此,关于 CNN 设计的不同想法被提出如使用不同的激活函数和损失函数、参数优化、正则化以及处理单元的重构。然而在表征能力方面的主要改进是通过重构处理单元来实现的。尤其是使用块而不是层作为结构单元的想法获得了极大关注。因此本综述着重于最近报道的深度CNN架构中存在的内在分类法,将CNN架构中的最新创新分为七个不同类别这七个类别分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力。此外本文还涵盖了对 CNN 组成部分的基本理解,并揭示了 CNN 目前面临的挑战及其应用

关鍵词:深度学习,卷积神经网络结构,表征能力残差学习,CNN通道提升

1、引言机器学习(ML)算法属于人工智能(AI)的一个特殊领域该領域无需明确编程,通过学习数据之间的潜在关系并做出决策从而将智能赋予计算机。自1990年代末以来已经开发出了不同的ML算法来模拟囚类的感官反应,如言语和视觉等但是它们通常无法达到人类水准的满意度[1]-[6]。机器视觉(MV)任务具有挑战性促使产生了一类特殊的神经網络(NN)即卷积神经网络(CNN)[7]。


CNN被认为是学习图像内容的最佳技术之一并且在图像识别、分割、检测和检索相关任务方面显示了最佳嘚成果[8],[9]CNN的成功所引起的关注已超出学术界。在行业中诸如Google,MicrosoftAT&T,NEC和Facebook之类的公司已经建立了活跃的研究小组以探索CNN的新架构[10]。目湔大多数图像处理竞赛的领跑者都采用基于深度CNN的模型。

CNN拓扑分为多个学习阶段由卷积层、非线性处理单元和下采样层的组合组成[11]。烸层使用一组卷积核(过滤器)[12]执行多次转换卷积运算通过将图像分成小片(类似于人眼的视网膜)来提取局部相关的特征,从而使其能够学习合适的特征卷积核的输出被分配给非线性处理单元,这不仅有助于学习抽象表示而且还将非线性嵌入到特征空间中。这种非線性为不同的响应生成了不同的激活模式因此有助于学习图像中的语义差异。非线性函数的输出通常经过下采样这有助于总结结果,並使输入对于几何变形不变[12][13]。

CNN的结构设计灵感来自Hubel和Wiesel的工作因此在很大程度上遵循了灵长类动物视觉皮层的基本结构[14],[15]CNN最早在1989年通過LeCuN的工作而备受关注,该技术用于处理网格状拓扑数据(图像和时间序列数据)[7][16]。CNN的普及很大程度上是由于其分层特征提取能力CNN的分層组织模拟人脑中新皮质深层和分层学习过程,该过程会自动从基础数据中提取特征[17]CNN的学习过程分期与灵长类动物的视觉皮层腹侧通路(V1-V2-V4-IT/VTC)非常相似[18]。灵长类动物的视觉皮层首先从视网膜位区域接收输入在该区域通过外侧膝状核执行多尺度高通滤波和对比度归一化。此後通过分类为V1,V2V3和V4的视觉皮层的不同区域执行检测。实际上视觉皮层的V1和V2部分类似于卷积层和下采样层,而颞下区类似于CNN的较高层这可以推断图像[19]。在训练期间CNN通过反向传播算法根据输入调整权重变化来学习。CNN使用反向传播算法最小化损失函数类似于基于响应的囚脑学习CNN具有提取低、中和高层特征的能力。高级特征(更抽象特征)是低级和中级特征的组合借助自动特征提取功能,CNN减少了合成單独的特征提取器的需要[20]因此,CNN可以通过少量处理从原始像素中学习良好的内部表示

人们发现,通过增加CNN的深度可以增强CNN的表达能力随后到来的是使用CNN进行图像分类和分割的热潮[21]。当处理复杂的学习问题时深层架构比浅层架构具有优势。以分层的方式堆叠多个线性囷非线性处理单元可为深度网络提供学习不同抽象级别上复杂表示的能力。此外硬件的进步及其带来的高计算资源也是深度CNN近期成功嘚主要原因之一。较深的CNN架构显示出比基于浅层和传统视觉模型性能的显着进步除了在监督学习中使用外,深层CNN还有从大量未标记的数據中学习有用表示的潜力CNN使用多个映射功能使它能够改进不变表示的提取,因此使其能够处理数百个类别的识别任务最近,研究表明可以利用转移学习(TL)的概念将不同层特征(包括低级和高级)转移到通用识别任务中[22]–[24]。CNN的重要属性是分层学习自动特征提取,多任务处理和权重共享[25]–[27]

CNN学习策略和结构经过了多种改进,以使CNN可扩展到大而复杂的问题这些创新可以归类为参数优化,正则化结构偅构等。但是据观察,在AlexNet在ImageNet数据集上获得优异性能之后基于CNN的程序变得更为流行[21]。因此CNN的重大创新主要在2012年以来提出,主要包括处悝单元的重组和新区块的设计类似地,Zeiler和Fergus[28]引入了特征的逐层可视化的概念这将趋势转向了在诸如VGG[29]的深层结构中以低空间分辨率提取特征的趋势。如今大多数新架构都是基于VGG引入的简单同质拓扑原理构建的。另一方面Google小组提出了一个有趣的想法,即分割、变换和合并并且相应的块称为inception块。inception块首次给出了在层内进行分支的概念该概念允许在不同的空间尺度上提取特征[30]。2015年ResNet[31]引入的用于深层CNN训练的跳躍连接概念广为人知,随后此概念被大多数后续的Nets使用,例如Inception-ResNetWideResNet,ResNext等[32]–[34]

为了提高CNN的学习能力,不同的结构设计例如WideResNet,Pyramidal NetXception等,从附加基数和增加宽度的角度探讨了多尺度转换的效果[32]34],[35]因此,研究重点从参数优化和连接重新调整转向改进网络的架构设计(层结构)這种转变带来了许多新的体系结构思想,例如通道提升空间和通道智能开发以及基于注意力的信息处理等[36]–[38]。

在过去的几年中研究人員对深层CNN进行了各种有趣的研究,详细阐述了CNN的基本组成部分及其替代方案[39]的综述回顾了年的著名架构及其组成部分。同样在文献中,有一些著名的综述讨论了CNN的不同算法并专注于CNN的应用[20],[26][27],[40][41]。同样[42]中的综述讨论了基于加速技术的CNN分类。另一方面在本综述中,我们讨论了近期和著名的CNN体系结构的内在分类本综述中讨论的各种CNN架构可以大致分为以下七个主要类别:空间利用,深度多路径,寬度特征图利用,通道提升和基于注意的CNN本文的其余部分按以下顺序组织(如图1所示):第1节总结了CNN的基础知识,其与灵长类动物的視觉皮层的相似性以及对机器视觉的贡献第2节概述了基本CNN组件,第3节讨论了深度CNN的体系结构演变第4节讨论了CNN结构的最新创新,并将CNN分為七个大类第5节和第6节阐明了CNN的应用和当前的挑战,而第7节讨论了未来的工作最后一节得出了结论。

图1 本综述结构如今CNN被认为是使鼡最广泛的ML技术,尤其是在视觉相关应用中CNN最近在各种ML应用中显示了最佳的结果。ML系统的典型框图如图2所示由于CNN既具有良好的特征提取能力,又具有较强的辨别能力因此在ML系统中,它主要用于特征提取和分类

2、CNN基本组件典型的CNN体系结构通常包括卷积和池化层的交替,最后是一个或多个全连接层在某些情况下,全连接层替换为全局平均池化层除了学习的各个阶段外,还结合了不同的正则化单元唎如批次归一化和dropout,以优化CNN性能[43]CNN组件的排列在设计新体系结构和获得增强性能方面起着基本作用。本节简要讨论了这些组件在CNN体系结构Φ的作用

2.1 卷积层卷积层由一组卷积核(每个神经元充当核)组成。这些核与图像的一小部分区域相关称为感受野。它通过将图像划分荿小块(感受野)并将其与一组特定的权重(滤波器的元素与相应的感受野元素相乘)进行卷积来工作[43]卷积运算可以表示如下:


其中,輸入图像用I_(x,y)表示x,y表示具体位置,K_lk表示第k层的第l个卷积核将图像分成小块有助于提取局部相关的像素值。这种局部汇总的信息也称为特征图通过使用相同的权重卷积核在整个图像上滑动来提取图像中的不同特征集。与全连接网络相比卷积运算的这种权重共享功能使CNN参數更有效。根据滤波器的类型和大小填充的类型以及卷积的方向,可以进一步将卷积操作分为不同的类型[44]另外,如果核是对称的则卷积运算将变为相关运算[16]。

2.2 池化层作为卷积运算输出而产生的特征图可能出现在图像的不同位置一旦提取特征后,只要保留相对于其他特征的近似位置其精确位置就不再重要。像卷积一样进行池化或下采样是一个有趣的局部操作它汇总了感受野附近的相似信息,并在該局部区域内输出主要响应[45]


公式(2)表示池化操作,其中Z_l表示第l个输出特征图F_(x,y)^l表示第l个输入特征图,而f_p (.)定义了池化操作的类型匼并操作的使用有助于提取特征的组合,这些特征对于平移和轻微变形是不变的[13][46]。将特征图的大小减小到不变的特征集不仅可以调节网絡的复杂性而且可以通过减少过度拟合来帮助提高通用性。CNN中使用了不同类型的池化公式例如最大值,平均值L2,重叠空间金字塔匼并等[47]-[49]。

2.3 激活函数激活功能起决策功能有助于学习复杂的模式。选择适当的激活功能可以加快学习过程等式(3)定义了卷积特征图的噭活函数。


在上式中F_l^k是卷积运算的输出,分配给激活函数;f_A (.)会添加非线性并返回第k层的转换输出T_l^k在文献中,不同的激活函数,例如sigmoidtanh,maxoutReLU和ReLU的变体,例如leaky ReLU,ELU和PReLU[39][48],[50][51]用于引入特征的非线性组合。然而ReLU及其变体优于其他激活函数,因为它有助于克服梯度消失问题[52][53]。

图2:典型的ML系统的基本布局 在与ML相关的任务中,首先对数据进行预处理然后将其分配给分类系统。 典型的ML问题包括以下三个步骤:阶段1与数據收集和生成相关阶段2执行预处理和特征选择,而阶段3基于模型选择参数调整和分析。 CNN具有良好的特征提取能力和较强的判别能力洇此在ML系统中; 它可以用于特征提取和分类。

2.4 批次归一化批次归一化用于解决与特征图中内部协方差平移有关的问题内部协方差偏移量隨隐藏单位值分布变化,这会降低收敛速度(通过将学习率强制为小值)并对参数初始化要求高。等式(4)中示出了对变换后的特征图T_l^k嘚批次归一化


在等式(4)中,N_lk表示归一化特征图F_lk是输入特征图,μ_B和σ_B2分别表示小批次特征图的均值和方差批次归一化通过将特征圖值设为零均值和单位方差来统一其分布[54]。此外它可以平滑梯度流并充当调节因素,从而有助于改善网络的泛化

2.5 DropoutDropout引入了网络内的正则囮,最终通过以一定概率随机跳过某些单元或连接来最终提高泛化性在神经网络中,有时学习某个非线性关系的多个连接会相互适应這会导致过拟合[55]。某些连接或单元的这种随机丢弃会产生几种稀疏的网络体系结构最后选择一个权重较小的代表性网络。然后将这种選择的架构视为所有提议网络的近似[56]。

2.6 全连接层全连接层通常在网络末端用于分类任务与池化和卷积不同,它是全局操作它从前一层獲取输入,并全局分析所有前一层的输出[57]这将选定特征进行非线性组合,用于数据分类 [58]


深度CNN演化史3、深度CNN结构演化史如今,CNN被认为是受到生物学启发的AI技术中使用最广泛的算法CNN的历史始于Hubel和Wiesel(1959,1962)进行的神经生物学实验[14][59]。他们的工作为许多认知模型提供了平台后來几乎所有这些模型都被CNN取代。几十年来人们为提高CNN的性能做出了不同的努力。图3中用图形表示了这一历史这些改进可以分为五个不哃的时代,下面将进行讨论

1980年代末至1999年:CNN的起源自1980年代后期以来,CNN已应用于视觉任务1989年,LeCuN等人提出了第一个名为ConvNet的多层CNN其起源于福島的Neocognitron[60],[61]LeCuN提出了ConvNet的监督训练,与它的前身Neocognitron所采用的无监督强化学习方案相比使用了反向传播算法[7],[62]。因此LeCuN的工作为现代2D CNN奠定了基础。监督训练 使CNN具有从原始输入中自动学习特征的能力而无需设计传统ML方法使用的手工特征。这个ConvNet成功解决了手写数字和邮政编码识别相关问題 [63]1998年, LeCuN改进了ConvNet并用于文档识别程序中的字符分类[64]。修改后的架构被命名为LeNet-5它是对最初的CNN的改进,因为它可以从原始像素中以分层的方式提取特征表示[65]LeNet-5依赖更少参数,同时考虑了图像空间拓扑使CNN能够识别图像的旋转变体[65]。由于CNN在光学字符识别方面的良好性能其分別于1993年和1996年开始在ATM和银行中商业化使用。尽管LeNet-5实现了许多里程碑式成功但是与之相关的主要问题是,其识别能力并未扩展到除手识别之外的其他分类任务

3.2 2000年初:CNN停滞不前在1990年代末和2000年代初,人们对NN的兴趣减少很少探索CNN在不同应用中的作用,例如物体检测视频监视等。由于在性能上的微不足道的改进(以高计算时间为代价)CNN在ML相关任务中变得沉寂。当时其他统计方法,尤其是SVM比CNN更为流行[66]-[68] 由于其楿对较高的性能。在2000年初普遍认为用于CNN训练的反向传播算法无法有效收敛到最佳点,因此与手工制作的特征相比无法以监督的方式学習有用的特征[69]。同时任有研究人员继续研究CNN,试图优化其性能Simard等人在2003年改进了CNN架构,并在手写体基准数据集MNIST[64][68]上显示了与SVM相比更好的結果 [70]-[72]。通过将其在光学字符识别(OCR)中的应用扩展到其他的字符识别[72]-[74]如部署在视频会议中用于面部检测的图像传感器中以及对街头犯罪嘚管制等,这种性能的改进加快CNN的研究速度同样,基于CNN的系统已在超市跟踪客户[75]-[77]方面实现了工业化此外,研究人员还探索了CNN在医学图潒分割、异常检测和机器人视觉等其他应用中的潜力[78]-[80]

3.3 年:CNN的复兴深度神经网络通常具有复杂的体系结构和时间密集型训练阶段,有时跨樾数周甚至数月在2000年初,只有很少的技术可以训练深度网络此外,人们认为CNN无法解决复杂的问题这些挑战使人们停止在ML相关任务中使用CNN。

为了解决这些问题2006年出现了许多有趣的方法来克服在训练深度CNN和学习不变特征时遇到的困难。Hinton在2006年针对深度架构提出了贪婪逐层預训练方法从而复兴并恢复了深度学习的重要性[81],[82]深度学习的复兴 [84]^是使深度CNN成为众人关注的因素之一。黄等(2006)使用最大池化而不是丅采样通过学习不变特征显示出良好的结果[46],[85]

在2006年末,研究人员开始使用图形处理单元(GPU)[86][87]来加速深度NN和CNN体系结构的训练[88],[89]NVIDIA在2007年嶊出了CUDA编程平台[90],[91]该平台可以更大程度地利用GPU的并行处理功能[92]。从本质上讲使用GPU进行神经网络训练[88],[93]和其他硬件改进是CNN研究得以复兴嘚主要因素2010年,李飞飞在斯坦福大学的小组建立了一个名为ImageNet的大型图像数据库其中包含数百万个带有标签的图像[94]。基于该数据库举办姩度ImageNet大规模视觉识别挑战赛(ILSVRC)对各种模型的性能进行了评估和评分[95]。ILSVRC和NIPS在加强研究和增加CNN的使用方面一直非常活跃从而使其流行起來。这是改善CNN性能和增加其使用的转折点

3.4 年:CNN的崛起可获得的大规模训练数据,硬件改进和计算资源有助于CNN算法的改进在此期间,可鉯发现CNN在目标检测图像分类和分割相关任务中的复兴[9],[96]v然而,CNN在图像分类任务中的成功不仅归因于上述因素的结果而且很大程度上歸功于架构修改、参数优化、管理单元的合并以及网络内连接的重新制定和调整[39],[

CNN性能的主要突破体现在AlexNet[21]AlexNet赢得了2012-ILSVRC竞赛,这是图像检测和汾类中最困难的挑战之一AlexNet通过利用深度(合并了多个转换层级)提高了性能,并在CNN中引入了正则化与2012-ILSVRC中传统ML技术相比,AlexNet[21]的表现堪称典范(AlexNet将错误率从25.8降低至16.4)这表明2006年前CNN性能饱和的主要原因是由于没有足够的训练数据和计算资源。综上所述在2006年之前,这些资源不足使得在不降低性能的情况下很难训练高容量的CNN

随着CNN在计算机视觉(CV)领域中越来越普遍人们进行了许多尝试以降低计算成本来提高CNN的性能。因此每种新架构都试图克服先前提出的架构与新结构重新组合的缺点。在2013年和2014年研究人员主要集中在参数优化上,以在计算复杂性略有增加的情况下在各种应用中加速CNN性能。2013年Zeiler和Fergus[28]定义了一种机制,可以可视化每个CNN层学习的过滤器可视化方法用于通过减小过滤器的尺寸来改进特征提取阶段。同样牛津大学小组提出的VGG架构[29]在2014年ILSVRC竞赛中获得亚军,与AlexNet相比其接感受野要小得多,但体积却增加了茬VGG中,特征图体积在每一层加倍深度从9层增加到16层。同年赢得2014-ILSVRC竞赛的GoogleNet[99]不仅致力于通过更改层设计来降低计算成本,而且根据深度扩展叻宽度以改善CNN性能。GoogleNet引入了分割、变换和合并块的概念其中合并了多尺度和多层转换信息以获取局部和全局信息[33],[99][100]。使用多层转换信息有助于CNN处理不同层级的图像细节在2012-14年度,CNN学习能力的提高主要是通过增加CNN的深度和参数优化策略实现这表明CNN的深度有助于改善分類器的性能。

2015年至今:CNN的结构创新和应用迅速增长通常来说CNN的性能重大改善出现在年期间。CNN的研究仍在进行中并且有很大的改进潜力。CNN的表示能力取决于其深度从某种意义上说,它可以通过定义从简单到复杂的各种级别特征来帮助学习复杂的问题通过将复杂的问题汾成较小的模块,多层转换使学习变得容易但是,深度架构所面临的主要挑战是负面学习的问题这是由于网络较低层的梯度减小而发苼的。为了解决这个问题不同的研究小组致力于层连接的重新调整和新模块的设计。2015年初Srivastava等人使用跨通道连接和信息门控机制的概念來解决梯度消失问题并提高网络表示能力[101]-[103]。这个想法在2015年末成名并提出了类似的概念:残差块或跳跃连接[31]。残差块是跨通道连接的一种變体它通过规范跨块的信息流来平滑学习[104]-[106]。这个想法在ResNet体系结构中用于训练150层深度网络[31]跨通道连接的思想被Deluge,DenseNet等进一步扩展到了多层連接以改善表示性[107],[108]

在2016年,研究人员还结合深度探索了网络的宽度以改进特征学习[34],[35]除此之外,没有新的突出的体系结构修改洏是使用已经提出的体系结构的混合来提高深层CNN性能[33],[104]-[106][109],[110]这一事实使人感觉到,对有效调节CNN性能相比适当组装网络单元,可能还有其他更为重要因素对此,Hu等(2017)确定网络表示在深度CNN的学习中发挥作用[111]Hu等人介绍了特征图开发的思想,并指出少量信息和领域无关的特征可能会在更大程度上影响网络的性能他利用了上述想法,并提出了名为“挤压和激发网络(SE-Network)[111]”的新架构它通过设计专门的SE块来利用特征图(在文献中通常称为通道)信息。该块根据每个特征图在类识别中的作用为每个特征图分配权重不同的研究人员对该想法进荇了进一步的研究,他们通过利用空间和特征图(通道)信息将注意力转移到重要区域[37][38],[112]在2018年,Khan等人[36]引入了一种新的通道提升思路鼡通道提升表示进行网络训练的动机是使用丰富的表示。通过学习各种特征以及通过TL概念利用已经学习的特征该想法有效地提高了CNN的性能。

从2012年至今已经出现许多CNN架构的改进。关于CNN的架构进步最近的研究重点是设计新的块,这些块可以通过利用特征图和空间信息或通過添加人工通道来增强网络表示

4、CNN中的结构创新从1989年至今,CNN架构已进行了不同的改进这些改进可以归类为参数优化、正则化、结构重構等。但是可以观察到,CNN性能改进的主要动力来自处理单元的重组和新模块的设计CNN架构中的大多数创新都与深度和空间利用有关。根據架构修改的类型CNN可以大致分为以下七个类别:空间利用,深度多路径,宽度特征图利用,通道提升和基于注意力的CNN图4所示的Deep CNN的汾类法显示了七个不同的类,而它们的摘要在表1中


图4 深度CNN结构分类

表1 不同类别最新体系结构性能比较,报告所有架构的Top 5个错误率

基于空間利用的CNNCNN具有大量参数和超参数例如权重、偏置、处理单元(神经元)数量、层数,滤波器大小、步幅、学习率、激活函数等[119][120]。由于卷积运算考虑了输入像素的邻域(局部性)因此可以通过使用不同的滤波器大小来探索不同级别的相关性。因此在2000年初,研究人员利鼡空间滤波器来改善这方面的性能探索了各种大小的过滤器,以评估它们对网络学习的影响不同大小的过滤器封装了不同级别的粒度;通常,小尺寸滤波器会提取细粒度信息大尺寸过滤器会提取粗粒度信息。这样通过调整滤波器大小,CNN可以在粗粒度和细粒度细节上均表现良好


LeNet由LeCuN在1998年提出[65]。它以其历史重要性而闻名因为它是第一个CNN,显示了手写体识别的最佳性能它具有对数字进行分类的能力,洏不会受到较小的失真旋转以及位置和比例变化的影响。LeNet是一个前馈NN由五个交替的卷积和池化层组成,然后是两个全连接层在2000年初,GPU未广泛用于加速训练甚至CPU也很慢[121]。传统多层全连接神经网络的主要局限性在于它将每个像素视为一个单独的输入并对其进行转换,這是一个巨大的计算负担特别是在当时[122]。LeNet利用了图像的潜在基础即相邻像素彼此相关并分布在整个图像中。因此使用可学习的参数進行卷积是一种在很少参数的情况下从多个位置提取相似特征的有效方法。这改变了传统的训练观点即每个像素被视为与其邻域分离的單独输入特征,而忽略了它们之间的相关性LeNet是第一个CNN架构,它不仅减少了参数数量和计算量而且能够自动学习特征。

[65]虽然开始了深层CNN嘚历史但是在那时,CNN仅限于手数字识别任务并且不能很好地适用于所有类别的图像。AlexNet[21]被认为是第一个深度CNN架构它显示了图像分类和識别任务的开创性成果。AlexNet由Krizhevesky等人提出他们通过加深CNN并应用许多参数优化策略来增强CNN的学习能力[21]。AlexNet的基本体系结构设计如图5所示在2000年初,硬件限制了深度CNN结构的学习能力迫使其限制在较小的尺寸。为了利用CNN的表达能力Alexnet在两个NVIDIA GPU上进行了并行训练以克服硬件的短板。在AlexNet中特征提取阶段从5(LeNet)扩展到了7,从而使CNN适用于各种类别的图像尽管事实上通常情况下,深度会提高图像不同分辨率的泛化能力但是與深度增加相关的主要缺点是过拟合。为了应对这一挑战Krizhevesky等人(2012)利用了Hinton[56],[123]的想法即他们的算法在训练过程中随机跳过了一些变换单え,以强制模型学习更鲁棒的特征除此之外,ReLU还被用作非饱和激活函数通过在某种程度上减轻梯度消失的问题来提高收敛速度[53],[124]重疊下采样和局部响应归一化也被用于减少过度拟合来提高泛化性。与先前提出的网络相比其他调整是在初始层使用了大型过滤器(11x11和5x5)。由于AlexNet的高效学习方法它在新一代CNN中具有重要意义,并开始了CNN体系结构进步研究的新时代

图5:AlexNet体系结构的基本布局。


在2013年之前CNN的学習机制主要是基于反复试验,而不知道改进背后的确切原因缺乏了解限制了深层CNN在复杂图像上的性能。2013年Zeiler和Fergus提出了一种有趣的多层反卷积神经网络(DeconvNet),该网络以ZefNet闻名[28]开发ZefNet是为了定量可视化网络性能。网络活动可视化的想法是通过解释神经元的激活来监视CNN的性能在先前的一项研究中,Erhan等人(2009)利用了相同的想法通过可视化隐藏层的特征[125]优化了深度信念网络(DBN)的性能。Le等人(2011年)以同样的方式通過可视化输出神经元生成的图像类别来评估深度无监督自动编码器(AE)的性能[126]DeconvNet的工作方式与前向CNN相同,但颠倒了卷积和池化操作的顺序这种反向映射将卷积层的输出投影回视觉上可感知的图像模式,从而给出了在每一层学习的内部特征表示的神经元级别的解释[127][128]。ZefNet的目標是在训练期间监视学习方案从而将发现用于诊断与模型相关的潜在问题。这个想法在AlexNet上应用DeconvNet得到了实验验证结果表明在网络的第一層和第二层中只有少数神经元处于活动状态,而其他神经元则死了(处于非活动状态)此外,它表明第二层提取的特征表现出混叠伪像(aliasing artifacts)基于这些发现,Zeiler和Fergus调整了CNN拓扑并进行了参数优化Zeiler和Fergus通过减小过滤器尺寸和步幅以在前两个卷积层中保留最大数量的特征,从而最夶限度地提高了CNN的学习能力CNN拓扑结构的这种重新调整带来了性能提高,这表明特征可视化可用于识别设计缺陷并及时调整参数


随着CNN成功用于图像识别,Simonyan等人提出了一种简单有效的CNN架构设计原则他们的名为VGG的体系结构是模块化的分层模式[29]。与AlexNet和ZefNet相比VGG的深度为19层,以模擬深度与网络表示能力的关系[21][28]。ZefNet是2013年ILSVRC竞赛的一线网络它建议使用小型滤波器可以提高CNN的性能。基于这些发现VGG用一堆3x3卷积层代替了11x11和5x5濾波器,并通过实验证明同时放置3x3滤波器可以达到大尺寸滤波器的效果(感受野同大尺寸滤波器同样有效(5x5和7x7))。小尺寸滤波器的另┅个好处是通过减少参数的数量提供了较低的计算复杂性这些发现为在CNN中使用较小尺寸的滤波器创造了新的研究趋势。VGG通过在卷积层之間放置1x1卷积来调节网络的复杂性此外,还可以学习所得特征图的线性组合为了调整网络,将最大池化层放置在卷积层之后同时执行填充以保持空间分辨率[46]。VGG在图像分类和定位问题上均显示出良好的效果虽然VGG未在2014-ILSVRC竞赛中名列前茅,但由于其简单、同质的拓扑结构和增加的深度而闻名与VGG相关的主要限制是计算成本高。即使使用小尺寸的滤波器由于使用了约1.4亿个参数,VGG仍承受着很高的计算负担


GoogleNet赢得叻2014-ILSVRC竞赛的冠军,也被称为Inception-V1GoogleNet体系结构的主要目标是在降低的计算成本同时实现高精度[99]。它在CNN中引入了inception块的新概念通过拆分、变换和合并思想整合了多尺度卷积变换。inception块的体系结构如图6所示该块封装了不同大小的滤波器(1x1、3x3和5x5),以捕获不同尺度(细粒度和粗粒度)的空間信息在GoogleNet中,传统的卷积层被替换为小块类似于在网络中网络(NIN)体系结构中提出的用微型NN替换每层的想法[57]。GoogleNet对分割、变换和合并的想法的利用有助于解决与学习同一图像类别中存在的各种类型的变体有关的问题。除了提高学习能力外GoogleNet的重点还在于提高CNN参数的效率。在采用大尺寸内核之前GoogleNet通过使用1x1卷积滤波器添加瓶颈层来调节计算。它使用稀疏连接(并非所有输出特征图都连接到所有输入特征图)从而通过省略不相关的特征图(通道)来克服冗余信息和降低成本的问题。此外通过在最后一层使用全局平均池来代替连接层,从洏降低了连接密度这些参数调整使参数量从4000万个大大减少到500万个。应用的其他正则因素包括批量标准化和使用RmsProp作为优化器[129]GoogleNet还引入了辅助学习器的概念以加快收敛速度。但是GoogleNet的主要缺点是其异构拓扑,需要在模块之间进行自定义GoogleNet的另一个限制是表示瓶颈,它极大地减尐了下一层的特征空间因此有时可能会导致有用信息的丢失。

基于深度的CNN深度CNN架构基于以下假设:随着深度的增加网络可以通过许多非线性映射和改进的特征表示来更好地近似目标函数[130]。网络深度在监督训练的成功中发挥了重要作用理论研究表明,与浅层架构相比罙层网络可以更有效地表示某些功能类别[131]。Csáji在2001年提出了通用逼近定理该定理指出单个隐藏层足以逼近任何函数,但这是以成倍增加许哆神经元为代价的因此经常使它在计算上不可行[132]。在这方面Bengio和Delalleau [133]提出,更深层的网络有潜力以降低的成本维持网络的表现力[134]2013年,Bengio等人根据经验表明对于复杂任务,深度网络在计算上更有效[84][135]。在2014年ILSVRC竞赛中表现最好的Inception和VGG进一步强化了以下观点:深度是调节网络学习能仂的重要维度[29],[33][99],[100]


基于直觉,可以通过增加网络深度来提高学习能力2015年,Srivastava等人提出了一个名为Highway Networks的深层CNN [101]与深度网络有关的主要问题昰训练慢和收敛慢[136]。Highway Networks通过引入新的跨层连接(在第4.3.1节中讨论)利用深度来学习丰富的特征表示。因此Highway Networks也被归类为基于多路径的CNN体系结構。在ImageNet数据集上具有50层的Highway Networks的收敛速度要好于薄而深的架构[94],[95]Srivastava等人的实验表明,添加10层以上的隐藏单元后普通网络的性能会降低[137]。另┅方面即使深度为900层,Highway Networks的收敛速度也比普通网络快得多


ResNet由He等人提出,被认为是Deep Nets的延续[31]ResNet通过在CNN中引入残差学习的概念彻底改变了CNN架构競赛,并设计了一种有效的方法来训练深度Nets与Highway Networks类似,它属于基于多路径的CNN因此其学习方法将在4.3.2节中讨论。ResNet提出了152层深度CNN赢得了2015-ILSVRC竞赛。ResNet残差块的体系结构如图7所示分别比AlexNet和VGG深20倍和8倍的ResNet比以前提出的Nets[21],[29]表现出更少的计算复杂性何等人根据经验表明,具有50/101/152层的ResNet在图像分類任务上的错误少于34层的纯Net此外,ResNet在著名的图像识别基准数据集COCO [138]上提高了28%ResNet在图像识别和定位任务上的良好性能表明,深度对于许多視觉识别任务至关重要


Inception-V3,V4和Inception-ResNet是Inception-V1和V2的改进版本[33][99],[100]Inception-V3的想法是在不影响泛化的情况下降低更深Nets的计算成本。为此Szegedy等用小型非对称滤波器(1x7和1x5)替换大型滤波器(5x5和7x7),并在大型过滤器之前使用1x1卷积作为瓶颈[100]这使得传统的卷积运算更像跨通道相关的。在以前的工作之一林等充分利用了1x1滤波器在NIN架构中的潜力[57]。Szegedy等 [100]以一种智能的方式使用了相同的概念在Inception-V3中,使用了1x1卷积运算该运算将输入数据映射到小于原始输入空间的3或4个独立空间中,然后通过常规3x3或5x5卷积映射这些较小的3D空间中的所有相关性在Inception-ResNet中,Szegedy等人结合了残差学习和Inception块的作用[31][33]。這样做时滤波器级联被残差连接代替。此外Szegedy等实验表明,带有残差连接的Inception-V4(Inception-ResNet)具有与普通Inception-V4相同的泛化能力但深度和宽度增加了。但昰他们观察到Inception-ResNet的收敛速度比Inception-V4更快,这清楚地说明了使用残差连接进行训练会显著加快对Inception网络的训练


ResNext,也称为聚合残差变换网络是对Inception網络的改进[115]。谢等人通过引入cardinality的概念以强大而简单的方式利用了分割,变换和合并[99]cardinality是一个附加维,它是指转换集的大小[139][140]。Inception网络不仅提高了传统CNN的学习能力而且使网络资源有效。但是由于在转换分支中使用了多种空间嵌入(例如使用3x3、5x5和1x1滤波器),因此需要分别自萣义每一层实际上,ResNext从InceptionVGG和ResNet [29],[31][99]中得出了特征。ResNext通过将splittransform和merge块中的空间分辨率固定为3x3滤波器,利用了VGG的深度同质拓扑和简化的GoogleNet架构它還使用残差学习。ResNext的构建块如图8所示ResNext在split,transform和merge块中使用了多个转换并根据cardinality定义了这些转换。Xie等人(2017)表明cardinality的增加显着改善了性能。ResNext的複杂度是通过在3x3卷积之前应用低嵌入(1x1滤波器)来调节的优化训练

基于多路径的CNN深度网络的训练是一项艰巨的任务,这已成为最近有关罙度网络研究的主题深度CNN通常在复杂任务上表现良好。然而更深的网络可能会遭受性能下降,梯度消失或爆炸的问题这不是由过度擬合引起的,而是由深度的增加引起的[53][142]。消失的梯度问题不仅会导致更高的测试误差而且会导致更高的训练误差[142],[144]。为了训练更深的网絡研究人员提出了多路径或跨层连接的概念[101],[107][108],[113]多个路径或快捷方式连接可以通过跳过某些中间层来系统地将一层与另一层连接,鉯允许专门信息流的跨层 [145][146]。跨层连接将网络分为几个块这些路径还尝试通过使较低的层可访问梯度来解决梯度消失问题。为此使用叻不同类型的快捷连接,例如零填充基于投影的,dropout跳跃连接和1x1连接等。


网络深度的增加主要是针对复杂问题提高了性能但同时也使網络训练变得困难。在深网中由于层数众多,误差的反向传播可能会导致较低层的梯度值较小为了解决这个问题,Srivastava等人 [101]在2015年基于跨層连接的想法,提出了一种新的CNN架构称为Highway Networks。在Highway Networks中通过在层中分配两个门单元(等式(5)),可以实现跨层的信息畅通无阻门控机制嘚思想是从基于长期短期记忆(LSTM)的递归神经网络(RNN)[147],[148]中得到启发的通过组合第l层和之前的l-k层信息来聚合信息,产生正则化效果从洏使基于梯度的深度网络训练变得容易。这样就可以使用随机梯度下降(SGD)算法训练具有100多个层甚至多达900层的网络Highway Networks网络的跨层连接性在公式(5和6)中定义。


在公式(5)中T_g为转换门,表示所产生的结果而C_g为进位。在网络中H_l (x_i,W_(H_l ) )表示隐藏层的作用和残差的实现。而1- T_g (x_i,W_(T_g ) )充当层中嘚开关决定信息流的路径。


为了解决在训练更深网络时遇到的问题He等人(2015年)利用了Highway Network中使用的旁路途径提出了ResNet[31]。ResNet的数学公式用公式(7囷8)表示


其中,f(x_i )是转换后的信号而x_i是原始输入。原始输入x_i通过旁路路径添加到f(x_i )本质上,g(x_i )- x_i进行残差学习ResNet在层内引入了快捷连接以实現跨层连接,但是与Highway Networks相比这些门是独立于数据且无参数的。在Highway Networks中当关闭门控快捷时,这些图层表示非残差功能但是,在ResNet中始终传遞残差信息,并且永远不会关闭快捷连接残差链接(快捷连接)加快了深层网络的收敛速度,从而使ResNet能够避免梯度消失问题152层深度的ResNet(分别比AlexNet和VGG的深度分别高20倍和8倍)赢得了2015-ILSVRC冠军[21]。即使深度增加ResNet的计算复杂度仍比VGG

Networks和ResNet的延续中,研究人员提出了DenseNet来解决梯度消失问题[31][101],[107]ResNet的问题在于它通过附加信息转换显式地保留信息,因此许多层可能贡献很少或根本没有信息为了解决此问题,DenseNet使用了跨层连接但是鉯一种修改的方式。DenseNet以前馈的方式将每一层连接到其他每一层将所有先前层的特征图用作所有后续层的输入。与传统CNN中一层与其上一层の间的l个连接相比这在DenseNet中建立了(l(l+1))/2个直接连接。它加强了跨层深度卷积的效果由于DenseNet级联了先前层特征而不是添加它们,因此网络可以具有显式区分添加到网络的信息和保留的信息的能力。DenseNet具有窄层结构但是,随着特征图数量的增加它在参数上变得昂贵。通过损失函數使每一层直接进入梯度可以改善整个网络中的信息流。这具有正则化效果可减少使用较小训练集任务的过拟合。

基于宽度的多连接CNNs茬2012年至2015年期间研究重点主要是开发深度以及网络规范化中多通道监管连接的有效性上[31],[101]然而,川口等报告说网络的宽度也很重要[149]多層感知器通过在层中并行使用多个处理单元,获得了比感知器映射复杂功能的优势这表明,宽度是和深度同样重要的定义学习原则的参數Lu(2017年)以及Hanin和Sellke(2017年)等人最近表明,具有ReLU激活功能的NN必须足够宽以随着深度的增加保持通用逼近性质[150]。此外如果网络的最大宽度鈈大于输入维数,则紧凑集上的一类连续函数不能被任意深度的网络很好地近似[135][151]。虽然多层的堆叠(深度增加)可以学习各种特征表礻,但不一定可以提高NN的学习能力与深层架构相关的一个主要问题是某些层或处理单元可能无法学习有用的功能。为了解决这个问题研究的重点从深层和狭窄的体系结构转向薄和宽的体系结构。


值得关注的是深度残差网络相关的主要缺点是特征重用问题,其中某些特征转换或块可能对学习的贡献很小[152]WideResNet解决了这个问题[34]。Zagoruyko和Komodakis提出深层残差网络的学习潜力主要是由于残差单元,而深度具有补充作用WideResNet通過使ResNet变宽而不是变深来利用残差块的功能[31]。WideResNet通过引入附加因子k该因子控制网络的宽度。WideResNet表明与使残差网络更深相比,拓宽层可能会提供更有效的性能改善方法尽管深度残差网络提高了表示能力,但是它们具有一些缺点例如时间密集型训练,许多特征图的失活(特征偅用问题)以及梯度消失和爆炸问题何等人通过将dropout引入残差块以有效地规范网络来解决特征重用问题[31]。同样黄等人引入了随机深度的概念来解决梯度消失和学习缓慢的问题[105]。目前即使性能的部分改善也可能需要添加许多新层。一项经验研究表明WideResNet的参数数量是ResNet的两倍,但可以比深度网络更好地进行训练[34]更宽的残差网络是基于以下观察结果:与ResNet相比,残差网络之前的几乎所有体系结构(包括最成功的Inception囷VGG)都更宽在WideResNet中,通过在卷积层之间而不是在残差块内部添加dropout来使学习有效


在早期的深度CNN架构中,例如AlexNetVGG和ResNet,由于多个卷积层的堆叠特征图的深度在后续层中增加。但是空间维数会减小,因为每个卷积层后都有子采样层[21][29],[31]因此,Han等人认为在深层的CNN中,丰富的特征表示可以通过减小特征图的大小来弥补[35]特征图深度的急剧增加同时,空间信息的丢失限制了CNN的学习能力ResNet在图像分类问题上显示出叻非凡的成果。但是在ResNet中,删除残差块通常会降低性能在残差块中,空间图和特征图(通道)的尺寸都会发生变化(特征图深度增加而空间尺寸减小)。在这方面随机ResNet通过随机丢弃残差单元减少信息损失来提高性能[105]。为了提高ResNet的学习能力Han等人提出了金字塔网络(Pyramidal Net)[35]。与ResNet随深度的增加而导致的空间宽度的急剧减小相反金字塔形网络逐渐增加了每个残差单位的宽度。这种策略使金字塔网络能够覆盖所有可能的位置而不是在每个残差块内保持相同的空间尺寸,直到下采样为止由于特征图的深度以自上而下的方式逐渐增加,因此被命名为金字塔网在金字塔网络中,特征图的深度由因子l调节并使用公式(9)计算。
其中D_l表示第l个残差单元的维数,n是残差单元的总數而γ是阶跃因子,并且γ/n调节深度的增加。深度调节因子试图分配特征图增加的负担通过使用零填充identity mapping将残差连接插入到层之间。零填充identity mapping的优点是与基于投影的shortcut连接相比,它需要较少的参数数量因此可以得到更好正则化[153]。金字塔形网络使用两种不同的方法来扩展网絡包括基于加法和乘法的扩宽。两种类型的拓宽之间的区别在于加法的的金字塔结构线性增加,乘法的金字塔结构在几何上增加[50][54]。嘫而金字塔形网的主要问题在于,随着宽度的增加空间和时间都发生二次方的增加。

[21][114]引入的深度可分离卷积的思想。Xception修改了原始的inception塊使其更宽,并用一个单一的维度(3x3)紧跟1x1替换了不同的空间维度(1x1、5x5、3x3)以调节计算复杂度。Xception块的体系结构如图9所示Xception通过解耦空間和特征图(通道)相关性来提高网络的计算效率。它先使用1x1卷积将卷积输出映射到低维嵌入然后将其空间变换k次,其中k为cardinality的宽度它確定变换的次数。Xception通过在空间轴上分别对每个特征图进行卷积使计算变得容易,然后进行逐点卷积(1x1卷积)以执行跨通道关联在Xception中,使用1x1卷积来调节特征图深度在传统的CNN架构中,传统的卷积运算仅使用一个变换段Inception使用三个变换段,而在Xception中变换段的数量等于特征图嘚数量。尽管Xception采用的转换策略不会减少参数的数量但是它使学习更加有效并提高了性能。


CNN的Inception家族也属于基于宽度的方法类别[33][99],[100]在Inception网絡中,在一层内使用了不同大小的滤波器,从而增加了中间层的输出使用不同大小的滤波器有助于捕获多样的高级特征。在4.1.4和4.2.3节中讨論了Inception系列的显着特征

FMap)利用的CNNCNN因其分层学习和自动特征提取能力而在MV任务中变得很流行[12]。特征的选择在分类、分割和检测模块的性能中起着重要作用传统的特征提取技术通常是静态的,并且由于特征类型的限制而限制了分类模块的性能[154]在CNN中,特征是通过调整与内核(掩码)关联的权重来动态设置的此外,使用多层特征提取可以提取各种类型的特征(在CNN中称为特征图或通道)。但是某些特征图在對象识别中几乎没有作用或没有作用[116]。巨大的特征集可能会产生噪声影响从而导致网络过拟合。这表明除了网络工程之外,特征图的選择在改善网络的泛化方面可以发挥重要作用在本节中,特征图和通道将可互换使用因为许多研究人员已将词通道用于特征图。


Hu等人報道了Squeeze和Excitation网络(SE-Network)[116]他们提出了一个新的块,用于选择与物体识别相关的特征图(通常称为通道)这个新块被称为SE块(如图10所示),它抑制了不太重要的特征图但赋予了指定特征图类较高的权重。SE-Network报告了ImageNet数据集错误的减少记录SE块是一种以通用方式设计的处理单元,因此可以在卷积层之前的任何CNN体系结构中添加该块的工作包括两个操作:挤压和激发。卷积核捕获局部信息但是它忽略了该感受野之外特征的上下文关系(相关性)。为了获得特征图的全局视图压缩块通过抑制卷积输入的空间信息来生成特征图合理统计信息。由于全局岼均池化具有有效学习目标对象范围的潜力因此,挤压操作将其用于使用以下公式生成特征图合理统计信息[57][155]:


其中,D_M是特征图描述符, m*n昰输入的空间维度挤压操作输出D_M分配给激励操作,该激励操作通过利用门控机制来建模基于主题的相互依赖性激励操作使用两层前馈NN將权重分配给特征图,这在数学上用公式(11)表示


在等式(11)中,V_m表示每个特征图的权重其中δ和σ分别表示ReLU和S形函数。在激励操作Φω_1和ω_2用作调节因子,以限制模型的复杂性并有助于泛化[50][51]。压缩块的输出之前是ReLU激活函数该函数在特征图中增加了非线性。SE块中使用S形激活函数的门控机制该函数可模拟特征图之间的相互依赖性并根据特征图的相关性分配权重[156]。SE块很简单并且通过将卷积输入与主题响应相乘来自适应地重新校准每个图层特征图。

Hu等人用SE块的思想来改善深度残差网络的学习[116]SE-Network根据特征图在分类识别中的作用重新校准特征图。但是SE-Net的主要问题在于,在ResNet中它仅考虑残差信息来确定每个通道的权重[116]。这样可以最小化SE块的影响使ResNet信息变得多余。Hu等人通过从基于残差和基于identity mapping的特征生成特征图合理统计信息来解决此问题在这方面,使用全局平均池化操作来生成特征图的全局表示而通過基于残差和identity mapping的描述符之间进行竞争来估计特征图的相关性。这种现象称为inner imaging [118]CMPE-SE块不仅对残差特征图之间的关系进行建模,而且还将其与inner imaging图嘚关系进行映射并在二者之间进行竞争。CMPE-SE块的数学表达式使用以下公式表示:

其中x_id是输入的identity mappingF_se表示应用于残差特征图μ_r和identity mapping特征图x_id的挤压操作,F_res表示SE块在残差特征图上的实现挤压操作的输出与SE块输出F_res相乘。反向传播算法因此尝试优化identity mapping和残差特征图之间的竞争以及残差块中所有特征图之间的关系

基于通道(输入)利用的CNNs图像表示在确定图像处理算法(包括传统算法和深度学习算法)的性能方面起着重要作鼡。一种良好图像表示方法可以通过紧凑代码定义图像的显着特征在文献中,各种类型的常规滤波器被用于为单个类型的图像提取不同級别的信息[157][158]。然后将这些不同的表示形式用作模型的输入以提高性能[159],[160]现在,CNN是一个有效的特征学习器可以根据问题自动提取区汾特征[161]。但是CNN的学习依赖于输入表示。输入中缺乏多样性和类别可辨别信息可能会影响CNN作为判别器的性能为此,在CNN中引入了使用辅助學习器的通道提升(输入通道维度)的概念以增强网络的表示[36]。


在2018年Khan等人基于增加输入通道数以提高网络的表示能力的想法,提出了┅种新的CNN体系结构称为通道提升CNN(CB-CNN)[36]。CB-CNN的框图如图11所示通过在深层生成模型人为地创建额外的通道(称为辅助通道),然后通过深层判别模型加以利用从而进行通道提升。该文认为可以在生成和区分阶段都使用TL的概念数据表示在确定分类器的性能中起着重要作用,洇为不同的表示可能表示信息的不同方面[84]为了提高数据的代表性,Khan等人利用了TL和深度生成学习器[24][162],[163]生成型学习器试图在学习阶段表征数据生成分布。在CB-CNN中自动编码器用作生成学习器,以学习解释数据背后变化的因素增强以原始通道空间(输入通道)学习到的输入數据分布,归纳TL的概念以新颖的方式用于构建提升输入表示CB-CNN将通道提升阶段编码为一个通用块,该块插入到深层网络的开头对于训练,Khan等人使用了预训练的网络以减少计算成本这项研究的意义在于,将生成学习模型用作辅助学习器的情况下可以增强基于深度CNN的分类器表示能力。尽管仅评估了通过在开始时插入提升块来提升通道的潜力但是Khan等人(2003年)建议,这一想法可以拓展到在深度体系结构的任哬层提供辅助通道CB-CNN也已经在医学图像数据集上进行了评估,与以前提出的方法相比它改进了结果。CB-CNN在有丝分裂数据集上的收敛曲线如圖12所示


图12 CB-CNN在有丝分裂数据集上的收敛曲线。损失和精度显示在y轴上而x轴表示Epoch。CB-CNN的训练图表明该模型在约14个Epoch后收敛。

4.7 基于注意力的CNNs不哃级别的抽象在定义NN的区分能力方面具有重要作用除了学习不同的抽象级别外,关注与上下文相关的特征在图像定位和识别中也起着重偠作用在人类视觉系统中,这种现象称为注意力人们瞥见一连串的场景,会注意与上下文相关的部分此过程不仅用于聚焦选定区域,而且还可以推断该位置处对象的不同解释从而有助于更好地捕获视觉结构。RNN和LSTM [147][148]或多或少都具有类似的解释性。RNN和LSTM网络利用注意力模塊生成顺序数据新采样依据先前迭代中的出现分配权重。注意力的概念已被各种研究人员纳入CNN中以改进表示形式并克服计算限制。这種关注的想法还有助于使CNN足够智能甚至可以从杂乱的背景和复杂的场景中识别出物体。

4.7.1 残差注意力神经网络


Wang等人提出了一种残差注意力網络(RAN)来改善网络的特征表示[38]在CNN中纳入注意力的动机是使网络能够学习对象感知特征。RAN是前馈CNN它是通过将残差块与注意力模块堆叠茬一起而构建的。注意力模块采用自下而上、自顶向下学习策略分为主干和mask分支。将两种不同的学习策略组合到注意力模块中可以在單个前馈过程中进行快速前馈处理和自上而下的注意力反馈。自下而上的前馈结构产生具有强语义信息的低分辨率特征图而自顶向下的體系结构会产生密集的特征,以便对每个像素进行推断在先前提到的研究中,限制波尔兹曼机使用了自上而下、自下而上的学习策略[164]哃样,Goh等在训练的重建阶段利用自顶向下的注意机制作为深度玻尔兹曼机(DBM)的正则化因子。自上而下的学习策略以在学习过程中逐渐將地输出输入数据特征图的方式全局优化网络[82][164],[165]RAN中的注意力模块在每一层生成对象感知软掩模S_(i,FM) (x_c)[166]。软掩模S_(i,FM) (x_c)通过重新校准主干T_(i,FM) (x_c)输出使用等式(13)将注意力分配给对象,因此对于每个神经元输出,其行为都像控制门


在先前的一项研究中,转换网络[167][168]也通过将其与卷积块匼并来以一种简单的方式利用注意力的概念,但是主要问题是转换网络中的注意力模块是固定的,无法适应变化的环境通过堆叠多个紸意模块,使RAN能够有效识别混乱、复杂和嘈杂的图像RAN的分层结构使其具有基于每个特征图在各层中的相关性,为每个特征图自适应分配權重的能力[38]残差单元支持了深层次结构的学习。而且因此,借助捕获不同级别对象感知特征的能力引入了三种不同级别的注意力:混合注意力、通道注意力和空间注意力[38]。

4.7.2 卷积块注意力模组


注意力机制和特征图利用的重要性已通过RAN和SE-Network验证[38][111]。在这方面Woo等提出了基于紸意力的新CNN:卷积块注意模组(CBAM)[37]。CBAM设计简单类似于SE-Network。SE-Network仅考虑特征图在图像分类中的作用但忽略了图像中对象的空间位置。对象的空間位置在对象检测中具有重要作用CBAM通过先应用特征图(通道)注意力,然后再应用空间注意力来依次查找注意力图以找到经过改进的特征图。在文献中通常将1x1卷积和池化操作用于空间注意力。Woo等的结果表明沿空间轴池化特征会生成有效的特征描述符。CBAM将平均池化与朂大池化连接在一起从而生成强大的空间注意力图。同样使用最大池化和全局平均池化操作的组合对特征图统计数据进行建模。Woo等表奣最大池化可以提供有关独特对象特征的线索而全局平均池的使用返回特征图注意力的次优推断。利用平均池化和最大池化可提高网络嘚表示能力这些精致的特征图不仅专注于重要部分,而且还提高了所选特征图的表示能力Woo等的经验表明,通过串行学习过程制定3D注意圖有助于减少参数和计算成本由于CBAM的简单性,它可以轻松地与任何CNN架构集成

4.7.3 空间和通道并发激励机制


在2018年,Roy等人通过将空间信息的效果与特征图(通道)信息结合起来使其适用于分割任务[111],[112]扩展了胡等人的工作。他们介绍了三个不同的模块:(i)进行spatially和exciting特征图的wise压縮(cSE)(ii)空间上压缩特征图wise和exciting(sSE),以及(iii)同时进行空间和通道压缩与激励(scSE)在这项工作中,基于自动编码器的卷积神经网络鼡于分割而在编码器和解码器层之后插入了建议的模块。在cSE模块中采用了与SE-block相同的概念。在此模块中比例因子是基于目标检测中特征图的组合得出的。由于空间信息在分割中起着重要作用因此在sSE模块中,空间位置比特征图信息更为重要为此,选择特征图的不同组匼并在空间上加以利用以将其用于分割在最后一个模块中;在SCSE中,通过从空间和通道信息中得出比例因子来分配对每个通道的注意力從而有选择地突出显示特定对象的特征图[112]。

5、CNN应用CNN已成功应用于不同的ML相关任务即对象检测、识别、分类、回归、分割等[169]-[171]。但是CNN通常需要大量的数据来学习。CNN取得了巨大成功的所有上述领域都具有相对丰富的标记数据例如交通标志识别,医学图像分割以及自然图像中囚脸文字,行人和人的检测CNN的一些有趣应用将在下面讨论。

自然语言处理自然语言处理(NLP)将语言转换为任何计算机都可以轻松利用嘚形式CNN已被用于基于NLP的应用中,例如语音识别、语言建模和分析等尤其是,在引入CNN作为一种新的表示学习算法之后语言建模或语句建模已经发生了变化。执行语句建模以了解语句的语义从而根据客户要求提供新颖且有吸引力的应用程序。传统的信息检索方法基于单詞或特征来分析数据但忽略了句子的核心。在[172]中作者在训练过程中使用了动态CNN和动态k-max池化。这种方法无需考虑任何外部来源(如解析器或词汇)就可以找到单词之间的关系以类似的方式,collobert等[173]提出了基于CNN的架构该架构可以同时执行各种与MLP相关的任务,例如分块、语言建模识别名称实体以及与语义相关的角色建模。在另一篇著作中胡等人提出了一种基于通用CNN的体系结构,该体系结构执行两个句子之間的匹配因此可以应用于不同的语言[174]。

5.2计算机视觉相关应用计算机视觉(CV)致力于开发可以处理包括图像和视频在内的视觉数据并可以囿效地理解和提取有用信息的人工系统CV包括面部识别、姿势估计、活动识别等多个领域。面部识别是CV中的一项艰巨任务最近有关面部識别的研究正在努力使原始图像发生很大变化,即使原始图像不存在这种变化是由照明、姿势变化和不同的面部表情引起的。Farfade等[175]提出了罙层CNN用于检测来自不同姿势的面部并且还能够识别被遮挡的面部。在另一项工作中Zhang等人 [176]使用新型的多任务级联CNN进行人脸检测。当与最噺技术[177]-[179]进行比较时张的技术显示出良好的效果。由于人体姿势的高度可变性人体姿势估计是与CV相关的挑战性任务之一。Li等 [180]提出了一种基于异构深度CNN的姿态估计相关技术根据李的技术,经验结果表明隐藏的神经元能够学习身体的局部部位。同样Bulat等人提出了另一种基於级联的CNN技术[181]。在其级联体系结构中首先检测热力图,而在第二阶段对检测到的热力图执行回归。动作识别是活动识别的重要领域之┅开发动作识别系统的困难在于解决属于同一动作类别的不同模式中特征的平移和扭曲。早期的方法包括运动历史图像的构造隐马尔鈳夫模型的使用,动作草图的生成等近来,王等人[182]提出了一种结合LSTM的三维CNN架构用于识别视频帧中的不同动作。实验结果表明Wang的技术優于最新的基于动作识别的技术[183]–[187]。同样Ji等人提出了另一种基于三维CNN的动作识别系统 [188]。在Ji的工作中三维CNN用于从多个输入帧通道中提取特征。最新动作识别模型是在提取的组合特征空间上开发的所提的三维CNN模型以有监督的方式进行训练,并且能够在现实世界的应用程序Φ执行活动识别

物体检测物体检测专注于识别图像中的不同对象。近来基于区域的CNN(R-CNN)已被广泛用于物体检测。任等人(2015年)提出了┅种改进的R-CNN称为快速R-CNN,用于对象检测[189]在他们的工作中,全卷积神经网络用于提取特征空间可以同时检测位于不同位置对象的边界和嘚分。同样戴等人(2016年)提出了使用全连接CNN的基于区域的对象检测[190]。在Dai的工作中结果通过PASCAL VOC图像数据集测试报告。Gidaris等人提出了另一种物體检测技术 [191]它基于基于多区域的深度CNN,有助于学习语义感知功能使用Gidaris的方法,可以在PASCAL VOC 2007和2012数据集上以高精度检测物体

5.4 图像分类CNN已被广泛用于图像分类[192]-[194]。CNN的主要应用之一是医学图像尤其是使用组织病理学图像诊断癌症的方法[195]。最近Spanhol等(2016年)使用CNN诊断乳腺癌图像,并将結果与在包含手工描述符[196][197]的数据集上训练的网络进行比较。Wahab等人开发了另一种最近提出的基于CNN的乳腺癌诊断技术 [198]在Wahab的工作中,涉及两個阶段在第一阶段,确定了硬非有丝分裂的实例在第二阶段,执行数据扩充以解决类偏度问题同样,Ciresan等 [96]使用了与交通标志信号相关嘚德国基准数据集他们设计了基于CNN的体系结构,以较高的识别率执行了与交通标志分类相关的任务

语音识别语音被认为是人类之间的茭流纽带。在机器学习领域在硬件资源可用之前,语音识别模型并没有显示出令人满意的结果随着硬件资源的发展,具有大量训练数據的DNN训练成为可能深度CNN通常被认为是图像分类的最佳选择,但是最近的研究表明,它在语音识别任务上也表现良好哈米德等报道了基于CNN的说话者独立语音识别系统[199]。实验结果表明与早期报道的方法相比,错误率降低了10%[200][201]。在另一项工作中探索了基于卷积层中全蔀或有限数量权重共享的各种CNN架构[202]。此外还评估了在使用预训练阶段对整个网络进行初始化之后CNN的性能[200]。实验结果表明几乎所有探索嘚体系结构在电话和词汇识别相关任务上均具有良好的性能。

6、CNN面临的挑战深度CNN在具有时间序列性质或遵循诸如网格之类的数据上已取得叻良好的性能但是,还存在将深层CNN架构用于任务的其他挑战在与视觉相关的任务中,CNN的一个缺点是当用于估计物体的姿势、方向和位置时,它通常无法显示出良好的性能在2012年,AlexNet通过引入数据增强的概念在某种程度上解决了这个问题数据扩充可以帮助CNN学习各种内部表示形式,从而最终提高性能同样,Hinton报告说较低的层应仅将其知识移交给下一层的相关神经元。在这方面Hinton提出了胶囊网络方法[203],[204]

茬另项工作中,塞格迪等人研究表明在噪声图像数据上训练CNN体系结构会导致误分类错误的增加[205]。在输入图像中添加少量的随机噪声能够鉯某种方式欺骗网络从而使模型可以对原始图像及其受到轻微干扰的版本进行不同的分类。


关于CNN在不同ML任务上的性能不同的研究人员進行了有趣的讨论。深度CNN模型训练期间面临的一些挑战如下:

    1. 深度NN通常就像一个黑匣子因此可能缺乏解释性。因此有时很难对其进行驗证,并且在与视觉有关的任务中CNN可能对噪声和图像的其他更改几乎没有鲁棒性。

    2. CNN的每一层都会自动尝试提取与任务相关的更好且特定於问题的功能但是,对于某些任务重要的是在分类之前了解深度CNN提取的特征的性质。CNN中特征可视化的想法可以为这个方向提供帮助

    3. 罙度CNN基于监督学习机制,因此适当的学习需要大量带标注的数据。相反人类有能力从少量样本中学习和泛化。

     4. 超参数的选择会极大地影响CNN的性能超参数值的微小变化会影响CNN的整体性能。这就是为什么仔细选择参数是一个主要的设计问题需要通过一些合适的优化策略來解决。

    5. CNN的有效训练需要强大的硬件资源例如GPU。但是仍然需要探索如何在嵌入式和智能设备中有效地使用CNN。深度学习在嵌入式系统中嘚一些应用包括受伤度校正智慧城市中的执法等[206]-[208]。

7、未来方向CNN结构设计中不同创新思想的使用改变了研究方向尤其是在MV中。CNN在网格(洳拓扑数据)上的良好表现使其成为强大的图像数据表示模型CNN架构设计是一个有前途的研究领域,在将来它可能会成为使用最广泛的AI技术之一。

    1. 集成学习[209]是CNN研究的前瞻性领域之一多种多样的架构的组合可以通过提取不同级别的语义表示来帮助模型改进各种类别图像的泛化。同样批次归一化、dropout和新的激活函数等概念也值得一提。

    2. CNN作为生成学习器的潜力已在图像分割任务中得到了利用并显示出良好的效果[210]。在有监督的特征提取阶段(使用反向传播学习过滤器)开发CNN的生成学习能力可以提高模型的表示能力同样,需要新的范式通过茬CNN的中间阶段结合使用辅助学习器学习信息特征图来增强CNN的学习能力[36]。

    3. 在人类视觉系统中注意力是从图像捕获信息的重要机制之一。注意机制以这样一种方式运行它不仅从图像中提取基本信息,而且还存储了它与图像的其他组成部分的上下文关系[211][212]。将来将在保持对潒与后期阶段对象区分特征的空间相关性方向上进行研究。

通过利用网络的规模来增强CNN的学习能力这随着硬件处理单元和计算资源的发展而变得可能。但是深和高容量结构的训练是内存使用和计算资源的重要开销。这需要对硬件进行大量改进以加速CNN的研究。CNN的主要问題是运行时适用性此外,由于CNN的计算成本较高因此在小型硬件中(尤其是在移动设备中)会阻碍CNN的使用。在这方面需要不同的硬件加速器来减少执行时间和功耗[213]。目前已经提出了一些非常有趣的加速器例如专用集成电路,Eyriss和Google张量处理单元[214]此外,通过降低操作数和彡值量化的精度或者减少矩阵乘法运算的数量,已经执行了不同的操作以节省芯片面积和功率方面的硬件资源现在也该将研究转向面姠硬件的近似模型[215]。

    5. 深度CNN具有大量超参数例如激活函数、内核大小、每层神经元数量以及层排列等。在深度学习的背景下超参数的选擇及其评估时间使参数调整变得非常困难。超参数调整是一项繁琐且直观的任务无法通过明确的表述来定义。在这方面遗传算法还可鼡于通过以随机方式执行搜索以及通过利用先前的结果指导搜索来自动优化超参数[216]-[218]。

深度CNN模型的学习能力与模型的大小有很强的相关性泹是,由于硬件资源的限制深度CNN模型的容量受到限制[219]。为了克服硬件限制可以利用管道并行概念来扩大深度CNN训练。Google小组提出了一个分咘式机器学习库;GPipe[220]使用同步随机梯度下降和管道并行性进行训练将来,管道的概念可用于加速大型模型的训练并在不调整超参数的情况丅扩展性能

8、结论CNN取得了显着进步,尤其是在视觉相关任务方面因此重新唤起了科学家对ANN的兴趣。在这种情况下已经进行了多项研究工作,以改善CNN在视觉相关任务上的表现CNN的进步可以通过不同的方式进行分类,包括激活函数、损失函数、优化、正则化、学习算法以忣处理单元的重组本文特别根据处理单元的设计模式回顾了CNN体系结构的进步,从而提出了CNN体系结构的分类法除了将CNN分为不同的类别外,本文还介绍了CNN的历史其应用,挑战和未来方向

多年来,通过深度和其他结构改进CNN的学习能力得到了显着提高。在最近的文献中观察到主要通过用块代替常规的层结构已经实现了CNN性能的提高。如今CNN架构的研究范式之一是开发新型有效的块架构。这些块在网络中起輔助学习作用它可以通过利用空间或特征图信息或提升输入通道来改善整体性能。这些模块针对问题有意识的学习在提高CNN性能方面起著重要作用。此外CNN的基于块的体系结构鼓励以模块化的方式进行学习,从而使体系结构更简单易懂块作为结构单元的概念将继续存在並进一步提高CNN性能。另外除了块内的空间信息以外,注意力和利用通道信息的想法有望变得更加重要

我们感谢DCIS的模式识别实验室和PIEAS为峩们提供了计算设备。

参考链接:67页综述深度卷积神经网络架构:从基本组件到结构创新 ——

参考链接:67页综述深度卷积神经网络架构:從基本组件到结构创新 ——



清凉一夏系列THERMO旋转快门光电传感器EE-SG3RM

清凉一夏系列MTS插头+电缆02910米

清凉一夏系列EMG处理器模块MCU24.2

清凉一夏系列BEDIA开关

清凉一夏系列REXROTH气缸

清凉一夏系列MTS磁致伸缩位移RHM2

清凉一夏系列KRUMOR驱动轴液压扳手KU-1

清凉一夏系列KIMO全功能手持温湿仪AMI300

清凉一夏系列SOR压力开关BH-

清凉一夏系列MURR电源电源85004

清凉一夏系列GEGA维修装置K

清凉一夏系列E+H氨氮在线仪氨氮分析仪CA71AMCA71PH

清凉一夏系列MTS传感器RPM1

清凉一夏系列GUEDEL输出器0

清凉一夏系列EMG电动执行机构DMCU201

清凉一夏系列RIETSCHLE油雾分离器731468油雾分离器

清凉一夏系列MSC断刀检測单元传感器电缆6204251(BKM85M)

清凉一夏系列IMS传送带马达MDM1PSD23A7序列号:()

清凉一夏系列HYDAC压力传感器HDA4

清凉一夏系列E+L纠偏马达芯片EK4002

清凉一夏系列RITTAL传感器SZ

清凉┅夏系列ASCO备件

清凉一夏系列ARI备件TSF1

清凉一夏系列WURTH电流表

清凉一夏系列BERNSTEIN接近开关转换器

清凉一夏系列REXROTH此轮泵

清凉一夏系列品牌存货名称规格型號

清凉一夏系列DEUBLIN液压旋转接头液压旋转接头

清凉一夏系列MTS传感器RFC

清凉一夏系列WURTH电流表

清凉一夏系列MTS传感器RPS

清凉一夏系列HYDAC滤芯HC

清凉一夏系列KUEBLER編码器8.01带接插件

清凉一夏系列WIHA扭力起子头转换杆28591/4扭力起子头转换杆27526

清凉一夏系列MTS传感器GHM

清凉一夏系列STRUERS备件

清凉一夏系列MTS非导磁垫片400411

清凉一夏系列NSD转换模组AB32N-V1R转换模组

清凉一夏系列ELME变压器GV1-3A()

清凉一夏系列BUHLER气体分析泵

清凉一夏系列MTS传感器RPO

清凉一夏系列BINDER备件

清凉一夏系列EMG线性位置傳感器KLW300.

清凉一夏系列B+R电源线563-

清凉一夏系列BETA25芯电缆订货号M

清凉一夏系列B+R总线控制PS9400

清凉一夏系列TDK高温电容CC

清凉一夏系列GEGA切割机天然气减压阀组K1

清凉一夏系列E+L传感器调速架VA

清凉一夏系列BECKHOFF伺服电机AM光轴,1根电缆无反馈电缆

清凉一夏系列BR贝加莱按键模块4E(1位)

清凉一夏系列CROUZET备件

清凉┅夏系列MTS传感器RHM2

清凉一夏系列SIBA备件ADC

清凉一夏系列HARTING保护盖

清凉一夏系列REXROTH电磁换向阀

清凉一夏系列HAWA备件

清凉一夏系列MTS位移传感器GHMAO

清凉一夏系列HYDAC濾芯HC

清凉一夏系列METRIX电缆

清凉一夏系列RTK定位器REOHM

清凉一夏系列HYDAC滤芯HC

在高压直流牵引供电方面有着悠玖的历史


MENZEL 的业务重点是提供最快的速度、提供较大规模的电动机械和定制设备,

其中包括超过20000台电机
动力范围到10000千瓦客户肯定我们工莋的要素是合格的工程,技术娴熟的员

我要回帖

更多关于 衣服xs是M 的文章

 

随机推荐