求算法在收敛过程中误差起伏大性,要过程

原标题:百度将高性能计算引入深度学习:可高效实现模型的大规模扩展(附资源)

参与:吴攀、黄小天、晏奇

神经网络在过去几年中规模不断扩大,训练需要大量的数据和计算资源。为了提供所需的计算能力,我们可以使用高性能计算(HPC)中常见的技术将模型扩展到几十个 GPU,但该技术在深度学习中未被充分利用。这项技术,Ring Allreduce,还能减少不同 GPU 之间的通信时间,从而允许将更多时间用在有用计算上。在百度的硅谷人工智能实验室(SVAIL),我们已经成功地使用这些技术训练了当前最先进的语音识别模型。我们很高兴以库和 TensorFlow 软件补丁的形式推出 Ring Allreduce 的实现。我们也希望通过发布这些库可以使深度学习社区更有效地扩展他们的模型。

在过去的几年中,神经网络已被证明是解决各种问题的非常有效的工具,并在规模和计算需求上快速增长。在用两个 GPU 运行一周并调节了 6000 万参数之后,用于图像识别的 SuperVision 卷积网络在物体识别方面取得了巨大成功 [1]。在 2016 年,对一个有超过 10 亿个参数的网络在 32 个 GPU 上训练了 3 周之后,研究人员在语言建模方面取得了突破性进展 [2]。在 SVAIL,2014 年我们的 Deep Speech 语音识别系统的第一次迭代约有 1100 万个参数 [5],而一年后的下一次迭代已经增长到 1 亿个参数 [3]。

随着参数数量以及神经网络计算需求的不断增长,在多节点、多 GPU 上进行高效并行的神经网络训练已经变得越发重要,因为等待几个月时间训练大型网络会减慢试验进程,限制进一步开发。在这篇博文中,我们提出了一种来自高性能计算(HPC)领域的技术,并演示如何将其应用于深度学习以在神经网络训练中取得显著的表现。

当在多个 GPU 上并行训练一个神经网络,你必须选择如何将不同的运算分布到不同的 GPU 上。本文中,我们将介绍一种被称为数据并行随机梯度下降(data parallel stochastic gradient descent)的技术。在标准随机梯度下降(SGD)中,梯度下降通过使用数据的子集(minibatch)来完成,它们通过进行多次迭代来遍历整个数据集。然而,在数据并行训练中,每个 GPU 都有一个完整的神经网络模型的副本,并且每一次迭代只会被分配 minibatch 样本中的一个子集。对于每次迭代,每个 GPU 在自己处理的数据上将神经网络向前传播,随后再进行误差反向传播(error backpropagation)来计算相对于神经网络参数的损失的梯度。

最后,GPU 通过相互通信来平均不同 GPU 计算的梯度,将平均梯度应用于权重来获取新权重。GPU 在锁步(lock-step)中都进行迭代,并且一旦一个 GPU 完成了自己的迭代,它必须要等待其它所有 GPU 都完成,这样以保证权重可以被适当地更新。这等价于在单块 GPU 上处理 SGD,但是我们通过把数据分配给多个 GPU 来并行运算,从而获得了计算速度的提升。

当你仅仅只有两块 GPU 和数以兆字节(MB)的参数时,这些 GPU 如何通信可能看上去没什么影响。但是,当你的模型有数十亿个参数时,梯度就会占用千兆字(GB)节的空间(因为每个参数都有一个梯度值),并且你还在同时协调几十个 GPU,那么此时 GPU 之间的通信机制就显得非常重要了。

例如,我们考虑一下可能的最直接的通信机制。每个 GPU 都在 minibatch 上的一个子集里计算一个梯度。然后,每个 GPU 都将该子集的梯度发送给同一个 GPU,让这个 GPU 来计算所有梯度的平均值,最后它会将平均值发送回给其它 GPU。

如果存在越多需要被发送的数据,那么发送的时间就越长;每个通信信道都有一个最大吞吐量(带宽)。例如,一个好的网络连接可以提供 15MB/s 的带宽,一个千兆以太网连接能提供 125MB/s 的带宽。搭载在高性能计算集群(HPC cluster)上的专业网络硬件(比如 InfiniBand)可以在结点之间提供高达数 GB/s 的带宽。

在数据于单个 GPU 上传输的直接机制(straight-forward mechanism)中,这个 GPU 必须接收来自所有其它 GPU 的所有参数,并且它还要将所有参数发回给所有 GPU。于是,系统中存在的 GPU 越多,通信成本就越大。

现在,让我们来评估一下这种通信机制在真实模型上的能力,例如,有一个基于百度语音识别系统 Deep Speech 2 开发的语音识别网络 [3],它有 3 亿个可训练参数,每个参数占 4 字节(Byte),也就是大概 /baidu-research/baidu-allreduce

  • 投稿或寻求报道:editor@

考虑到在很多情况下,人们更关心预报模型的预报值与实际值的相对误差情况,从而本文采用实际输出与希望输出的相对误差的平方和作为目标函数,给出了一种基于相对误差平方和为最小的BP算法。考虑到网络的实际输出值介于0到1之间,对实际问题的理想输出值给出了一种规范化处理方法。通过大量算例检验证实,在基于相对误差平方和为检验标准前提下,利用所给算法求得的拟合值或预报结果优于传统的基于绝对误差平方和作为目标函数的BP算法所得结果。 由于评价人工神经网络最终学习效果是通过累积误差来进行的,从而我们直接瞄准累积误差来研究多层人工神经网络快速学习的算法。我们首先简单介绍基于累积误差的梯形下降法,在此基础上,给出了一种自适应学习速率的调整方案。经过大量算例检验,在相同的精度要求下,本文算法的收敛速度大大加快,并有效地克服了一般的基于累积误差的梯形下降法在学习过程中所具有的震荡性。 基于误差逆传播算法对图像进行压缩的工作已有很多,但存在着人工神经网络训练时间较长,精度偏低等问题。考虑到利用三层及三层以上BP网络对图像压缩,其有效信息是中间层单元上的输出值和中间层与输出层之间的连接权,而输入层与中间层的连接权是冗余的,以至于对学习速度和压缩质量有负面影响。基于此我们提出了新型二层误差逆传播网络拓扑结构和算法,为进一步提高图像压缩的压缩比和压缩质量,我们提出了新型三层误差逆传播网络拓扑结构和算法。经过上机压缩测试,相对于三层BP网络、三层以上BP网络以及嵌套BP网络图像压缩的压缩比、学习速度和压缩质量都有很大提高,取得了很好的效果。

【学位授予单位】:河海大学
【学位授予年份】:2003

支持CAJ、PDF文件格式


郭庆春;何振芳;寇立群;孔令军;张小永;史永博;;[J];价值工程;2011年18期
张明超;张明慧;张尧禹;;[J];电脑编程技巧与维护;2011年14期
杨杰;潘开灵;;[J];武汉冶金管理干部学院学报;2011年02期
陈捷;陈为真;;[J];武汉工业学院学报;2011年03期
张南南;汪正祥;;[J];自动化与仪器仪表;2011年04期
中国重要会议论文全文数据库
冯玉强;黄梯云;;[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第3卷)[C];1995年
赵卿;曹晓岚;;[A];第五次全国中西医结合神经科学术会议论文集[C];2004年
田国富;张国忠;张幼君;;[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
汪学清;单仁亮;;[A];第二届中国水利水电岩土力学与工程学术讨论会论文集(一)[C];2008年
应义斌;景寒松;赵匀;;[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
周保生;朱维申;;[A];第一届海峡两岸隧道与地下工程学术与技术研讨会论文集(下册)[C];1999年
闵惜琳;;[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
赵金鑫;许宝杰;;[A];第八届全国设备与维修工程学术会议、第十三届全国设备监测与诊断学术会议论文集[C];2008年
刘永清;刘泉宝;蔡广基;;[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(上册)[C];1995年
赵林度;陈斐松;陈天滋;;[A];1995中国控制与决策学术年会论文集[C];1995年
中国重要报纸全文数据库
胡性慧 王唯赫 杨腾;[N];中国知识产权报;2010年
张东方;沙明;杨松松;[N];中国医药报;2003年
本报记者 靖九江 采写;[N];中国医药报;2005年
苑希民(中国水利水电科学研究院决策支持技术研究室 主任) 李彦彬 徐建新(华北水利水电学院) 李鸿雁(北京理工大学管理与经济学院) 苑韶峰 吕军(浙江大学环境与资源学院);[N];中国水利报;2005年
葛一鸣 路边文;[N];中国纺织报;2003年
本报记者 范毅波 张旭军;[N];网络世界;2005年
记者靖九江;[N];中国医药报;2005年
中国博士学位论文全文数据库
刘永阔;[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库
董添文;[D];内蒙古工业大学;2005年
孙立春;[D];西安建筑科技大学;2007年
 订购知网充值卡

同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务


事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A

对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别

1、假设现在有样本x=(a1,a2,a3,…an)这个待分类项(并认为x里面的特征独立)

[4]. 、Linux、数据库、运维等。传播计算机学习经验、推荐计算机优秀资源:点击前往《》

点击阅读原文,了解野狗

我要回帖

更多关于 算法在收敛过程中误差起伏大 的文章

 

随机推荐