为什么稀疏自编码器 python很少见到多层的

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>硬件 >>为什么稀疏自编码器 python很少见到多层的

为什么稀疏自编码器 python很少见到多层的

来源：蜘蛛抓取(WebSpider) 时间：2017-10-12 05:26 标签：稀疏编码器

Andrew Ng 的视频和资料也好，还是网上的资料和代码，以及书上的内容，我很少见到稀疏自编码器是多层的结构一般都是{N,m,N}的三层结构（一层是隐层，输入输出各一层）为什么很少见到例如{N,m,k,m,N}这种5层的结构的Auto Encoder？是没有必要吗？还是有别的原因（比如破坏稀疏性）？
自从Hinton 2006年的工作之后，越来越多的研究者开始关注各种自编码器模型相应的堆叠模型。实际上，自编码器（Auto-Encoder）是一个较早的概念了，比如Hinton等人在年的工作。（说来说去都是这些人呐。。。）
自编码器简介
先暂且不谈神经网络、深度学习，仅是自编码器的话，其原理很简单。自编码器可以理解为一个试图去还原其原始输入的系统。如下图所示。
图中，虚线蓝色框内就是一个自编码器模型，它由编码器（Encoder）和解码器（Decoder）两部分组成，本质上都是对输入信号做某种变换。编码器将输入信号x变换成编码信号y，而解码器将编码y转换成输出信号。即
=g(y)=g(f(x))
而自编码器的目的是，让输出尽可能复现输入x，即tries to copy its input to its output。但是，这样问题就来了——如果f和g都是恒等映射，那不就恒有=x了？不错，确实如此，但这样的变换——没有任何卵用啊！因此，我们经常对中间信号y（也叫作“编码”）做一定的约束，这样，系统往往能学出很有趣的编码变换f和编码y。
这里强调一点，对于自编码器，我们往往并不关系输出是啥（反正只是复现输入），我们真正关心的是中间层的编码，或者说是从输入到编码的映射。可以这么想，在我们强迫编码y和输入x不同的情况下，系统还能够去复原原始信号x，那么说明编码y已经承载了原始数据的所有信息，但以一种不同的形式！这就是特征提取啊，而且是自动学出来的！实际上，自动学习原始数据的特征表达也是神经网络和深度学习的核心目的之一。
为了更好的理解自编码器，下面结合神经网络加以介绍。
自编码器与神经网络
神经网络的知识不再详细介绍，相信了解自编码器的读者或多或少会了解一些。简单来讲，神经网络就是在对原始信号逐层地做非线性变换，如下图所示。
该网络把输入层数据x∈Rn转换到中间层（隐层）h∈Rp，再转换到输出层y∈Rm。图中的每个节点代表数据的一个维度（偏置项图中未标出）。每两层之间的变换都是“线性变化”+“非线性激活”，用公式表示即为
h=f(W(1)x+b(1))
y=f(W(2)h+b(2))
神经网络往往用于分类，其目的是去逼近从输入层到输出层的变换函数。因此，我们会定义一个目标函数来衡量当前的输出和真实结果的差异，利用该函数去逐步调整（如梯度下降）系统的参数（W(1),b(1),W(2),b(2)），以使得整个网络尽可能去拟合训练数据。如果有正则约束的话，还同时要求模型尽量简单（防止过拟合）。
那么，自编码器怎么表示呢？前面已说过，自编码器试图复现其原始输入，因此，在训练中，网络中的输出应与输入相同，即y=x，因此，一个自编码器的输入、输出应有相同的结构，即
我们利用训练数据训练这个网络，等训练结束后，这个网络即学习出了x→h→x的能力。对我们来说，此时的h是至关重要的，因为它是在尽量不损失信息量的情况下，对原始数据的另一种表达。结合神经网络的惯例，我们再将自编码器的公式表示如下：（假设激活函数是sigmoid，用s表示）
y=fθ(x)=s(Wx+b)
=gθ′(y)=s(W′y+b′)
L(x,）=L(x,g(f(x)))
其中，L表示损失函数，结合数据的不同形式，可以是二次误差（squared error loss）或交叉熵误差（cross entropy loss）。如果，一般称为tied weights。
为了尽量学到有意义的表达，我们会给隐层加入一定的约束。从数据维度来看，常见以下两种情况：
堆叠自编码器
有过深度学习基础的童鞋想必了解，深层网络的威力在于其能够逐层地学习原始数据的多种表达。每一层的都以底一层的表达为基础，但往往更抽象，更加适合复杂的分类等任务。
堆叠自编码器实际上就在做这样的事情，如前所述，单个自编码器通过虚构x→h→x的三层网络，能够学习出一种特征变化h=fθ(x)（这里用θ表示变换的参数，包括W,b和激活函数）。实际上，当训练结束后，输出层已经没什么意义了，我们一般将其去掉，即将自编码器表示为
之前之所以将自编码器模型表示为3层的神经网络，那是因为训练的需要，我们将原始数据作为假想的目标输出，以此构建监督误差来训练整个网络。等训练结束后，输出层就可以去掉了，我们关心的只是从x到h的变换。
接下来的思路就很自然了——我们已经得到特征表达h，那么我们可不可以将
h再当做原始信息，训练一个新的自编码器，得到新的特征表达呢？当然可以！这就是所谓的堆叠自编码器（Stacked Auto-Encoder, SAE）。Stacked就是逐层垒叠的意思，跟“栈”有点像。教程将其翻译为“栈式自编码”，anyway，不管怎么称呼，都是这个东东，别被花里胡哨的专业术语吓到就行。当把多个自编码器Stack起来之后，这个系统看起来就像这样：
亦可赛艇！这个系统实际上已经有点深度学习的味道了，即learning multiple levels of representation and abstraction(Hinton, Bengio, LeCun, 2015)。需要注意的是，整个网络的训练不是一蹴而就的，而是逐层进行。按题主提到的结构n,m,k结构，实际上我们是先训练网络n→m→n，得到n→m的变换，然后再训练m→k→m，得到m→k的变换。最终堆叠成SAE，即为n→m→k的结果，整个过程就像一层层往上盖房子，这便是大名鼎鼎的layer-wise
unsuperwised pre-training（逐层非监督预训练），正是导致深度学习（神经网络）在2006年第3次兴起的核心技术。
关于逐层预训练与深度学习，将在本文最后探讨。
自编码器的变种形式
上述介绍的自编码器是最基本的形式。善于思考的童鞋可能已经意识到了这个问题：隐层的维度到底怎么确定？为什么稀疏的特征比较好？或者更准确的说，怎么才能称得上是一个好的表达（What defines a good representation）？
事实上，这个问题回答并不唯一，也正是从不同的角度去思考这个问题，导致了自编码器的各种变种形式出现。目前常见的几种模型总结如下（有些术语实在不好翻译，看英文就好。。。）
下面简介下其中两种模型，以对这些变种模型有个直观感受。
稀疏自编码器
对该模型有着比较详细的介绍。如前所示，这种模型背后的思想是，高维而稀疏的表达是好的。一般而言，我们不会指定隐层表达h中哪些节点是被抑制的（对于sigmoid单元即输出为0），而是指定一个稀疏性参数ρ，代表隐藏神经元的平均活跃程度（在训练集上取平均）。比如，当ρ=0.05时，可以认为隐层节点在95%的时间里都是被一直的，只有5%的机会被激活。实际上，为了满足这一条件，隐层神经元的活跃度需要接近于0。
那么，怎么从数学模型上做到这点呢？思路也不复杂，既然要求平均激活度为ρ，那么只要引入一个度量，来衡量神经元ii的实际激活度与期望激活度ρ之间的差异即可，然后将这个度量添加到目标函数作为正则，训练整个网络即可。那么，什么样的度量适合这个任务呢？有过概率论、信息论基础的同学应该很容易想到它——相对熵，也就是KL散度（KL
divergence）。因此，整个网络所添加的惩罚项即为
具体的公式不再展开，可以从下图（摘自UFLDL）中直观理解KL散度作为惩罚项的含义。图中假设平均激活度ρ=0.2。
可以看出，当^ρiρ^i一旦偏离期望激活度ρρ，这种误差便急剧增大，从而作为惩罚项添加到目标函数，指导整个网络学习出稀疏的特征表达。
降噪自编码器
关于降噪自编码器，强烈推荐其作者Pascal Vincent的论文Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion。DAE的核心思想是，一个能够从中恢复出原始信号的表达未必是最好的，能够对“被污染/破坏”的原始数据编码、解码，然后还能恢复真正的原始数据，这样的特征才是好的。
稍微数学一点，假设原始数据x被我们“故意破坏”，比如加入高斯白噪，或者把某些维度数据抹掉，变成了，然后再对编码、解码，得到恢复信号，该恢复信号尽可能逼近未被污染的数据xx。此时，监督训练的误差从L(x,g(f(x)))变成了L(x,g(f()))。
直观上理解，DAE希望学到的特征变换尽可能鲁棒，能够在一定程度上对抗原始数据的污染、缺失。Vincent论文里也对DAE提出了基于流行的解释，并且在图像数据上进行测试，发现DAE能够学出类似Gabor边缘提取的特征变换。注意，这一切都是在我们定义好规则、误差后，系统自动学出来的！从而避免了领域专家费尽心力去设计这些性能良好的特征。
DAE的系统结构如下图（摘自Vincent论文）所示。
现在使用比较多的noise主要是mask noise，即原始数据中部分数据缺失，这是有着很强的实际意义的，比如图像部分像素被遮挡、文本因记录原因漏掉了一些单词等等。
其他的模型就不再展开了，总之，每遇到一个自编码器的一个变种模型时，搞清楚其背后的思想（什么样的表达才是好的），就很容易掌握了。套用V的”Behind this mask is a man, and behind this man is an idea, and ideas are bulletproof”，我们可以说，”Behind this auto-encoder is a model, and behind this model is an idea, and ideas are bulletproof”。
关于预训练与深度学习
深度学习第3次兴起正式因为逐层预训练方法的提出，使得深度网络的训练成为可能。对于一个深度网络，这种逐层预训练的方法，正是前面介绍的这种Stacked Auto-Encoder。对于常见的分类任务，一般分为以下两个阶段：
注意到，前述的各种SAE，本质上都是非监督学习，SAE各层的输出都是原始数据的不同表达。对于分类任务，往往在SAE顶端再添加一分类层（如Softmax层），并结合有标注的训练数据，在误差函数的指导下，对系统的参数进行微调，以使得整个网络能够完成所需的分类任务。
对于微调过程，即可以只调整分类层的参数（此时相当于把整个SAE当做一个feature extractor），也可以调整整个网络的参数（适合训练数据量比较大的情况）。
题主提到，为什么训练稀疏自编码器为什么一般都是3层的结构，实际上这里的3层是指训练单个自编码器所假想的3层神经网络，这对任何基于神经网络的编码器都是如此。多层的稀疏自编码器自然是有的，只不过是通过layer-wise pre-training这种方式逐层垒叠起来的，而不是直接去训练一个5层或是更多层的网络。
为什么要这样？实际上，这正是在训练深层神经网络中遇到的问题。直接去训练一个深层的自编码器，其实本质上就是在做深度网络的训练，由于梯度扩散等问题，这样的网络往往根本无法训练。这倒不是因为会破坏稀疏性等原因，只要网络能够训练，对模型施加的约束总能得到相应的结果。
但为什么逐层预训练就可以使得深度网络的训练成为可能了呢？有不少文章也做过这方面的研究。一个直观的解释是，预训练好的网络在一定程度上拟合了训练数据的结构，这使得整个网络的初始值是在一个合适的状态，便于有监督阶段加快迭代收敛。
笔者曾经基于 MNIST数据集，尝试了一个9层的网络完成分类任务。当随机初始化时，误差传到底层几乎全为0，根本无法训练。但采用逐层预训练的方法，训练好每两层之间的自编码变换，将其参数作为系统初始值，然后网络在有监督阶段就能比较稳定的迭代了。
当然，有不少研究提出了很好的初始化策略，再加上现在常用的dropout、ReLU，直接去训练一个深层网络已经不是问题。这是否意味着这种逐层预训练的方式已经过时了呢？这里，我想采用下Bengio先生2015年的一段话作为回答：
Stacks of unsupervised feature learning layers are STILL useful when you are in a regime with insufficient labeled examples, for transfer learning or domain adaptation. It is a regularizer. But when the number of labeled examples becomes large enough, the advantage
of that regularizer becomes much less. I suspect however that this story is far from ended! There are other ways besides pre-training of combining supervised and unsupervised learning, and I believe that we still have a lot to improve in terms of our unsupervised
learning algorithms.
最后，多说一句，除了AE和SAE这种逐层预训练的方式外，还有另外一条类似的主线，即限制玻尔兹曼机（RBM）与深度信念网络（DBN）。这些模型在神经网络/深度学习框架中的位置，可以简要总结为下图。
订正：感谢＠指正，RBM堆叠起来是Deep Boltzmann Machines, 再加一个分类器才是DBN，供阅读上图时参考。
相关学习资料推荐
【非常高兴看到大家喜欢并赞同我们的回答。应许多知友的建议，最近我们开通了同名公众号：PhDer，也会定期更新我们的文章，如果您不想错过我们的每篇回答，欢迎扫码关注~ 】
&(二维码自动识别)
&&o&&o&&o&
反对，不会显示你的姓名
Ivan Goodfellow, Yoshua Bengio, Aaron Courville的Deep Learning中14.3节描述了深度自编码器像其他深度神经网络一样能够指数级减少训练数据和计算资源需求。在实践中，深度自编码器比浅层自编码器有更好的压缩性能。
我们之所以很少看到深度自编码器，是因为一般训练深度自编码器的方法是采取贪心策略，逐层训练浅层自编码器。
本文已收录于以下专栏：
相关文章推荐
自编码器是一种无监督机器学习算法，通过计算自编码的输出与原输入的误差，不断调节自编码器的参数，最终训练出模型。自编码器可以用于压缩输入信息，提取有用的输入特征。如,[1,0,0,0],[0,1,0,0...
一个新的系列，来自于斯坦福德深度学习在线课程：http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial。本文梳理了该教程第一...
01 自编码器# 《TensorFlow实战》04 TensorFlow实现自编码器及多层感知机
# win10 Tensorflow1.0.1 python3.5.3
# CUDA v8.0 cud...
本文是笔者深度学习笔记稀疏自编码器部分的第二篇，详细记录了用梯度下降法求解神经网络的思路和过程，其中的重点是反向传导算法。
注：最近打算将UFLDL教程重新看一遍，其实里面有很多关于神经网络以及深度学习的知识点很有用，但是只是学习深度学习的话有一些内容就有点多余，所以想整理一个笔记，记录下神经网络到深度学习的一些知识点。整...
他的最新文章
讲师：王哲涵
讲师：韦玮
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)一个新的系列，来自于斯坦福德深度学习在线课程：http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial。本文梳理了该教程第一部分的内容，主要包括人工神经网络入门、反向传递算法、梯度检验与高级优化和自编码算法与稀疏性等要点。最后以课程作业作为总结和练习。
斯坦福深度学习在线课程是 Andrew Ng 编制的，该教程以深度学习中的重要概念为线索，基本勾勒出了深度学习的框架。为了简明扼要，该教程几乎省略了数学推导和证明过程。我写这个系列不追求概念的讲解，因为教程已经解释的很清楚了，我的目标是把教程所省略的一些关键的数学推导给出来。因为数学原理是深入理解算法模型所绕不过去的，其次，几篇博客也是我的课程笔记，留作以后查阅使用。
综上，如果您已经阅读了对应的教程并理解了主要概念，这一系列能帮您查漏补缺深化理解，否则您会觉得文章的逻辑不连贯。
人工神经网络
人工神经网络的“学习”原理很简单：
每层都有若干个节点，每个节点就好比一个神经元（neuron），它与上一层的每个节点都保持着连接，且它的输入是上一层每个节点输出的线性组合。每个节点的输出是其输入的函数，把这个函数叫激活函数（activation function）。人工神经网络通过“学习”不断优化那些线性组合的参数，它就越有能力完成人类希望它完成的目标。
除了输入层（第1层）以外，第&l +1&层第&i&个节点的输入为：
其中是第&l&层的节点数。
第&l +1&层第 i 个节点的输出为：
当&l&=1 时：
函数 &f& 就是激活函数。激活函数最常用的有两种：
sigmoid 函数
双曲正切函数
它们的函数曲线类似，都在（-∞，+∞）上单调递增：
sigmoid 函数值域为（0, 1）；而双曲正切函数的值域为（-1，1）。
对人工神经网络进行训练，就是为了得到最优的线性组合参数：
其中是网络的总层数。
给定&m&个训练数据：
要用这些数据训练人工神经网络，使它能够对新的输入数据做正确的分类或拟合，首先要保证它在已有的数据上有足够高的正确率。
使用代价函数（Cost Function）来衡量人工神经网络在已有数据上所犯错误的大小：
注意，代价方程有多种形式，只要能反映预测误差即可。
对于单条数据，其代价方程为：
可见总代价方程是每条数据代价方程的算术平均。
在优化时，代价方程还会加上一个规则化项，其目的是减小权重的幅度，防止过度拟合：
反向传播算法
反向传播算法从输出层开始，反向计算每个节点的残差，并用这些残差计算代价方程对每一个参数的偏导数。
反向传播算法的数学推导过程我在&&文章里已经详细给出，这里在给出一个简洁版本。
对于一个样例&：
将公式向量化：
对于整个样本集：
自编码算法与稀疏性
自编码器要求输出尽可能等于输入，并且它的隐藏层必须满足一定的稀疏性，即隐藏层不能携带太多信息。所以隐藏层对输入进行了压缩，并在输出层中解压缩。整个过程肯定会丢失信息，但训练能够使丢失的信息尽量少。
为了保证隐藏层的稀疏性，自动编码器的代价方程加入了一个稀疏性惩罚项：
因为代价方程多了一项，所以梯度的表达式也有变化：
稀疏性惩罚项只需要第 1 层参数参与计算，令
可视化自动编码器的训练结果
训练完（稀疏）自编码器，我们还想把这自编码器学到的函数可视化出来，好弄明白它到底学到了什么。
什么样的输入&x&可让&&得到最大程度的激励？
假设输入有范数约束：
要使&&最大，只需要使
最大即可，因为&f&是单调递增函数（此处忽略了截距项），令其为表达式（1）。
使（1）取得最大值的&x&&一定满足：
因为超平面的最值一定在闭合区域的边界上取得。
把（1）改写成：
表达式（1）可重写为：
这是两个模为1的向量的内积乘以一个常数，当两个向量重合时它取到最值，即：
最值为：
我会随着文章一起逐次将代码上传到&，本部分最重要的代码就是代价方程和梯度的计算（sparseAutoencoderCost.m）。
在 MATLAB 命令行界面输入：
执行结果：
训练结果可视化：
本文已收录于以下专栏：
相关文章推荐
自编码器是一种无监督机器学习算法，通过计算自编码的输出与原输入的误差，不断调节自编码器的参数，最终训练出模型。自编码器可以用于压缩输入信息，提取有用的输入特征。如,[1,0,0,0],[0,1,0,0...
Andrew Ng 的视频和资料也好，还是网上的资料和代码，以及书上的内容，我很少见到稀疏自编码器是多层的结构一般都是{N,m,N}的三层结构（一层是隐层，输入输出各一层）为什么很少见到例如{N,m,...
9.1、AutoEncoder自动编码器
        Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，...
可视化自编码器训练结果
训练完（稀疏）自编码器，我们还想把这自编码器学到的函数可视化出来，好弄明白它到底学到了什么。我们以在10×10图像（即n=100）上训练自编码器为例。在该自编码器中，每个隐藏...
UFLDL练习后面的参考链接都是
http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B
本文属于学习文章，非商业用途。...
　　这节课来学习下Deep learning领域比较出名的一类算法——sparse autoencoder，即稀疏模式的自动编码。我们知道，deep learning也叫做unsupervi...
在之前的博文中，我总结了神经网络的大致结构，以及算法的求解过程，其中我们提高神经网络主要分为监督型和非监督型，在这篇博文我总结下一种比较实用的非监督神经网络——稀疏自编码（Sparse
实验要求可以参考deeplearning的tutorial，Exercise:Sparse Autoencoder
。稀疏自动编码的原理可以参照之前的博文，神经网络， 
稀疏自动编码   。
1.介绍在自动编码器一文中，我们已经简单介绍了基于隐藏神经元数量较小的假设，本文主要基于隐藏神经元数量较大的假设。此时，我们仍然通过给自编码神经网络施加一些其他的限制条件来发现输入数据中的结构。比如我...
在模型汇总-9&部分，详细讲解了与VAE有关的基础知识，涉及LVM、MAP、EM、MCMC、Variational
Inference（VI），可以通过公众号往期内容查看。有了这些知识的铺垫，今天...
他的最新文章
讲师：王哲涵
讲师：韦玮
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)邹晓艺专栏 | Deep Learning系列笔记（四）：自动编码器和稀疏编码 - 知乎专栏
{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"contributes":[],"title":"邹晓艺专栏 | Deep Learning系列笔记（四）：自动编码器和稀疏编码","author":"linkspark","content":"本文转载自CSDN博客 zouxy09专栏原文链接：目录：一、概述二、背景三、人脑视觉机理四、关于特征
4.1、特征表示的粒度
4.2、初级（浅层）特征表示
4.3、结构性特征表示
4.4、需要有多少个特征？五、Deep Learning的基本思想六、浅层学习（Shallow Learning）和深度学习（Deep Learning）七、Deep learning与Neural Network八、Deep learning训练过程
8.1、传统神经网络的训练方法
8.2、deep learning训练过程九、Deep Learning的常用模型或者方法
9.1、AutoEncoder自动编码器 9.2、Sparse Coding稀疏编码
9.3、Restricted Boltzmann Machine(RBM)限制波尔兹曼机
9.4、Deep BeliefNetworks深信度网络
9.5、Convolutional Neural Networks卷积神经网络十、总结与展望十一、参考文献和Deep Learning学习资源八、Deep learning训练过程8.1、传统神经网络的训练方法为什么不能用在深度神经网络BP算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练方法就已经很不理想。深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。BP算法存在的问题：1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小；2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习；8.2、deep learning训练过程如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深度网络的神经元和参数太多了）。2006年，hinton提出了在非监督数据上建立多层神经网络的一个有效方法，简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是：1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。2）当所有层训练完后，Hinton使用wake-sleep算法进行调优。将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒（wake）和睡（sleep）两个部分。1）wake阶段：认知过程，通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。也就是“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”。2）sleep阶段：生成过程，通过顶层表示（醒时学得的概念）和向下权重，生成底层的状态，同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”。deep learning训练过程具体如下：1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）：采用无标，这一步可以看作是一个无监督训练过程，是和传统神经网定数据（有标定数据也可）分层训练各层参数络区别最大的部分（这个过程可以看作是feature learning过程）：具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）：基于第一步得到的各层参数进一步fine-tune整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deep learning效果好很大程度上归功于第一步的feature learning过程。九、Deep Learning的常用模型或者方法9.1、AutoEncoder自动编码器Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入I的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分。具体过程简单的说明如下：（1）给定无标签数据，用非监督学习学习特征：在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即（input, target），这样我们根据当前输出和target（label）之间的差去改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边的图。那么这个误差怎么得到呢？如上图，我们将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，那么我们怎么知道这个code表示的就是input呢？我们加一个decoder解码器，这时候decoder就会输出一个信息，那么如果输出的这个信息和一开始的输入信号input是很像的（理想情况下就是一样的），那很明显，我们就有理由相信这个code是靠谱的。所以，我们就通过调整encoder和decoder的参数，使得重构误差最小，这时候我们就得到了输入input信号的第一个表示了，也就是编码code了。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。（2）通过编码器产生特征，然后训练下一层。这样逐层训练：那上面我们就得到第一层的code，我们的重构误差最小让我们相信这个code就是原输入信号的良好表达了，或者牵强点说，它和原信号是一模一样的（表达不一样，反映的是一个东西）。那第二层和第一层的训练方式就没有差别了，我们将第一层输出的code当成第二层的输入信号，同样最小化重构误差，就会得到第二层的参数，并且得到第二层输入的code，也就是原输入信息的第二个表达了。其他层就同样的方法炮制就行了（训练这一层，前面层的参数都是固定的，并且他们的decoder已经没用了，都不需要了）。（3）有监督微调：经过上面的方法，我们就可以得到很多层了。至于需要多少层（或者深度需要多少，这个目前本身就没有一个科学的评价方法）需要自己试验调了。每一层都会得到原始输入的不同的表达。当然了，我们觉得它是越抽象越好了，就像人的视觉系统一样。到这里，这个AutoEncoder还不能用来分类数据，因为它还没有学习如何去连结一个输入和一个类。它只是学会了如何去重构或者复现它的输入而已。或者说，它只是学习获得了一个可以良好代表输入的特征，这个特征可以最大程度上代表原输入信号。那么，为了实现分类，我们就可以在AutoEncoder的最顶的编码层添加一个分类器（例如罗杰斯特回归、SVM等），然后通过标准的多层神经网络的监督训练方法（梯度下降法）去训练。也就是说，这时候，我们需要将最后层的特征code输入到最后的分类器，通过有标签样本，通过监督学习进行微调，这也分两种，一个是只调整分类器（黑色部分）：另一种：通过有标签样本，微调整个系统：（如果有足够多的数据，这个是最好的。end-to-end learning端对端学习）一旦监督训练完成，这个网络就可以用来分类了。神经网络的最顶层可以作为一个线性分类器，然后我们可以用一个更好性能的分类器去取代它。在研究中可以发现，如果在原有的特征中加入这些自动学习得到的特征可以大大提高精确度，甚至在分类问题中比目前最好的分类算法效果还要好！AutoEncoder存在一些变体，这里简要介绍下两个：Sparse AutoEncoder稀疏自动编码器：当然，我们还可以继续加上一些约束条件得到新的Deep Learning方法，如：如果在AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0，这就是Sparse名字的来源），我们就可以得到Sparse AutoEncoder法。如上图，其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效（人脑好像也是这样的，某个输入只是刺激某些神经元，其他的大部分的神经元是受到抑制的）。Denoising AutoEncoders降噪自动编码器：降噪自动编码器DA是在自动编码器的基础上，训练数据加入噪声，所以自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此，这就迫使编码器去学习输入信号的更加鲁棒的表达，这也是它的泛化能力比一般编码器强的原因。DA可以通过梯度下降算法去训练.9.2、Sparse Coding稀疏编码如果我们把输出必须和输入相等的限制放松，同时利用线性代数中基的概念，即O = a1*Φ1 + a2*Φ2+….+ an*Φn， Φi是基，ai是系数，我们可以得到这样一个优化问题：Min |I – O|，其中I表示输入，O表示输出。通过求解这个最优化式子，我们可以求得系数ai和基Φi，这些系数和基就是输入的另外一种近似表达。因此，它们可以用来表达输入I，这个过程也是自动学习得到的。如果我们在上述式子上加上L1的Regularity限制，得到：Min |I – O| + u*(|a1| + |a2| + … + |an |)这种方法被称为Sparse Coding。通俗的说，就是将一个信号表示为一组基的线性组合，而且要求只需要较少的几个基就可以将信号表示出来。“稀疏性”定义为：只有很少的几个非零元素或只有很少的几个远大于零的元素。要求系数 ai是稀疏的意思就是说：对于一组输入向量，我们只想有尽可能少的几个系数远大于零。选择使用具有稀疏性的分量来表示我们的输入数据是有原因的，因为绝大多数的感官数据，比如自然图像，可以被表示成少量基本元素的叠加，在图像中这些基本元素可以是面或者线。同时，比如与初级视觉皮层的类比过程也因此得到了提升（人脑有大量的神经元，但对于某些图像或者边缘只有很少的神经元兴奋，其他都处于抑制状态）。稀疏编码算法是一种无监督学习方法，它用来寻找一组“超完备”基向量来更高效地表示样本数据。虽然形如主成分分析技术（PCA）能使我们方便地找到一组“完备”基向量，但是这里我们想要做的是找到一组“超完备”基向量来表示输入向量（也就是说，基向量的个数比输入向量的维数要大）。超完备基的好处是它们能更有效地找出隐含在输入数据内部的结构与模式。然而，对于超完备基来说，系数ai不再由输入向量唯一确定。因此，在稀疏编码算法中，我们另加了一个评判标准“稀疏性”来解决因超完备而导致的退化（degeneracy）问题。（详细过程请参考：UFLDL Tutorial稀疏编码）比如在图像的Feature Extraction的最底层要做Edge Detector的生成，那么这里的工作就是从Natural Images中randomly选取一些小patch，通过这些patch生成能够描述他们的“基”，也就是右边的8*8=64个basis组成的basis，然后给定一个test patch, 我们可以按照上面的式子通过basis的线性组合得到，而sparse matrix就是a，下图中的a中有64个维度，其中非零项只有3个，故称“sparse”。这里可能大家会有疑问，为什么把底层作为Edge Detector呢？上层又是什么呢？这里做个简单解释大家就会明白，之所以是Edge Detector是因为不同方向的Edge就能够描述出整幅图像，所以不同方向的Edge自然就是图像的basis了……而上一层的basis组合的结果，上上层又是上一层的组合basis……（就是上面第四部分的时候咱们说的那样） Sparse coding分为两个部分：1）Training阶段：给定一系列的样本图片[x1, x 2, …]，我们需要学习得到一组基[Φ1, Φ2, …]，也就是字典。稀疏编码是k-means算法的变体，其训练过程也差不多（EM算法的思想：如果要优化的目标函数包含两个变量，如L(W, B)，那么我们可以先固定W，调整B使得L最小，然后再固定B，调整W使L最小，这样迭代交替，不断将L推向最小值。EM算法可以参见：“从最大似然到EM算法浅解”）。训练过程就是一个重复迭代的过程，按上面所说，我们交替的更改a和Φ使得下面这个目标函数最小。每次迭代分两步：a）固定字典Φ[k]，然后调整a[k]，使得上式，即目标函数最小（即解LASSO问题）。b）然后固定住a [k]，调整Φ [k]，使得上式，即目标函数最小（即解凸QP问题）。不断迭代，直至收敛。这样就可以得到一组可以良好表示这一系列x的基，也就是字典。2）Coding阶段：给定一个新的图片x，由上面得到的字典，通过解一个LASSO问题得到稀疏向量a。这个稀疏向量就是这个输入向量x的一个稀疏表达了。例如：相关阅读：邹晓艺专栏 | Deep Learning系列笔记（一）邹晓艺专栏 | Deep Learning系列笔记（二）：关于特征邹晓艺专栏 | Deep Learning系列笔记（三）：Deep Learning综述关注LinkSpark公众号了解更多内容！","updated":"T05:15:43.000Z","canComment":false,"commentPermission":"anyone","commentCount":1,"collapsedCount":0,"likeCount":5,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","titleImage":"/v2-3e6bab34dec53d7c12e3c22e92a2f9ad_r.jpg","links":{"comments":"/api/posts//comments"},"reviewers":[],"topics":[{"url":"/topic/","id":"","name":"深度学习（Deep Learning）"},{"url":"/topic/","id":"","name":"人工智能"},{"url":"/topic/","id":"","name":"机器学习"}],"adminClosedComment":false,"titleImageSize":{"width":564,"height":375},"href":"/api/posts/","excerptTitle":"","tipjarState":"closed","annotationAction":[],"sourceUrl":"","pageCommentsCount":1,"hasPublishingDraft":false,"snapshotUrl":"","publishedTime":"T13:15:43+08:00","url":"/p/","lastestLikers":[{"bio":"中间偏右的智者","isFollowing":false,"hash":"bf0b0ba20","uid":92,"isOrg":false,"slug":"linkerlin","isFollowed":false,"description":"","name":"Linker","profileUrl":"/people/linkerlin","avatar":{"id":"8d0be5dd1","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"脚踏实地","isFollowing":false,"hash":"4abc64ee363c","uid":135900,"isOrg":false,"slug":"con-ri","isFollowed":false,"description":"","name":"con-ri","profileUrl":"/people/con-ri","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"努力+幸运，一个阳光boy","isFollowing":false,"hash":"a02580baf3c","uid":980200,"isOrg":false,"slug":"xu-ri-chen-xing","isFollowed":false,"description":"桃李不言","name":"Chcesiezyc","profileUrl":"/people/xu-ri-chen-xing","avatar":{"id":"db2cc2b0b6d0b94a65be43","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"学生","isFollowing":false,"hash":"80dad9b6cf65ad","uid":24,"isOrg":false,"slug":"zhao-ya-83-60","isFollowed":false,"description":"","name":"赵雅","profileUrl":"/people/zhao-ya-83-60","avatar":{"id":"v2-2aa62c493cec549e5bc933","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"贝叶斯(￣?￣)","isFollowing":false,"hash":"de8c984d67a5e566c979","uid":80,"isOrg":false,"slug":"lanmaodaren","isFollowed":false,"description":"量化、健身、AI、Python、C/C++","name":"bayesLr","profileUrl":"/people/lanmaodaren","avatar":{"id":"v2-b2b87b8c6e28bd12d9976","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false}],"summary":"本文转载自CSDN博客 zouxy09专栏原文链接：目录：一、概述二、背景三、人脑视觉机理四、关于特征 4.1、特征表示的粒度 4.2、初级（浅层）特征表示 4.3、结构性特征表示 4.4、需要有多少个特征？五、Deep…","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"annotationDetail":null,"commentsCount":1,"likesCount":5,"FULLINFO":true}},"User":{"linkspark":{"isFollowed":false,"name":"LinkSpark","headline":"","avatarUrl":"/v2-d8d3b2bacc9b968e2a6a3be_s.jpg","isFollowing":false,"type":"people","slug":"linkspark","bio":"AI,人工智能资讯分享","hash":"bfddd4ddcc","uid":979500,"isOrg":false,"description":"","profileUrl":"/people/linkspark","avatar":{"id":"v2-d8d3b2bacc9b968e2a6a3be","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false,"badge":{"identity":null,"bestAnswerer":null}}},"Comment":{},"favlists":{}},"me":{},"global":{"experimentFeatures":{"ge3":"ge3_9","ge2":"ge2_1","appStoreRateDialog":"close","nwebStickySidebar":"sticky","qrcodeLogin":"qrcode","favAct":"default","default":"None","mobileQaPageProxyHeifetz":"m_qa_page_nweb","newMore":"new","iOSNewestVersion":"4.2.0","newMobileColumnAppheader":"new_header","newBuyBar":"livenewbuy3","sendZaMonitor":"true","homeUi2":"default","answerRelatedReadings":"qa_recommend_by_algo_related_with_article","wechatShareModal":"wechat_share_modal_show","liveReviewBuyBar":"live_review_buy_bar_2","qaStickySidebar":"sticky_sidebar","androidProfilePanel":"panel_b","liveStore":"ls_a2_b2_c1_f2","zcmLighting":"zcm"}},"columns":{"next":{}},"columnPosts":{},"columnSettings":{"colomnAuthor":[],"uploadAvatarDetails":"","contributeRequests":[],"contributeRequestsTotalCount":0,"inviteAuthor":""},"postComments":{},"postReviewComments":{"comments":[],"newComments":[],"hasMore":true},"favlistsByUser":{},"favlistRelations":{},"promotions":{},"switches":{"couldAddVideo":false},"draft":{"titleImage":"","titleImageSize":{},"isTitleImageFullScreen":false,"canTitleImageFullScreen":false,"title":"","titleImageUploading":false,"error":"","content":"","draftLoading":false,"globalLoading":false,"pendingVideo":{"resource":null,"error":null}},"drafts":{"draftsList":[],"next":{}},"config":{"userNotBindPhoneTipString":{}},"recommendPosts":{"articleRecommendations":[],"columnRecommendations":[]},"env":{"edition":{},"isAppView":false,"appViewConfig":{"content_padding_top":128,"content_padding_bottom":56,"content_padding_left":16,"content_padding_right":16,"title_font_size":22,"body_font_size":16,"is_dark_theme":false,"can_auto_load_image":true,"app_info":"OS=iOS"},"isApp":false},"sys":{},"message":{"newCount":0},"pushNotification":{"newCount":0}}

为什么稀疏自编码器 python很少见到多层的

我要回帖

更多关于稀疏编码器的文章

随机推荐

为什么稀疏自编码器 python很少见到多层的

我要回帖

更多关于 稀疏编码器 的文章

随机推荐

更多关于稀疏编码器的文章