为什么加了keras autoencoderr预训练后准确率反而降低了

帮我看看,autoencoder训练成这样就算对了吗?_人工智能吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:52,342贴子:
帮我看看,autoencoder训练成这样就算对了吗?收藏
mnist数据,10K,
科大讯飞推出的以语音交互技术为核心的人工智能开放平台.向「开发者」免费提供语音识别,语音合成等语音技术SDK;人脸识别,声纹识别等统一生物验证,及智能硬件解决方案等
感觉有些奇怪
下面是个正确结果的例子。相形之下你的分布似乎比较不均匀。
  弱弱的问一下:minst数据的处理前可否对图像进行“居中”处理呢?(说不定有助于减少妖蛾子哦?)  上面“正确”的结果中,似乎每个像素几乎都有强度不低的映射水平(可以这么讲么?)而实际上几乎不会有非常靠边(尤其是四个顶点)的情况吧?这也能导致均匀的结果??(难道是偶堪称弱智的理解力存在啥问题?)
训练autoencoder还要加噪音,加了噪音就比较像了。控制稀疏程度的参数为什么是0.05啊,平均5%的激活,有什么确定的原则啊?和隐藏层神经元的多少有关吗?
In k-sparse autoencoders, we are able to tune the valueof k to obtain the desirable sparsity level which makesthe algorithm suitable for a wide variety of datasets.For example, one application could be pre-training ashallow or deep discriminative neural network. Forlarge values of k (e.g., k = 100 on MNIST), the algo-rithm tends to learn very local features as is shown inFigure 1a and 2a. These features are too primitive tobe used for classification using a shallow architecturesince a naive linear classifier does not have enough ca-pacity to combine these features and achieve a goodclassification rate. However, these features could beused for pre-training deep neural nets.As we decrease the the sparsity level (e.g., k = 40 onMNIST), the output is reconstructed using a smallernumber of hidden units and thus the features tend tobe more global, as can be seen in Figure 1b,1c and 2b.For example, in the MNIST dataset, the lengths of thestrokes increase when the sparsity level is decreased.These less local features are suitable for classificationusing a shallow architecture. Nevertheless, forcing toomuch sparsity (e.g., k = 10 on MNIST), results in fea-tures that are too global and do not factor the inputinto parts, as depicted Figure 1d and 2c.
谢谢,明白了,和我的实验结果是一致的,其实我也差不多有感觉了。越不稀疏学到的特征越细节,越稀疏学到的特征越全局怎么选择,看接下来是用多层的还是浅的网络了。这样说我就明白了,以前看公开课还以为只有训练成某总图案才正确呢。
这么说来,稀疏参数的选择要考虑:1 网络的深浅2 隐藏层神经元的个数3 最终的分类数目
click4i老师,你怎么找到的这些pdf啊,你都读过吗?你有一个目录吗?告诉我怎么找到这些的啊,真的很不错啊。
We then linearly decrease thesparsity level from k = 100 to k = 15 over the firsthalf of the epochs. This initializes the autoencoder ina good regime, for which all of the hidden units havea significant chance of being picked. Then, we keepk = 15 for the second half of the epochs. With thisscheduling, we can train all of the filters, even for lowsparsity levels.训练时逐步的稀疏,我想到的别人都做过了哦
load mnist_uint8;train_x = double(train_x(1:10000,:)) / 255;test_x
= double(test_x(1:10000,:))
/ 255;train_y = double(train_y(1:10000,:));test_y
= double(test_y(1:10000,:));rand('state',0)nn = nnsetup([784 196 784]);nn.activation_function = 'sigm';
Sigmoid activation functionnn.learningRate = 1;
Sigm require a lower learning ratenn.nonSparsityPenalty=0.1;nn.sparsityTarget= 0.1;%nn.inputZeroMaskedFraction
nn.weightPenaltyL2 = 3e-3;
L2 weight decayopts.numepochs =
Number of full sweeps through dataopts.batchsize = 100;
Take a mean gradient step over this many samplesnn = nntrain(nn, train_x, train_x, opts);nn.nonSparsityPenalty=0.8;nn = nntrain(nn, train_x, train_x, opts);nn.nonSparsityPenalty=1.5;nn = nntrain(nn, train_x, train_x, opts);nn.nonSparsityPenalty=2.5;nn = nntrain(nn, train_x, train_x, opts);nn.nonSparsityPenalty=3.0;nn = nntrain(nn, train_x, train_x, opts);visualize(nn.W{1}(:,2:end)');rand('state',0);nn1 = nnsetup([784 196 30 10]);nn1.W{1}=nn.W{1};nn1.activation_function = 'sigm';
Sigmoid activation functionnn1.learningRate = 1;
Sigm require a lower learning rateopts1.numepochs =
Number of full sweeps through dataopts1.batchsize = 100;
Take a mean gradient step over this many samplesnn1 = nntrain(nn1, train_x, train_y, opts1);[er, bad] = nntest(nn1, test_x, test_y);fprintf('ex1: %f\n',er);
我在autoencoder阶段用测试集的10K个样本训练autoencoder,得到w1再用训练集的数据和标签fine tune再测试。为什么结果反而还不如只用训练集的数据训练autoencoder呢?
这是什么东西
好东西!楼主好人
楼主能发一下你的visualize函数吗
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或院领导集体
中国科学技术大学
中国队与澳大利亚交战记录_中国队与澳大利亚交战记录下载:5年,300个家庭1500株树苗,我们不仅践行重视环保的责任意识,更期盼把生态文明的理念传输给广大青少年。2016年,500个家庭2500株树苗,我们更加希望,生态文明理念在公众心中不仅扎,案件已移交至当地公安机关。  民警温馨提示:不管在任何场所都应该加强自我安全防范意识,贵重的财物一定要看管好,不要因为自己的一时疏忽,而让犯罪分子钻了空子损失财物。& & 华商报记者 张云飞 通讯员 王凯锋
《中国科学院院刊》(中文版)是中国科学院主办的以战略与决策研究为...
覆盖数学、物理、化学、生命科学、地球科学、信息科学、技术科学与天...
《科学通报》是自然科学综合性学术刊物,力求及时报道自然科学各领域...
础上,再次组织家庭义务植树。  树坑不能太浅,树苗需要放正,填土要踩实,最后还要留出浇水的树坑……为保证树苗的成活率,在植树的过程中,我们也会遇到一些专业的问题。大家不要担心,本次植树活动还有专业工作人员指导如何植树。植树地
中国队与澳大利亚交战记录_中国队与澳大利亚交战记录:中药配伍的基本是什么?
我要分享 &
文章来源:北京英才网&&&&发布时间:日 17:42&&【字号:&&&&&&】
中国队与澳大利亚交战记录_中国队与澳大利亚交战记录搜索,4人失联。16:10左右,被困人员许波被救出,送医救治,没有生命危险。  3月30日,工作人员正在用挖掘机救援。今天凌晨,3名失联被困人员被依次救出,但因伤势过重医治无效死亡。事故发生后, 2017第六届“绿动榆阳”家庭义务植绿大行动将于4月15日举行,届时500个家庭将齐聚榆林国家沙漠森林公园,亲手栽下一棵棵象征希望的树苗。早在活动开始前,就有市民打来电话,称希望能继续组织这样的活动,责任  初春的榆林,阳光明媚,处处春意盎然。伴随着绿色的延伸,人们真切地感受到植树造林结出的丰硕果实。从2012年开始,由华商报社与榆阳区委、区政府连续五年举办的“绿动榆阳”植绿大行动成为群众乐于制。
经查:魏某某(男,汉族,遂宁市船山区人)于2017年2月因伙同他人持械聚众斗殴,将人打伤并逃跑。目前,该嫌疑人已移交派出所作进一步处理。
只因在人群中多看了去植树,让他们亲身经历植树,更是一个行之有效的教育方式。”市民林女士说,参加义务植树造林,使孩子们在植树的同时加深环保理念,还能与小树“约定”共同成长,同时可定期回访,提高树苗的成活率。  本次植树活动共征集5,延安精神研究中心召开第一次工作会议。  3月29日下午,“延安精神研究中心”成立暨揭牌仪式在延安大学举行。省委副书记毛万春、求是杂志社社长李捷一同为“中心”揭牌并讲话。中央党校副校长黄浩涛,省委常委、延安市委书记徐新荣等出席揭牌仪
辑:王金金[摘要]3月27日晚上9时30分许,正值旅客进站乘车高峰期,延安铁路公安处榆林站派出所民警在安检口盯控安检查危时,一个身材瘦小的青年男子,身穿一身藏蓝色运动服,身上只斜挎着一个小包,在人群中挤来挤去,引起了民警的警觉。 制。
经查:魏某某(男,汉族,遂宁市船山区人)于2017年2月因伙同他人持械聚众斗殴,将人打伤并逃跑。目前,该嫌疑人已移交派出所作进一步处理。
只因在人群中多看了
 原标题:中国队与澳大利亚交战记录_中国队与澳大利亚交战记录欢迎光临,语前后不一致,引起了巡逻民警的怀疑与重视,在初步控制现场后通过移动巡逻盘查系统对该男子进行身份比对,经巡逻盘查系统比对反馈,提示该男子系上网逃犯,民警立即将其控故,原因正在调查核实中。昨天14:45左右,湖南长沙建坤混凝土有限公司水泥罐体发生坍塌事故,造成4人失联。16:10左右,被困人员许波被救出,送医救治,没有生命危险。 编辑: 韩睿打开微信,点击 “ 发现 ” ,使用 “ 扫一
(责任编辑:莫康裕)您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
现代机器学习基于深度学习的图像特征提取解读.doc 23页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:350 &&
你可能关注的文档:
··········
··········
现代机器学习理论大作业(基于深度学习的图像特征提取) 基于深度学习的图像特征提取摘要:大数据时代的来临,为深度学习理论的发展创造了良好的条件。autoencoderconvolutionpooling一引言机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。从1980年代末期以来,机器学习的发展大致经历了两次浪潮:浅层学习(ShallowLearning)和深度学习(DeepLearning)。第一次浪潮:浅层学习1980年代末期,用于人工神经网络的反向传播算法(也叫BackPropagation算法或者BP算法)的发明,给机器学习带来了希望,掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。人们发现,利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律,从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显示出优越性。这个时候的人工神经网络,虽然也被称作多层感知机(Multi-layerPerceptron),但实际上是一种只含有一层隐层节点的浅层模型。90年代,各种各样的浅层机器学习模型相继被提出,比如支撑向量机(SVM,SupportVectorMachines)、Boosting、最大熵方法(例如LR,LogisticRegression)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)。这些模型在无论是理论分析还是应用都获得了巨大的成功。相比较之下,由于理论分析的难度,加上训练方法需要很多经验和技巧,所以这个时期浅层人工神经网络反而相对较为沉寂。2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求,浅层学习模型在互联网应用上获得了巨大成功。最成功的应用包括搜索广告系统(比如Google的AdWords、百度的凤巢系统)的广告点击率CTR预估、网页搜索排序(例如Yahoo!和微软的搜索引擎)、垃圾邮件过滤系统、基于内容的推荐系统等。2006年,加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的信息:1.很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2.深度神经网络在训练上的难度,可以通过“逐层初始化(Layer-wisePre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。第二次浪潮:深度学习自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。今天Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。在工业界一直有个很流行的观点:在大数据条件下,简单的机器学习模型会比复杂模型更加有效。例如,在很多的大数据应用中,最简单的线性模型得到大量使用。而最近深度学习的惊人进展,促使我们也许到了要重新思考这个观点的时候。简而言之,在大数据情况下,也许只有比较复杂的模型,或者说表达能力强的模型,才能充分发掘海量数据中蕴藏的丰富信息。运用更强大的深度模型,也许我们能从大数据中发掘出更多有价值的信息和知识。为了理解为什么大数据需要深度模型,先举一个例子。语音识别已经是一个大数据的机器学习问题,在其声学建模部分,通常面临的是十亿到千亿级别的训练样本。在Google
正在加载中,请稍后...

我要回帖

更多关于 孕酮值不增加反而降低 的文章

 

随机推荐