怎样提高核极限学习机的测试准确率(泛化性能)

0引言随着机器学习、深度学习理論的不断发展,现代预测技术中,主要包括人工神经网络、支持向量机以及极限学习机等模型作为代表的预测方法在传统平台上都已经有着广泛的研究实践与应用传统神经网络方法一定程度上改善了基于时间序列预测模型的很多不足,但是容易出现局部最小、过度的信号迭代、過多的参数设定以及较慢的学习速度导致的较长模型训练时间等问题。极限学习机模型的优势在于,神经网络模型比较简单,而且可以灵活地處理非线性信息序列的问题,通过基于影响因素的非线性映射来预测数据[1],有效降低了网络参数计算时间,在保证预测准确率的基础上提高了模型训练时间以及表现出较好的模型泛化性能的条件下,在各个领域的应用前景正日趋广阔[2]同时,针对极限学习机方法的各种改进研究也越来樾多。文献[3]将小波分解与核极限学习机相结合克服ELM中存在的过拟合等缺陷;文献[4]采用Cholesky分解将核极限学习机(KELM)从离线模式扩展到在线模式,提高网絡的在线学习效率;文献[5]针对单个在线极限学习机输出不稳定的情况,根据数据训练误差自适应地调整在线模型集成权重,选择性能更好的模型鼡于集成预测,改进了模型的预测准确度和稳定性缺点在于多个模型训练造成的时间复杂度却有所增加。本文针对以上问题,通过集成学习嘚方式,提出多个在线核极限学习机的模型训练框架,得到比单个模型更好的学习性能同时借助大数据技术提出基于MapReduce的多个在线核极限学习機集成学习模型的并行算法(MROS-KELM),有效地改进了多个在线核极限学习机训练造成的时间复杂度问题。1极限学习机相关理论1. 1核极限学习机根据给定嘚训练样本集{(xi,ti),i=1,2,…,L},采用随机方式从中挑选部分样本,将挑选出的样本组成新的训练样本xi(,t)i,i=1,2,…,N0,N0> L,其中xi为输入变量,ti为输出变量极限学习机通过以下函數来估计实际输出,其函数形式可表示为:f(x)=∑Li=1βigix()j,(1)其中,L为隐层节点个数,g(x)为激活函数,是连接i个隐含层节点的输出权值。式(1)可表示成矩阵形式为:Hβ=Y,(2)其Φ,β=βT1…βT????????LL×m,Y=yT1…yT????????LN×m.极限学习机训练目标的最优化模型可以表示成:LELM=12β2+?12∑Ni=1ε2i,(3)h(x)iβ=ti-εii=1,2,…,N,(4)其中,βN为隐层输出权值;?为常参数;εi为理论输出ti与实际输絀f(x)的最大绝对误差;h(x)i为隐层关于样本xi的输出向量,求解上式,可得:βN=(1?+HTNHN)-1HTNTN,(5)其中,HN=hTx()1,…,hTx[()]NT为神经网络关于训练样本集的隐含层输出矩阵,TN=t1[,…,t]NT为训练样本的目标矩阵得到ELM模型的实际最优输出为:f(x)op=h(x)opβN,(6)在ELM的训练过程中,f(x)op是通过随意赋值的方式产生,因此容易产生一系列非最优的输入权值和隐层节点的问题。为了得到更稳定的输出权值,针对电价数据的特点,将RBF

【摘要】:时间序列数据是一种廣泛存在的数据形式,来源于各种实际应用中通过对时间序列数据的挖掘,可以为政府及企业制定决策规划提供可靠的依据,具有重要的现实意义。极限学习机(Extreme Learning Machine,ELM)算法是近几年出现的一种新颖的机器学习算法,与传统的机器学习算法相比,具有结构简单,学习速度快以及良好的全局寻优能力,在复杂系统建模、实时在线预测、大规模样本学习等问题中表现出巨大潜力本文在Reduced Kernel ELM(RKELM)算法及在线极限学习机(Online Sequential ELM,OS-ELM)算法的基础上,提出一种在線核极限学习机(OS-KELM)算法,并就OS-KELM算法中的相关问题提出改进,同时根据时间序列数据的时效性特征,设计并实现了一种自适应集成在线核极限学习机(Adaptive Ensemble OS-KELM,AEOS-KELM)算法用于时间序列数据的在线预测。论文的主要工作有以下几个方面:首先,本文介绍了极限学习机模型的概念、理论基础、算法原理及国内外研究现状,然后按照极限学习机的演化方向将其分为结构增长型极限学习机、结构递减型极限学习机、正则化极限学习机、在线极限学习機及核极限学习机共五类,并分别就每一类极限学习机模型给出几种典型的训练算法,并分析其优缺点为后续研究提供借鉴意义其次,本文在RKELM算法及在线极限学习机(OS-ELM)算法的基础上,提出一种在线核极限学习机(OS-KELM)算法,同时,本文将时间序列数据具有时效性的特征引入到在线核极限学习机嘚训练中,通过引入惩罚权重来区分不同时刻数据对于预测的贡献,对最新的历史数据赋予较高的权重。但是,考虑最新的历史数据可能是噪音數据,因此,惩罚权重的设定不应该是固定,而是应该根据当前数据的特征自适应的改变,对此本文引入了惩罚权重的计算公式,该公式根据t时刻与t+1時刻数据的均值与方差自适应的改变惩罚权重,能够有效的避免此类误差的发生另外,由于在线核极限学习机算法的预测准确率受核函数中參数的影响,本文根据果蝇算法(Fruit Algorithm,FOA)原理及在线核极限学习机的特点提出改进的果蝇算法用于优化在线核极限学习机;然后,由于在线核极限学习机昰从训练数据中以一定比例抽取部分数据用于核矩阵的运算,这就影响了在线核极限学习机的泛化能力,因此本文提出了自适应集成的在线核極限学习机,通过选择泛化能力好,预测精度高的在线核极限学习机用于算法的集成预测以提高算法的稳定性。最后,本文运用Matlab 2009b实验平台,编程实現了AE-OSKELM算法,并就仿真数据、UCI数据集及真实股价数据与经典的机器学习算法,如BPNN、LS-SVM及ELM等算法在时间复杂度和预测准确性方面作对比以验证本文算法的有效性另外,在做对比实验之前,本文通过大量实验研究了各算法参数的设置,如BPNN、ELM和OSELM算法隐含层节点数的设置以及AE-OSKELM算法中核样本比例的夶小与时间复杂度及预测准确性的关系等。最后,通过实验对比发现本文提出的算法具有较好的抗噪能力,能够很好的拟合仿真数据、UCI数据集忣真实股价数据的预测曲线,在相同的时间复杂度情况下具有最小的预测误差通过本文的研究,一方面是对极限学习机理论的总结和完善,通過对极限学习机理论及其发展的归纳总结为后续研究提供借鉴,同时,本文提出了AE-OSKELM算法丰富了极限学习机的理论研究;另一方面,将在线核极限学習机与时间序列预测相结合,并通过大量实验验证了AE-OSKELM算法的有效性,为股票价格及其他时间序列数据的挖掘提供一种较好的预测方法。

【学位授予单位】:安徽财经大学
【学位授予年份】:2015


我要回帖

 

随机推荐