平衡插转非平衡对设备有影影响吗?

查看: 回复:3
音响设备繁多 了解专业音响系统的连接
rel="nofollow" href="http://my.pcauto.com.cn/6057242/fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="http://my.pcauto.com.cn/6057242/pick/"
target="_blank" rel="nofollow" id="fan6精华
传祺GS8 …
传祺GS8 2016款 320T 四驱豪华智联版
最后修改IP: 121.9.230.3
您好,精华帖至少要有15张图片,文字不少200个字!并且是原创内容,布局合理。
楼主 电梯直达 楼
&&&&音响系统的连接有很多种,不同的系统和设备有不同的连接方法。但大体上原理都一样,主要还是有:+功放+,组成的。&&&&&1、&现在的音源包括各种乐器,各种音源播放器及一些特殊的声音发生器。&&&&2、&功放是有各种放大电路组成的,可以对前级的信号进行放大,来推动后级的喇叭。&&&&3、&现在一般把多个喇叭组合在一起,形成音箱,也组成了很多种类的音箱。&&&&以上就是最简单的一套音响系统。当然现在的系统中又加入了很多辅助设备,我们叫做:周边设备。我们现在一般是按照使用特点和客户的要求来灵活搭配音响系统,但同样的设备不同的连接方法所产生的音响效果也是不一样的,所以要求我们技术人员要多掌握这方面的知识。&&&&音响系统中常用的连接线和接插件&&&&音响系统中设备与设备之间要达成联络传输、沟通等,都必须仰赖其连接的工具,这就是线材与接头。它在整个音响系统中占据着非常重要的角色,现在专业音响系统中使用的连接线和接插件种类较多,下面我们把常见的线材与接插件种类作一下简单介绍:&&&&一、&各种线材&&&&1、&专业音频线:现在音频线有两芯、三芯、四芯、五芯等,这种线由于屏蔽效果好,可以用来传输高质量的音频信号;现在较专业的话筒一般使用三芯以上的线材,这种线材抗干扰能力强,可以做远距离传送。当然这种线材也可以传送其它信号,如传送电脑灯的DMX512控制信号。&&&&2、&同轴电缆线:一般用在视频方面,也有一些音频线,由于这种线材抗干扰能力较差,再加上设计时就不是主要用来传输音频信号的,因此不适合做长距离的音频信号传输。&&&&3、&集中式电缆线∶就是多条讯号线包裹在同一个保护管内,一般是连接系统内部使用,以减少独立线材的数量。现在也用在诸如电视转播车、地下预埋和其它特殊方面。这种线一般是有专业厂家加工好的,质量上较有保障。&&&&4、&光纤:许多&&或&MD&等录放音器材上常使用的传输线材,它传送的是数码信号。&随着数字化的普及,今后光纤在音响系统里的运用会越来越多.&&&&5、&MIDI&线∶通常为五芯线,传送有关&MIDI&的信息,现在大多数使用在键盘、效果器等设备上。&&&&&6、&还有一些特殊的线材,比如电脑点歌系统里原来用来连接网络的多芯网线现在也可以用来传送音视频,实现电脑自动点播功能。&&&&二、&各种接插件:&&&&1、&XLR∶俗称卡侬接头(Cannon),此种接头是由三个接点所组成,分别为1--&Ground接地;&&&&2--热端(+级);3--冷端(-级),当然也有的设备里规定3是热端(+级);2是冷端(-级),这点要看清楚设备的说明书。卡侬连接插件是专业音响系统中使用最广泛的一类接插件,可用于传输音响系统中的各类音频信号,一般平衡式输入、输出端子都是使用卡侬接插件来连接的。在某种意义上说,使用卡侬接插件也是专业音响系统有别于民用音响的特征之一,其好处是:&&&&a、&采用平衡传输方式的,抗外界干扰能力较强,利于远距离传输。&&&&b、&具有弹簧锁定装置,连接可靠,不易拉脱。&&&&c、&接插件规定了信号流向,便于防止连接上的差错。&&&&卡侬插头有公插与母插之分,插座也同样有公插座与母插座之分。公插的接&&点是插针,而母插的接点是插孔。按照上的惯例,以公插头或插座作信&号的输入端;以母插头、插座作为信号的输出端。&&&&2、&RCA∶在中国一般俗称头(因某些型式的&RCA&接头外观看似莲花瓣),此种接头是由两个接点所组成,分别为&热端(+级);冷端接地(-级),其使用同轴电缆连接,当然也可以使用多芯音频线,常使用在一般家用音响器材上。因其长度在3.5厘米左右,所以通常我又叫它:3.5cm插头。&&&&&3、&TRS∶一般叫立体声接头,它是由三个接点所组成,分别为:头端(+级);环端(-级);接地(Ground),使用在小型耳机上的长度在3.5厘米左右,但最多还是使用在专业音响当中,其长度为:6.35厘米,目前专业调音台的高阻输入和插入插出插口大都使用这种插头,其它音响设备也大都采用了此端口。&&&&&4、&TS∶俗称单音(声)接头,此种接头是由两个接点所组成,分别为&头端(+级);接地端(Ground)。以上两种接头,用在专业音响里的其长度在6.35厘米左右,所以通常我又叫它:6.35cm插头。虽然TS接头和TRS接头二者长度一样,外表也很相似,但具体功能可不同,TRS立体声接头可以用三芯线做平衡方式传送信号;但TS单声道接头只能采用非平衡的信号传送方式。&&&&&5、&MIDI接头∶使用在MIDI应用上的接头,有五个针脚,传送有关MIDI上的信息。&&&&6、&音箱接头,现在一般使用四芯专业接头,还有的采用TS单声道接头或者其它方法。&&&&7、&各式转换接头:可以方便的运用这种接头在各种不同接头之间转换。&&&&&8、&还有其它一些特殊接头在这里就不做过多介绍了。&&&&三、&音响系统中连接线的制作&&&&目前专业音响设备的输入、输出信号方式基本上分为:Balance&平衡方式与Unbalance非平衡方式。平衡与平衡、非平衡与非平衡端口之间当然是可以直接馈送信号的;在要求较高的场合,平衡与非平衡端口之间,则须经过专门的转换器才能相互连接。但在实际工程当中,只要信号线不要太长、干扰不要太大,平衡端口和非平衡端口是可以直接相连正常传输信号的。在一套音响系统中,除了功放与音箱间的功率传输线以外,其它设备之间的信号连接线要应尽可能多采用平衡方式进行传输,这样可以提高系统的抗干扰能力,增加信号的有效传输距离,线:&&&&A、&平衡与平衡之间的信号线:&&&&1、&XLR卡侬公接头→XLR卡侬母接头:这种线在专业音响系统中使用的最多,制作方面把卡侬公和母之间1、2、3三个接点分别连接起来,接点1接屏蔽层,接点2接信号热端(+极),接点3接信号冷端(-极)。&&&&2、&TRS立体声接头→TRS立体声接头:制作方面分别把两个TRS立体声接头之间的头端(+级)、环端(-级)、接地(Ground)三个接点分别连接起来。这种线实际上在音响系统中也应该大量使用,但是好多音响师由于图省事,经常用TS单音(声)接头来代替了,这个尤其要注意,这样一代替信号传输方式就从平衡传输变成非平衡传输了。3、&XLR卡侬公或母接头→TRS立体声接头:制作方面卡XLR侬接头的接点1(屏蔽接地)对接TRS立体声的接地(Ground);XLR接点2热端(+极)对接TRS的头端(+极);XLR接点3冷端(-极)对接TRS的环端(-极)。这样也是一种平衡传输方式,在专业音响系统中也是经常使用。&&&&4、&XLR卡侬公→&XLR卡侬公&或&XLR卡侬母→&XLR卡侬母:这种线有点特殊,最多使用在功放与功放之间或功放与其它周边设备之间的信号连接,制作方面也是把两个接头之间的1、2、3三个接点分别连接起来,接点1接屏蔽层,接点2接信号热端(+极),接点3接信号冷端(-极)。&&&&还有一点,为了防止“环路干扰”,我们可以把一条信号线中的一个XLR卡侬接头的接点1(屏蔽接地)或一个TRS立体声接头的接地(Ground)在特殊情况下空出一个来不接,例如:一条XLR卡侬公对XLR卡侬母的平衡线,我们可以空出XLR卡侬母接头里面接点1(屏蔽接地)来不接,这样可以避免设备之间的某些干扰;TRS接头原理一样,任意空出一个接地(Ground)接点就好了。这样一条平衡线我们原来在制作时一共要焊接6个焊点,现在空出一个来就是焊接5个焊点了,但非平衡线不能采用此方法。&&&&B、&非平衡与非平衡之间的信号线:一般是指TS单音(声)接头→TS单音(声)接头之间的信号线,这是一种非平衡传输方式,制作方面分别把两个TS单音(声)接头之间的头端(+级)、接地(Ground)二个接点分别连接起来。&&&&C、&平衡与非平衡之间的信号线:XLR卡侬公或XLR卡侬母接头→&TS单音(声)接头,这种连接方式实际上信号也变成了非平衡传输方式了,制作方面XLR卡侬接头的接点1和3合并接屏蔽线然后对接TS单音(声)接头的接地(Ground);XLR接点2热端(+极)对接TS单音(声)接头的头端(+极)。在专业音响系统中这种线经常使用在包厢卡拉OK系统中做话筒线用。&&&&D、&音箱线:在专业音响系统的功放与音箱连接中,音箱线的电阻应该尽量低,选用粗、短一些的线材及合理的布线。现在的音箱一般使用四芯专业接头,功放也一般采用了四芯专业接头或接线柱,在制作方面,把音箱四芯专业接头的1(+极)和1(-极)与功放输出的(+极)和(-极)正确连接好就行了。还有一些采用TS单声道接头及接线柱的音箱或功放,其连接的原理一样。都是正极对正极,负极对负极,要是接反了音箱会反相,这样会影响音箱的音质及稳定性,同时在连接时避免短路,否则会损害功放设备。&&&&总体来说以上就是我们经常在系统中使用的连接线种类了,也许以前大家没有非常注重信号线及音箱线的连接,以信号线为例:其实它就像人体内的血管一样的重要!而且从稳定性和长远性考虑,我们一定要使用优质的线材和优质的接插头,并保证优质、无故障的把它们焊接好。现在我做工程时不管多么忙多么累,系统中所有的信号连接线我都习惯自己亲手焊接,如果采用了别人焊接的信号线连接了系统,心里就一点底都没有,就好像你不知道前进的路上哪里会有一颗地雷一样,你也不知道哪条信号线会在何时出现故障,所以相对而言,再烂的设备我也可以相信它的稳定性,但我不会随便相信质量得不到保障的信号连接线及音箱线!
如果你对以下车友回答满意,请设置一个推荐答案!
申请精华帖
您的申请已经提交,请耐心等待审核
1、审核通常是1-3个工作日 2、审核结果我们会通过系统消息给您答复
申请精华帖
您已经超过申请限制,不可再申请
您的申请连续三次被驳回,已经无法再申请精华帖,谢谢你对我们的支持!如有疑问,可以 投诉/建议&&
申请精华帖
您有发现精华的慧眼,赞一个!
1、我们会在1-3个工作日内完成审核
申请精华帖
此贴已经申请精华中,谢谢您的支持!
1、我们会在1-3个工作日内完成审核
申请精华帖
您好,该帖子经过审核后,发现内容不符合精华要求,无法申请成为精华,谢谢你的支持!
申请精华帖
抱歉,帖子还没达到精华标准
精华帖至少要有15张图片,文字不少于200个字!您的帖子未达到要求,不能申请精华。 查看精华帖标准
rel="nofollow" href="http://my.pcauto.com.cn/6057242/fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="http://my.pcauto.com.cn/6057242/pick/"
target="_blank" rel="nofollow" id="fan6精华
传祺GS8 …
传祺GS8 2016款 320T 四驱豪华智联版
最后修改IP: 121.9.230.3
&&&&四、&音响系统设备连接顺序:&&&&制作好了各种信号连接线后,就要准备进行设备连接了,现在音响系统中周边设备比较多,连接时候总要有个先后,在我去年一系列文章中其实已经有过介绍,这里再归纳几个简单的连接顺序:1、&低音系统设备连接顺序:调音台(1-2编组)→均衡器→分频器→压限器→低音功放→低音音箱。&&&&2、&辅助音响系统设备连接顺序:调音台(3-4编组)→均衡器→延时器(可选)→压限器→辅助音箱功放→辅助音箱。&&&&3、&主音响系统设备连接顺序:调音台(L-R主通道)→均衡器→激励器(可选)→反馈抑制器(可选)→压限器→主音箱功放→主音箱。&&&&4、&监听系统设备连接顺序:调音台(AUX输出)→均衡器→压限器→监听音箱功放→监听音箱。&&&&以上第1种连接方式可以单独控制低音的音量,这样我们在慢摇或迪高时调音台1-2编组的音量就可以开大些,在歌手演唱时就可以开小些,这样很灵活;第2种连接方法也可以很好的控制辅助音箱的声音;第3种主音箱我们当然习惯从调音台的L-R总输出来输出音量;第4种监听系统,标准来说要从AUX来输出音量,这样可以按照歌手或乐队的要求,灵活调整调音台各声道的音量,但在较小的音响系统中,监听信号可以直接从主通道信号取。以上第1和第2种连接法还要注意:既然1-2、3-4编组我们已经从后面相对应的输出口独立输出信号了给低音系统和辅助系统了,那1-2、3-4编组就不要再通过调音台的总音量输出了,也就是1-2、3-4编组到调音台总音量的切换开关就不要再开了。&&&&当然我们还是要根据需要和设备的数量来灵活安排设备连接时的顺序,以上顺序只供参考。&&&&五、&设备连接时的要点:&&&&以上简单介绍了各种连接线的种类、制作以及设备连接顺序,在设备的具体连接中,面对各种各样、数目繁多的设备插口,好多音响师就不知道怎么下手了,其实很简单,大家只要记住以下几点就好了:&&&&1、&Balance&平衡方式:现在大多数音响设备后面板上的插口都是平衡端口,我们只不过是选择是用XLR卡侬接头的平衡线路来连接设备还是用TRS&6.35cm立体声接头的平衡线路来连接设备而已。&&&&2、&Unbalance非平衡方:虽然现在大多数音响设备后面板上的插口都是平衡端口,但有一些设备还是有非平衡端口的,比如有些电子分频器的输出插口有的就标有:Balance&OUT(平衡输出)和&Unbalance&OUT(非平衡)输出,所以我们也可以采用TS&6.35cm单声道接头的非平衡线来连接设备,只要线路不要太长,干扰不要太大,这样连接还是可以的。&&&&3、&&IN输入和OUT输出:有的初学者一看设备后面有那么多插口就晕了,其实有个诀窍:不管什么音响设备,基本上都可以分为“IN输入”和“OUT输出”两大部分的,因此我们只要认准“IN和OUT”就好了,其它不熟悉的插口不要随便连接,总之连接设备像流水一样:上游的水流过来就要流进“IN输入”;而流向下游的水就要通过“OUT输出”再流出去,这样一级一级的不是很简单明了了吗?
rel="nofollow" href="http://my.pcauto.com.cn/6768225/fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="http://my.pcauto.com.cn/6768225/pick/"
target="_blank" rel="nofollow" id="fan8精华
雅阁 200…
雅阁 2008款 2.4
最后修改IP: 61.235.82.55
。。。。。。。。。。。。
rel="nofollow" href="http://my.pcauto.com.cn/6242553/fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="http://my.pcauto.com.cn/6242553/pick/"
target="_blank" rel="nofollow" id="fan精华
赛拉图 2008款 1.6L GLS MT
最后修改IP: 58.41.194.23
顶顶顶。。。
只可添加一张图片,多张图片请选高级模式
您需要登录后才可以发帖&&&&&&│&&&&│&&&&
新用户注册有机会领99元现金红包(限时活动)非平衡数据模式分类中的若干问题研究及其在金融中的应用_伤城文章网
非平衡数据模式分类中的若干问题研究及其在金融中的应用
北京交通大学 博士学位论文 非平衡数据模式分类中的若干问题研究及其在金融中的应用 姓名:谢纪刚 申请学位级别:博士 专业:信号与信息处理 指导教师:裘正定
北京交通大学博士学位论文摘要摘要企业财务困境预测是金融界的一个长期研究热点,由于其复杂性,人们从不 同角度进行了建模研究,主要包括以下两类方法:1)以企业财务比率为基础的 模式识别方法,包括多元线性判别、Logistic回归、神经网络等;2)以资本市场 理论为基础的非模式识别方法,包括期权定价模型,债券违约率模型,混沌模型 等。其中,基于线性判别和Logistic回归的预测模型在实际中应用最有效,也是 国际金融业和学术界公认的主流方法。 但是,当应用这些主流方法进行财务困境预测时,仍存在许多实际问题。饲 如,由于陷入财务困境的公司个数占公司总数的比例很小,建模时必然涉及抽样标准问题――如何从实际数据中抽取样本?也就是说,如何确定建模样本中的两类比例,以使所建模型最优.从模式识别角度讲,这是一个非平衡数据模式分类 问题。非平衡数据模式分类也是目前机器学习领域的一个研究热点,本文即以此 为研究对象,对其中的几个基本问愿进行了重点研究,主要工作及结论如下:一种加权Fisher线性判别--WFLD。Fisher判别的核心是求解满足Fisher准则的最优投影向量,因此,分析非平衡数据对投影向量的影响十分必要。本文通过 理论分析指出:当两类样本协方差阵相同时,非平衡数据对投影向量没有作用, 从而也不会影响Fisher判别的分类性能;反之亦然。在此基础上,提出了一种加 权Fisher线性判别――wFLD,它本质上是一种特殊的上抽样,即同时对两类样 本进行不同倍数的简单复制,使变换后的两类样本个数之比为l:l。实验证明了 理论分析的正确性以及wFLD的有效性。 2.针对Fisher判别,提出了一种基于Bootstrap技术的BFLD算法,该算法 可生成较为连续和稳定的ROC曲线,由此选取阈值可以减小总的判别风险。阈 值的选取对判决结果影响甚大,而Fisher判别却未提供规定选取阈值的原则。 ROC曲线非常适用于非平衡数据分类中的阈值选取,然而,样本数目有限会导 致ROC曲线呈明显的台阶状,从而使基于ROC曲线选取的阈值偏离了理论最优1.分析了非平衡数据对Fisher判别的投影向量、及分类性能的影响,提出值。针对Fisher判别,本文提出了一种基于Bootstrap技术的BFLD算法,该算法具有多个优点:首先,与一般的非参数方法相比,该算法生成的ROC曲线更 加连续和稳定;其次,与预留法(Hold-out)生成的ROC曲线相比,基于由BFLD 生成的ROC曲线选取出的判决阈值可以使总的判决风险更小;最后,与留一法 (Leave.one-out)相比,利用BFLD算法可以更加准确地估计预测集的类别概率 北京交通大学博士学位论文摘要――预测集的类别概率是基于ROC曲线选取阈值的必要条件。3.提出了一种基于正态分布的Fisher判别值概率校准方法。在模式分类中, 如果知道样本属于各个类别的概率,会有许多益处,如可以实现最优判决、便于 进一步的融合决策等。为此,本文进行了两方面的工作:1)首先假设样本的Fisher 判别值在两类中均服从正态分布,然后利用判别值的经验分布估计出未知参数, 从而可以求解出判别值的类条件概率密度,将其与先验概率一起代入贝叶斯公式 可计算出后验概率,此概率即为判别值的校准概率。实验表明,Fisher判别值的 校准概率比LR模型概率能更准确地逼近真实概率。2)混合隐变量模型是高维 样本概率密度估计的新方法,本文分别采用因子分析与概率主成分分析来估计类 条件概率密度,然后构造出相应的贝叶斯分类器。实验表明,对于上市公司财务 困境的提前3年预测情况,该方法略优于线性判别和Logistic回归。 4.作为课题组成员,合作设计、开发了一个财务分析系统,并已将本论文 财务困境预测研究成果嵌入其中,使系统不仅实现了基本的财务分析功能,而且 具有了。智能化”预测的功能.此夕卜,该系统采用了模块化设计,我们可以在此 基础上测试和验证各种预测模型的准确性和稳定性,为将理论研究工作应用于实 际奠定了坚实基础.关键词;模式分类,非平衡数据,线性判别,Bootstrap,ROC曲线,判决 阈值,类别概率,财务困境预测n 北京交通大学博士学位论文摘要ABSTRACTThc prediction of corporate financial distress isasubjectof wideOOlic2rntOinvestors,creditors andhave beenasecurities supervisory organs.Due tO its complexity,therecanlot of models developed in the last 40 years,andbe classified intotwo subsets:The first is linearfinancialratio based pattem classification models,includingdiseriminantanalysis,logisticregression andneural networks,etc.:The secondis capital market theory based models,including option-based model,chaostheorymodel,hazard model,etc..Among these models,the classic statistical methods, including linear diseriminant analysis theandlogistic regression,arc mote effective thanothers,and眦the most popular methods in fmancial dimess prediction.However,inprance,severalaspccts may influence theperformance achievedbythe classic statistical models.One ofthese aspects isrelated tothe difference betwecnthe numbers of examples belonging to each class.That is,examplesbelongingtonon-distress class usually outnumber the examples in the distress class.How to sample the training data to build the prediction models?In fact,this is pattern classificationon asubjectofunbalanced datasets,which isrecently a hot topic in machinelearning domains.This thesis directing against several issues that exist in this problem will focusonimproving the performance of Fisher lineardiseriminantmodel.Someachievements are obtaincd as foIlows:1.Thereducingaeffect of classimbalanceonFisheradiseriminant analysis(FDA)isalgorithm,namedasanalyzed both theoretically the effect ofclassandempirically,and isWFLD,forimbalancepresented.nethemain idea ofFDA is to searchprojectionvector,which makes the Fisher’S criterion optimal.111us.it is import thatthe analysis ofeffect ofclassimbalance onprojactionvector.111is thesis gives the is no effect ofclass of FDA,results theoretically:WIth equal sample covariancematrices.thereeffect Off theimbalanceontheproject vector,andeventuallynoperformanceandvice-versa.A weightedFDA,named丛WFLD.isproposed for reducing thenegative effects of class imbalance.WFLD is essentially an over-sampling method, which rebalance the class distribution minority-class and datasctstol:lthrough the duplicationonof both UCImajority-classexamples.Finally,experiments its validity.bothandChinese listed firmfinancial dataset verifies heavenly2.T11e choice ofthresholdiS no rule that can beaffects"the decision results.However,there isafollowedto select the threshold of FDA.RoC cuiwem 北京交通丈学博士学位论文摘要"model?free"technique,and haspropertiesthat make it especially useful for domainserro.rwith skewed class distribution and unequal classification the sample sizes dea蟹ase-the ROC bumpy.Asa curvescoStS.A fact is thatastend to bcGome increasinglyjagged andrCSUhf.,the threshold basedOnROC CtWVC¥will get away from theasoptimal theoretical value.A new algorithm,named FDA iscurvesBFLD,basedOilbootstrap andpresented.It锄begeneratedapplied tothechoiceof threshold for FDA.First,ROCby BFLDa梯le鹤jaggedand bumpythan thoseof othernonparametfic methods.Second,the thresholds selected by BFLD-based ROC curves will produce less decision costs than those ofhold-out based ROC curves.Finally,the class probabilities oftest examples,whicharcindispensable for ROC-based thresholdselection,estimated bYmethod.BFLD础moreaccurate than those of Leave-One-Out3.Classifiers that give probability those that give onlycarl aestimates眦moreorflexible in practice thansimple classificationevanaranking.Probability estimatesbe used inaBayesianrisk model to n'h3ke cost-sensitive decisions,forcombiningdecisions,andfor active learning.This thesis developed two methods for obtainingthe probabilities of examples belonging to positive class.First,calibrate the Fisherscoresof samples into probabilitiesthrougIlaparametric method,in which thedistributions of Fisher SCOreS areassumed tobeGaussian.Seoon击Use combinedmixtures oflatent variate model to get the density estimates,then obtainaprior probabilities toBayes classifier,which class.produces the posterior probabilities of samplesbelonging positive4.This study designsandrealizesapractical financial analysis system,whichrealized preliminary financial analysis and predictionafunctions.Thewaysystemprovideddata platform for this paper’S research work.It also pave utilization ofthefor the embedmentand practicalmodels studiedin this tllesis.Keywords:patternclassification,imbalanceddataset,linear discriminant distressanalysis,bootstrap,ROC curve,decision threshold,class probability,financialprediction 独创性声明本人声明,所呈交的博士学位论文是我个人在导师裘正定教授指导下进行的 研究工作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢的地方 外,论文中不含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通 大学或其他教学机构的学位或证书而使用过的材料。与我一同工作的同志对本文 研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意.本人签名:谢;乃玲1日期:∥‘.‘.p关于论文使用授权的说明本人完全了解北京交通大学有关保留和使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分 内容,可以采用影印、缩印或其它复制手段保存论文。论文中所有创新和成果归 北京交通大学信息科学研究所所有,未经许可,任何单位和个人不得拷贝。版权 所有,违者必究。本人签名:御纪叫日期:矽彩.∥.,≯导师签名:鸯矗生日期:h飞占?.f?fz 北京交通大学博士学位论文第一章绪论第一章绪论1.1问题来源和国内外研究现状 1.1.1金融中的实际问题财务困境(Financial distress)又称财务危机(Financial crisis)或企业失败(Corporatefailure),最严重的财务困境是企业破产(Bankruptcy).企业因财务困境导致破产实际上是一种违约行为,所以财务困境又可称为“违约风险”(Defaultrisk)。事实上,企业陷入财务困境是一个逐步的过程,通常从财务正常渐渐发展到财务危机.实践中,大多数企业的财务困境都是由财务状况正常到 逐步恶化,最终导致财务困境或破产的。因此,企业的财务困境不但具有先兆, 而且是可预测的。正确地预测企业财务困境,对于保护投资者和债权人的利益、 对于经营者防范财务危机、对于政府管理部门监控上市公司质量和证券市场风 险,都具有重要的现实意义。尤其指出,银行信贷管理是推动财务困境预测研究的最主要动力。风险管理是银行业永恒的主题,近几年来,世界,尤其是日本的一些大银行纷纷宣布破产 倒闭,更使人们前所未有地关注起银行贷款的风险来。贷款风险分类标准的最核 心的内容就是贷款归还的可能性,而决定贷款能否归还的最主要因素是企业的还 款能力。由于企业的经营状况是影响企业还款能力的根本因素,因此能否对企业 的财务状况做出正确的评价是评估该企业偿还能力的关键.为此,有必要建立起 一套可行的企业信贷风险评估模型,以便进行合理的信贷风险评价,为信贷决策 提供科学依据。 因此,财务困境预测是金融领域中的一个重要研究课题。1.1.2财务困境预测研究现状 1.1.2.1国际研究现状自上世纪60年代以来,企业财务困境预测已经引起了国际学术界和实务界 的极大关注,预测方法和模型层出不穷。总体而言,财务困境预测研究的方法主 北京交通大学博士学位论文第一章绪论要分为两类,一类是以企业财务比率为基础的模式识剐方法,另一类是以资本市 场理论为基础的非模式识别方法。 模式识别方法是按一定标准寻找一组财务困境和财务正常公司为样本,以财 务比率为解释变量,选取适当的分类方法,建立预测模型,保证对样本具有一定 的分类精度,通过验证后,完成模型开发过程。运用这种模型可以预测财务困境 事件发生的可能性,及早发现信用危机信号,使经营者能够在危机出现的萌芽阶 段采取有效措施改善企业经营,防范危机:使投资者和债权人可依据这种信号及 时转移投资、管理应收帐款及做出信贷决策。 随着西方资本市场的迅速发展、融资的非中介化,证券化趋势以及金融创新 工具的大量涌现,信用风险的复杂性也日益显著。人们认为以财务比率为基础的 模式识别方法不能反映借款人和证券发行人的资产在资本市场上快速变化的动 态价值。因此,一系列信用风险度量的非模式识别方法相继被提出,包括期权定 价模型,债券违约率模型,衍生工具信用风险模型、混沌模型、灾害模型等。但 是,目前国际上信用风险模式识别模型的应用是最有效的,也是国际金融业和学 术界公认的主流方法。本文仅关注模式识别模型,并对其在西方财务困境预测研 究中的历史沿革简述如下: (一)1989年以前 最早的财务困境预测研究是Beaver([Bea66])所做的单变量破产预测模型, 他对1954-1964年问79家失败企业和相对应的79家成功企业的30个财务比率 进行研究,采用的研究方法包括三种,分别为均值比较、划分测试和似然分析。 在排除行业因素和公司资产规模因素的前提下,Beaver的研究发现,现金流/负 债总额能够最好地判定公司的财务状况(误判率最低)。其次是资产负债率,并 且距离经营失败日越近,误判率越低,预见性越强。 1968年,Altman(【AIt68])首次将多元线性判别分析引入到财务困境预测研究领域,他对1946~1965年『开J提出破产申请的33家公司和|一J样数量的非破产公司进行研究,采用了22个财务比率,经过统计技术筛选出了5个财务指标: 营运资本/总资产,留存盈余/总资产,息税前利润/总资产,股权的市场价值,债务 的帐面价值,销售/总资产。通过多元线性判别模型产生了一个总的判别分,称 为Z值,并依据z值对研究对象进行财务困境判别。之后,文献[AHN771又提出了一种能更准确预测企、№财务用境的新判别分析模型--ZETA模型,它包括了经营收益/总资产、收益稳定性、利息保障倍数、留存收益臆资产、流动比率、普通股权益/总资本和普通股权益/总资产7个比率。文献『AHN77]分析了1969~ 1975年的53家破产企业和58家正常企业,结果表明ZETA模型用于预测5年 北京交通大学博士学位论文第一章绪论和1年之后的财务困境企业精度分别为70%和9l%。由于模型简便、成本低、 效果佳,ZETA模型已广泛应用于美国商业银行,取得了巨大的经济效益。美国 还专门成立了一家ZETA服务有限公司,著名美林证券也提供z值统计服务。 多元判别分析方法能够包容反映企业财务状况的多个指标,从而克服了单变 量模型出现的对于同一公司,不同比率预测出不同结果的现象。因此。自AItman ([AIt68])的开拓性研究之后,在西方掀起了将各种多元统计分析方法应用于财 务困境预测研究的热潮,其中,影响最大的是Ohlson(fOhl80])在1980年引入 的Logistic回归模型。Ohlson首次应用Logistic回归方法分析了1970~1976年 间破产的105家公司和2058家正常公司组成的非配对样本,发现用公司规模、 资本结构、业绩和当前的变现能力进行财务困境的预测准确率达到96.12%.此外,递归划分(唧Ⅸ85】)和专家系统(【MH88】)等方法也开始被应用于财务困境预测研究。并且,受美国影响,日本、德国、法国、英国、澳大利亚、加拿大 等许多发达国家的金融机构([Taf92][Alt84]),以及巴西都纷纷研制了各自的判 别模型,虽然在变量的选择上各有千秋,但是总体思路则与Altman([AIt68]) 和Ohlson([0h180])如出一辙。 本阶段研究特点:各种多元统计分析方法被用于进行财务困境预测建模,其 中,对线性判别分析和Logistic回归两种建模方法的研究最广泛,并且开始在实际中得到广泛应用。(--)1990~1999年间进入20世纪90年代后,随着信息科学的发展,西方的学术界及实务界对上 述的统计方法提出了质疑,原因是它们的有效性依赖于严格的假设条件,如变量的多元正态分布、独立性及等协方差矩阵等。只有当这些假设条件得到满足,这 些方法才有最佳的效果。为克服传统统计模型的缺陷和提高预测的准确性,许多 新的模式识别方法被引入到财务困境预测研究中,主要包括人工神经网络(‘[os90][CF91][F'G93][AMV94][WS94][Bor95][LHK96][LS96][Ser96][Kiv98】【YPP991[ZHPl99])、决策树(0VOS98])、模糊决策([SDMZ99])和粗糙集(【SZ95]) 等方法。此外,变量选择开始受到重视,除了传统的统计方法外,遗传算法也被 用于进行变量筛选([BLSV96][Var98】)。 在这些新的方法中,神经网络的研究最广泛。神经网络是一种非参数模型。 它克服了模型函数形式选择的困难,同时对样本及变量的分布特征没有限制。正 由于它的非线性、非参数、自适应学习等特征,所以成为20世纪90年代财务困 境预测研究中的一个热点方法,各种神经网络模型都被用来构造财务困境预测模 型,如BP神经网络([CF91][FG93][WS94])、SOM神经网路qKiv98])、概率3 北京交通大学博士学位论文第一章绪论神经网络(【YPP99】)、径向基神经网络(田oV75]【zHPl991)和混合神经网络 ([LHK96])等,多数实证结果表明神经网络模型优于传统统计模型。 本阶段研究特点:人们对各种神经网络模型进行了广泛的研究,主要是将神 经网络模型与线性判别模型、Logistic回归模型以及其它一些分类模型进行比较。 多数实验结果指出,神经网络模型的预测精度高于其它模型的预测精度。然而。 也有少数研究的结论不能证明神经网络模型比传统统计模型优越,例如,文献 [AMV941用神经网络和线性判别分析两种方法对1000家意大利公司作提前一年 的预测,结果指出,没有一种方法具有明显的优势,线性判别分析甚至比神经网 络模型还稍微好些. (三)2000年至今 随着信息科学的飞速发展,人们一方面将更新的模式识别方法用于财务困境 预测模型构造,包括支持向量机([SLK05])、线性规划([KSCL04])、分类器集 成(1XQZW04])以及许多新发展的神经网络方法([BC03][BGS05][Pea05])。另 一方面,部分学者开始对财务困境预测问题进行更加深入和细致的研究,例如? 文献fGD01]研究发现时间和行业因素可以导致模型预测能力的退化,或者说,当 被预测的公司所处的历史阶段和行业与建模样本差异较大时,模型将不再适用。 总之,在40年的财务困境预测研究历史中,早期以线性判别分析和Logistic 回归为代表的多元统计方法最为流行,后期,主要以神经嘲络为代表的现代模式 识别方法成为研究热点,然而,由于线性判别和Logistic回归模型简便、易被理 解、成本低、效果佳,耳前国际上这类模型的应用是最有效的,也是国际金融业 和学术界视为主流的方法([Ati01][B004])。 Balcacn和Ooghe于2004年对多元统计模型进行了系统的总结,并着重分 析了它们在实际应用巾的一螋』£性问题,本文将其复述如下(【B004]): 1.二值因变量假设:线性判别分析与Logistic回归都假设因变量只能是二 值情况,也就是说,当建立财务困境预测模型时,必须首先定义企业的“财务困 境”和“财务正常”两种状态。财务凼境的定义不同,会直接影响到所收集的研 究样本以及预测的结果([Hay03])。定义财务困境要考虑定义的明确性、可识别 性以及选择成本,破产较债务违约、财务绩效恶化更符合上述原则。破产的直接 原因是财务困境,而财务困境并不一定在研究时间窗内导致破产。西方大多数研 究将企qk根据破产法提出破产申请的行为作为确定企业进入财务网境的标志,然 而,企业陷入财务困境是一个逐步的过程,企业陷入财务困境后,其财务困境是 有程度之分的。从陷入财务圃境的那一点起,直至公司破产都属于财务困境过程。 在这个过程中,财务困境有可能得到缓解,也有可能加重恶化,不同程度的财务4 北京交通大学博士学位论文第一章绪论困境,其症状和表现也是不同的。所以,学术界对财务困境至今没有统一的定义, 大多数定义具有更多的操作和研究意义。 2.抽样标准:建模数据必须很好地代表目标总体,否则,模型的实际价值 值得怀疑。如果建模数据集是目标总体的一个随机抽样,则其必然具有总体代表 性。然而,在绝大多数研究中([Alt68][AHN77】[OhlS0]IKWS7】[KM90][AEK95】 {MBST9S]),建模数据不是总体的随机抽样,也即不能代表总体分布,这必然影 响模型参数估计以及模型的预测结果([Zmi84]Ww92])。导致非随机抽样的原因 通常有两种:1)公司财务中存在数据缺失现象,尤其在财务困境公司中数据缺 失更普遍,当研究者采用“数据完整”标准来选择样本时,即只选择没有数据缺 失的公司进入建模样本,很可能导致建模样本不具有总体代表性.2)绝大多数 研究采用“配对样本”标准来选择建模样本,即根据行业相同、产品结构相近、 上市时间相近、企业规模相近等来选择和困境公司一一配对的正常公司,这样可 以控制由行业差异、财务环境、宏观经济周期、重大会计制度变化等引起的干扰. 当然,这个样本选择标准会导致选入的财务正常公司不能代表全部正常公司的总 体特性。 3.平稳性假设:统计模型是“静态”模型,具有“平稳性”假设,即隐含 地假定待预测的新样本的数据规律(包括自变量之间关系、因变量与自变量之间 关系、每个自变量的均值与方差等)与建模样本的数据规律保持一致。许多研究 ([Men841[aarST][CNC04])发现此假设与实际情况不符,因为宏观经济环境变 化必然影响企业的财务状况,从而导致财务数据发生“规律漂移(conceptdrift)”, 最终使模型的实际预测能力下降。因此,一些研究([Taf82][Men84】)建议,财 务困境预测模型应该随时间发展不断用新数据调整模型系数和判决阈值。此外, 为增强建模样本的总体代表性,许多研究(【zmi84】【Men84][eV90])采用“联合 样本(Pooled samples)”――样本来自时间差异较大的不同年度,这也隐含地应 用了平稳性假设。4.年度会计信息的应用:基于年度会计信息――财务比率的财务困境预溯有两个优点,一是财务比率是公司财务状况的“客观测量”,二是可以公开得到 这些数据信息.但是,仅仅基于财务比率进行预测也有许多缺点:1)不是所有 公司都定期公布其年度会计信息,这与各国的管理制度有关;2)为了自身利益, 公司可能会操纵年度会计信息,即作“假帐”,尤其对于缺乏内部监控的公司, 这个问题更加严重(【oJD951);3)公司公开的年度财务报表中常有部分比率缺 失、差错等现象发生;4)这种预测方法隐含地假设财务比率包含了进行预测所 需的全部信息,然而,财务比率属于静态数据,它反映的是帐面价值,对于预测5 北京交通大学博士学位论文第一章绪论未来财务困境的合理性迄今尚未有理论证明([MSR03]),并且。许多研究发现 除了财务比率,审计师的意见([Wil97】)、董事会的构成([EG0q)、行业因索 ([HPA961)等等都可以在一定程度上预测企业的财务困境。 5.变量选择:研究人员对于如何选择财务比率一直存在分歧,目前唯一能 达成共识的是财务比率所涵盏的财务信息越广越好,应该涵盖企业孺利能力、偿 债能力、营运能力、成长能力和风险水平等各个方面,但对于具体挑选哪些比率, 至今仍未有公认的理论指导([CNC04]).实际应用最广泛的变量选择方法是统 计中的逐步判别法;开始时模型中没有任何变量,每一步都要对模型进行检验, 在把模型外的对模型判别能力贡献最大的变量加入到模型的同时,也考虑把已经 在模型中但又不符合留在模型中条件的变量剔除,直到模型中所有的变量都符合 引入模型的判据、模型外的变量都不符合进入模型的判据时,变量选择过程结束. 这种变量选择方法有两个缺点。一是变量选择依赖于样本选择,并且容易造成模 型的。过拟合”([Zav83]);二是过分强调变量的统计特性而忽略了变量的经济 解释性([KW91][BLSV961). 6.时间维(Time dimension)问题:统计模型本质上将“公司陷入财务困 境”视作一个离散事件,事实上,“公司陷入财务困境”是一个“过程”.这样, 统计模型不能估计出公司陷入财务困境的时间,并且也不能描绘不同公司陷入财 务困境的路径([Lai91])。1.1.2.2国内研究现状国内企业财务困境的实证研究始于上世纪末,尽管资本市场的结构特征与成 熟程度不同,国内学者也开始了可贵的探索。其中,一部分研究以可公开获得的 上市公司财务数据为研究基础([Chen991),另一部分研究以商业银行内部数据 为研究基础(『WWZ98][WWZ99]),技术上以借鉴西方财务困境建模的方法为毛。‘ 进入本世纪后,由于我国市场经济体制改革的逐渐深化和迅速发展,金融业和政 府管理机构有了对企业财务困境预测研究的迫切需求,另外上市公司财务数据的 积累也为学术界开展研究提供了条件,所以,财务困境预测成为国内近期的一个 研究热点(fGZOO][ZLW00][SZOH[WLOH[CLY02][Liu02][XZ02]【zW02][CH03] 【DLH03I[WL04][YZ04][XQHM05】)。然而,总体而言,国内研究仍处在发展阶 段,在研究的深度和广度上与西方仍有较大差距。6 北京交通大学博士学位论文第一章绪论1.2研究目标与主要工作 1.2.1模式识别的本质模式识别是一门以应用为基础的学科,目的是将对象进行分类。这些对象与应用领域有关,它们可以是图像、信号波形或者任何可测量且需要分类的对象。一般用专用术语“模式”来称呼这些对象。模式识别包含由特征或属性所描述对象的数学模型,也涉及到一般意义上对象间的相似性的抽象概念。针对不同的对象和不同的目的,可以采用不同的数学形式、模型和处理方法。从而,形成了不 同的模式识别理论和方法,如统计模式识别、句法模式识别、模糊模式识别、人 工智能方法等。其中,统计模式识别在实际中应用最广泛,例如,基于财务比率的财务困境预测模型就属于统计模式识别范畴。 在统计模式识别中,一个模式表示为一组d个特征或属性,称为d维特征向量,并且被视作d维向量空间中的一个点,选择的特征应尽量使不同种类的模式位于d维向量空间中不相交的区域,而决策边界是由模式的概率分布决定的。统 计模式识别系统主要由4个部分组成:信息获取,预处理,特征提取与选择,分 类决策,如图1.1所示。图1.1模式识别系统的基本构成下面简单地对这几部分进行说明。1.信息获取:为了使计算机能够对各种现象进行分类识别,要用计算机可以运算的符号来表示所研究的对象。通常输入对象的信息有下列3种类型:1) 二维图像,如文字、指纹、地图、照片等;2)一维波形,如脑电图、心电图、 机械震动波形等;3)物理参量和逻辑值,如在疾病诊断中病人的体温及各种化验数据、企业财务比率数据等。2.预处理;预处理的目的是去除噪声,加强有用的信息,并对输入测量仪 器或其它因素所造成的退化现象进行复原。在财务困境预测研究中需要进行缺失 数据补偿和。异常值(Outlier)”剔除预处理。7 北京交通大学博士学位论文第一章绪论3.特征提取与选择:为了有效地实现分类识别,需要对原始数据进行变换,得到最能反映分类本质的特征,此即特征提取过程。特征选择就是根据一定标准在原始特征中选择出对分类最有效的特征。财务困境预测研究仅涉及特征选择,即财务比率选择。 4.分类决策:分类决策就是用统计方法把被识别对象归为某一类别。基本 作法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象 进行分类所造成的错误识别率最小或引起的损失最小。 在实际应用中,有时信息获取和特征选择部分工作已由专家完成,统计模式识别系统设计的任务就简化为纯粹的分类问题,此时,可以直接应用机器学习或 统计方法来解决分类问题。可见,模式识别与许多学科密切相关,如统计学、数 学、机器学习、人工智能、信号处理等,如图1.2所示。例如,统计学里的贝叶斯(Bayes)决策理论和概率密度估计理论已成为统计模式识别的理论基石,在机器学习领域中发展起来的人工神经网络和决策树也已在模式识别中得到了广泛的应用。圈1.2与模式U{别密切相关的学科然而,作为一个解决实际问题的工程性学科,模式识别与上述学科又有所不 同。从工程性学科角度看,模式识别关注的核心问题有两个(【DRR02】):一是 如何对实际模式识别问题建模;二是分析由其它学科发展的技术方法用于解决模式识别问题时的局限性。具体地讲,模式识别系统设计者应该从实际问题出发,构造最符合实际情况的模型,然后仔细分析各种解决方法的优缺点,以从中选出 最佳方案,如果现有技术方法都不满足要求,那么需要设计者发展新的符合需求 的解决方法。8 北京交通大学博士学位论文第一章绪论1.2.2从模式识别角度看财务困境预测问题由1.1.2节可知,目前国际上财务困境预测的主流方法是基于财务比率的模 式识别方法,并且实际应用最有效的是线性判别和Logistic回归两种传统统计方 法,然而,这两种方法在实际应用中仍存在许多问题([B004])。下面,本文从 模式识别角度重新审视这几个问题。 “将财务困境预测抽象成一个模式识别问题”本质上是一种工程性的解决思 路,财务比率包含的信息量毕竟有限,所以存在“二值因变量假设”、“年度会计 信息应用”和“时间维问题”不可避免,这是采用模式识别方法进行财务困境预 测的固有缺陷。而对于“变量选择”问题,从模式识别角度讲,目前常用的逐步 判别方法已十分有效,再难有大的提升。 数据的“非平稳”现象在实际模式识别应用中比较普遍,如天气预测、消费 者兴趣预测、垃圾邮件过滤等。这种现象在机器学习领域内被称为“规律漂移(Conceptdrift)”,并已有近20年的研究历史(【sG86】[KK92][HL94][WK96][Wid97]【HSH98][BH99]噼M031[Kli04][LVB04])。这些研究有一个共同假设,即 假定由环境变化导致的“规律漂移”是缓慢进行的,而且,越新的数据越有参考价值。基于这一假设,研究者提出了许多对样本加“时间窗”的方法,也即在学 习过程中逐渐地剔除“老”的训练样本,并加入。新”的训练样本,使学习到的 分类模型能跟上数据规律的变化([KK92][HL94][WK96]阻SH98][LVB04])。此外,也有少数研究者尝试将集成学习(Ensemble learning)或对训练样本加“权 重”的方法用于规律漂移学习问题([KM03】陬li04][Kun04])。 至于如何抽样,财务困境预测领域至今没有一个公认的标准,也未见有系统、 深入的相关研究。仔细分析一下问题的本质,我们的目标是“从已有数据集中抽 取建模样本,使训练出的模型(即分类器)能够对所有新来的样本进行准确的预 测”.然而,实际中陷入财务用境的公司占公司总体数目的比例往往很小,即正 类样本(困境公司)个数远小于负类样本(正常公司)个数,那么,应该采用一 一配对原则抽取建模样本,还是应该按照原有的类别概率来抽取建模样本?事实 上,从模式识别角度讲,这是一个纯粹的分类器设计问题,本文将其称作“非平 衡数据模式分类”。 事实上,非平衡数据现象在现实中普遍存在,例如信用卡交易欺诈(【CS98】)、 电信设备故障(【WH98】)、雷达图像监测海洋石油污染(【KHM98】)、婴儿出生 死亡率(【BZGB00】)等等。由于其普遍性,非平衡数据模式分类己引起许多学 者的重视,并成为近年来机器学习领域的一个研究热点,下面对其进行简述。9 北京交通大学博士学位论文第一章绪论1.2.3非平衡数据模式分类研究现状非平衡数据(1mbalanced dataset),也称为类别不平衡(Class imbalance)数 据,是指在两类分类问题中负类样本(Negative example)个数远大于正类样本(Positiveexample)个数的情况。这种情况下,当用分类正确率作为评价标准时,就会出现问题。例如,设负类样本比例为99%,正类样本比例为1%,如果一个 分类器将所有样本都判为负类,那么该分类器的判决正确率为99%,但是,所 有正类样本都被错判! 通常,把正类样本错判为负类的损失远大于把负类样本错判为正类的损失, 所以正类样本往往是分类的关注所在.因此,分类正确率不适合非平衡数据情况 下的分类性能评价。另一方面,许多分类方法是基于数据平衡分布假设的,如决 策树、支持向量机,近邻法和线性判别分析等,当把这些方法直接应用于非平衡 数据分类时,会导致分类器的推广能力下降,因此,非平衡数据分类研究具有重 要现实意义。 近凡年,西方学者较早地注意到非平衡数据的普遍性与重要性,并投入了巨 大的研究热情,以此为主题或与此相关的国际会议召开了多次,如AAAI’2000 (papOO])、ICML'2000([DMPT00])、ICML’2003([CJK03])、SlGKDD’2004 ([CJK04])、ECAI。2004([FFOL04])等等。目前,这个问题也开始受到我国学 者的极大重视,如自然科学基金委信息科学部已将“类别概率不平衡数据与处理 代价不同数据的机器学习新方法”作为重点研究内容列入了2006年重点资助项 目“机器学习中的若十重要问题研究(F03)”中。 总结已有研究成果([JapOOl[CJK03]【CJK041),可以得出如下结论:1)对于 非甲衡数据分类问题,应该用ROC(ReceiverOperatingCharacteristic)曲线及相 关工具(如ROC曲线下面积)来评估分类器的推广性能;2)有两种方法可以提 高分类器在非平衡数据上的推广性能,一是随机抽样,即人为地减少训练集中的 负类样本个数(下抽样)或增加正类样本个数(上抽样),从而使训练集中的两 类样本趋于平衡;二是改进分类器的构造机制,使之适用于非平衡数据。 事实上,这些研究主要发生在机器学习领域,关注的对象均是机器学习领域 主流的分类方法,如决策树、近邻法和神经网络等([Jap00][CJK03][WP03][JS02] 『BSGR03]),而对于一些经典的模式分类方法(如线性判别),从已有机器学习 和模式识别文献中,未见相关研究。鉴于线性判别是模式分类中的一种重要方法, 尤其在财务困境预测中已得到广泛应用,因此,本文将对非平衡数据下的线性判 别问题进行重点研究。lO 北京交通大学博士学位论文第一章绪论1.2.4本文研究目标与主要工作本文是作者四年来在导师裘正定教授的指导下,在模式分类领域内学习和研 究成果的一个阶段性的总结。论文以财务困境预测为应用背景,从中引出一个具有普遍意义的非平衡数据模式分类问题――本文研究目标,重点研究非平衡数据对Fisher判别的分类性能的影响,以及如何设计适用于非平衡数据的线性判别模 型,进而研究如何选择最小风险判决阈值、如何估计预测集的类别概率、如何对 样本判别值进行概率校准等分类器设计中的几个重要问题。 论文所作的工作及章节安排如下: 第一章绪论:介绍了财务困境预测研究的历史沿革,以及目前仍存在的问题,从中引出了一个具有普遍意义的问题――非平衡数据模式分类。此即本论文的研究目标,论文所有工作都围绕这个中心展开. 第二章非平衡数据线性判别:Fisher判别是财务困境预测中的主流方法之 一,其主要思想在于寻找一个最优的投影方向,使投影后同类模式相距较近,同 类模式密集,不同类模式相距较远,即类心相距较远。由于整个方法的核心是求 解满足Fisher准则的投影向量,所以分析非平衡数据对投影向量、及对分类性能 的影响十分必要。本章包括的工作内容有: 1.通过理论分析指出,当两类样本协方差阵相同时,非平衡数据对投影向 量没有作用,最终不会影响Fisher判别法的分类性能:当两类样本协方 差阵不相等时,非平衡数据会影响投影向量,最终可能使Fisher判别的 分类性能下降。实验证明了理论分析的正确性。2.提出了一种加权Fisher线性判别――wFLD,它本质上是一种特殊的上抽样,即同时对两类样本进行不刷倍数的简单复制,使变换后的两类样 本个数达到l:l平衡。最后,通过实验证明了WFLD的有效性。 第三章判决阈值选取:阈值的选取对判决结果影响甚大,而Fisher判别却 未提供规定选取阈值的原则。ROC曲线是一种“模型一无关”的分析工具,它 具有坚实的理论基础,非常适用于非平衡数据分类中的阈值选取,然而,当样本 数目有限时,由非参数方法生成的ROC曲线往往呈明显的台阶状,这就使基于 ROC曲线选取的阈值偏离了理论上的最优值。针对Fisher判别,本文提出了一 种基于Bootstrap技术的BFLD算法,该算法可生成较为连续和稳定的ROC曲线, 由此选取阈值可以减小总的判别风险。本章的具体工作内容包括: 1.针对Fisher判别,提出了一种基于Bootstrap技术的BFLD算法。实验 表明,与一般的非参数方法相比,利用该算法产生的ROC曲线更加连 北京交通大学博士学位论文第一章绪论续和稳定。 2.实验证明,与预留法相比,基于BFLD算法产生的ROC曲线选取的(单 个)阐值或(两个)拒判阈值都可以减小总的判决风险。 3.实验证明,与留一法(交叉验证法)相比,利用BFLD算法可以对预测 集的类别概率进行更加准确的估计。 第四章判别值概率校准:在模式分类系统设计中,如果知道样本属于各个 类别的概率,会有许多益处,如可以实现最优判决、便于进一步的融合决策等。 理论上,贝叶斯分类器可以实现这一目标,然而由于高维样本的类条件概率密度 很难准确估计,所以在许多实际应用中人们往往寻求各种解决途径,本章进行了 以下两个方面的研究工作: 1.针对Fisher判别,假设样本判别值在两类中均服从正态分布,然后利用 样本判别值的经验分布来估计未知参数,从而计算出样本判别值的类条 件概率密度,将其与先验概率一起代入贝叶斯公式可计算出后验概率, 此概率即为样本判别值的校准概率。实验表明。Fisher判别值的校准概 率比LR模型概率能更准确地逼近真实概率。 2.混合隐变量模型是高维样本概率密度估计的新方法,本文分别采用因子 分析与概率主成分分析来估计类条件概率密度,然后构造出相应的贝叶 斯分类器。实验表明,在上市公司财务困境提前2年预测中,这些姒叶 斯分类器的性能仍不及传统的Fisher判别和LR模型,在提前3年预测 中,基于因子分析的贝叶斯分类器的性能稍优于传统统计模型。 第五章实用财务分析系统:介绍了实用财务分析系统的设计、开发工作。 并已将本论文财务困境预测研究成果嵌入其中,使系统不仅实现了基本的财务分 析功能,而且具备了“智能化”预测的功能。此外,该系统采用了模块化设计, 我们可以在此基础上测试和验证各种预测模型的准确性和稳定性,为将理论研究 工作应用于实际奠定了坚实基础。 第六章结束语:给出了全文的总结,并对今后的研究工作进行了展望。 北京交通大学博士学位论文第二章非平衡数据线性判别第二章非平衡数据线性判别2.1引言判别分析根据两个或多个已知不同总体的抽样结果,按照所确定的准则,建 立数学模型或函数,从而用来判别任一新观测到的样本应属于哪一个总体。它是 多变量统计分析中较为成熟的一类方法,包括线性判别、二次判别、Logistic判 别(也称为Logistic回归)等。其中,线性判别函数形式简单、易于分析,是一 种应用性较强的方法,已经在自然科学、社会科学各个领域中获得了广泛的应用, 并取得了丰硕的成果。例如,在金融中,线性判别已被成功地用于破产预测、信 用评分等各个问题([AAESSH). 众所周知,线性判别与样本的先验概率和错判代价有关,然而,许多学者(尤 其在财务困境预测研究领域)在应用线性判别时都忽视了这一问题,他们往往假 设各类样本具有相等的先验概率和错判代价([AAES81][B004】),这显然会影响 线性判别的性能。并且,从已有模式识别和机器学习文献中,未见“非平衡数据 对线性判别的影响”的研究.鉴于此,本章首先分析非平衡数据对Fisher判别分 类性能的影响,然后,提出一种加权的Fisher判别模型以克服非平衡数据的影响.2.2线性判别根据判别函数的构造准则不同,线性判别又可以分为距离判别、贝叶斯 (Bayes)判别、Fisher判别等方法([Fis36][SP90][ZF9TJ)。本章以两总体为例, 对这三种线性判别方法进行介绍。2.2.1足巨离手0另0距离判别是一种比较简便直观的方法,其基本思路是根据已知类别的样本, 分别算出各类的均值,并以此作为该类的中心坐标,然后根据新样本离开每类中 心的距离远近做出它属于哪一类的判断。在距离判别方法中一般采用马氏 (Mahalanobis)距离,它是一种广义距离。 记总体G的均值向量为n,协方差阵为∑,,则j个新样本点x到总体G,的 马氏距离定义为 北京交通大学博士学位论文第二章非平衡数据线性判别扩(I,q)垒(I一^)耳1(I―h)则马氏距离判别规则为(2.2.1)式中(X--ltj)'为(X--p,)的转置,z-1为矩阵骂的逆,往后类似符号将不再说明。. 若扩伍GI)≤铲伍G2),则判x属GI;否则,判I属G2的差,有(2.2.2)在两总体的协方差阵相等情况下,记z。=邑=z,考察扩(I’GI)与d2伍G2)dz(I,GI)一∥(I,G;)=(x―p。)‘∑‘1(x―p。)一(x―p:)’】:_1(x―p:)=之(卜学)蹦盱曲令娩2∞乒=(p。+p2)/2,(2.2.4) (2.2.5)g(x)=(I一乒)’Z-1(Pt-P:),则由(2.2.3)式确定的判别规则可写成若g(I)≥0,则判x属GI;否则,判x属G2当h,№,∑已知时,令(2.2.6)a=Z'-1(P-l-p2)设样本I的维数为j},则_为一己知的七维向量,这时(2.2.7)g(x)=(x一再)。-(2.2.8)g(x)就表示成x的一个线性函数,它称为线性判别函数。a称为判别系数。2.2.2贝叶斯判别贝叶斯判别从“使错判损失最小”的角度出发,寻找一种判别函数,其基本 思想:假定对研究对象已有一定的认识,而这种认识常常用先验概率来描述,然 后取得一个新样本,用该样本提供的信息再修正已有的认识,从而可以得到后验 概率分布,各种统计判别都通过后验概率分布来进行。设两个总体GI与G2的先验概率为啊与毛,用p(IIf),f=1’2表示条件概率密度―在真实类别为q的条件下x的概率密度函数,那么后验概率P“Ixl可通过贝叶斯公式得到脚)=!簧掣,叫=蔷2哪(xIi)用如表示样本来自G,而误判为q的损失,则与此相应的损失为14(2.2.9) 北京交通大学博士学位论文第二章非平衡数据线性判别R(11x)=妻乃-P(Jlx)(2.2.10)用决策理论中的术语来表达,一个预期的损失被称为一次风险,R川x)称为条件风险。对于任何新的观测样本x,我们都可以通过选择最小化条件风险的行 为来使预期的损失最小化,也就是说贝叶斯决策过程实际上是一个使总风险最小 的优化过程.从形式上讲,问题是找到一种替代巩的决策规则以使总风险最小化。通常,判别规则是一个函数g(x),它确定了观测样本x对应的函数值g,也即表明对于观测样本x该采取哪种行为.总风险R是与某一给定的判决规则相关的预期损失。既然R(ilx)是带a。将x判为属于总体G”有关的条件风险,且决策规则制定了其行为,则总风险可表示为R=仁({l,2}lx)-p(x)dx(2.2.11)显然,如果选择“将x判为属于总体GI或G2”,使R(i[x),,=1,2对于每个I尽可能小,那么总风险将被最小化。这证明了如下所述的贝叶斯决策规则:为了使 总风险最小,计算条件风险R(Jlx)---^。,(1Ix)+^:V(21x) R(2Ix)=如P(1[x)*2-aP(21x) 如果月(1 Jx)<R(2Jx)则判为I∈Gl?用后验概率的形式表述为,如果 .(五.一^。),(1lx)>(^:-2-a)e(21x)那么判为x∈G1.(2.2.12)(2.2.13)(2.2.14)通常,一次错误判决所造成的损失比正确判决要大,且因子(五.一^。)和 (^:一五:)都是正的。利用贝叶斯公式,可以用先验概率和条件密度的形式来表述判决规则:如果下式成立,则判为x∈Gl,否则,判为x∈G2。丛理>互2二生玉p(x12)五l一五-1/'1(2.2.15)这种判决规则的形式主要依赖于x的概率密度函数。可以考虑P(xIfl作为i的函数(即似然函数),于是构成“似然比”,(x J1)/,(x J2)?因此贝叶斯决策规则可以解释成:如果似然比超过某个不依赖观测值x的阈值,那么可判为x∈Gt。 作为贝叶斯准则的一个重要的特例,如果在分类时不考虑“损失”,而仅关 心任一待判样本x被错误分类的概率,可以取在平均意义上错分概率为最小作为 一种判别准则,这个准则称为平均错分率最小准则。此时,损失函数就是所谓的 “对称损失”或“0--l损失”函数, 北京交通大学博士学位论文第二章非平衡数据线性判别乃:{o■ 乃21¨≠,。1’ i,j-l,2(2.2.12 6) 旺~m’这个损失函数将0损失赋予一个正确的判决,而将一个单位损失赋予任何一种错 判,因此所有误判都是等代价的.最小错分率规则可以表述为(2.2.17) 如果P(ilx)>P(Jlx),.,≠f,则判x仨q 将上述规则表述为判别函数形式,即令蜀(I)=P(准),此时最大判别函数 蜀(x)与最大后验概率P(flI)相对应。显然,判别函数的选择并不是唯一的,可以将所有的判别函数乘上相同的正常数或者加上一个相同的常量而不影响其判决结果,更一般情况下,如果将每一个蜀(x)替换为,b(x)),其中,(?)是一个单调递增函薮?分类结果不变。选择如下形式的判别函数gJ(x)=h,v(x10+U--,,,i=1,2通常,对于两类问题,定义一个更简单的判别函数(2.2.18)其中,In表示自然对数.则平均错分率最小规则变为:如果gI>gz,则判I∈Gl?g(I)皇gI(I)一92(x) 且使用下列判决规则:如果g(I)>o,则判I∈Gl;否则判x∈G2?(2.2.19)当两总体是正态分布,且协方差阵相等时,判别函数gI(I)=lIIp(xIj)+ln乃可以简化为g,(x)=一妄(I―n,L"-'1(x-p,)+Jn乃(2.2.20)其中,h与z。分别是总体GJ的均值向量和协方差阵.显然,如果两总体的先验 概率相等,那么hI羁项可披省略。此时,平均错误率最小规则等价于马氏距离判别规则.将二次型(I―pj)。z.‘(I一^)展开可得一与f无关的二次项I.F1I,将公式(2.2.20)中的此项去掉后可得线性判别函数&(x)=‘x+qo其中 ^=F1^^+m一 q。=一二1。?.z-I^+lIl―(2.2.21)(2.2.22)q02一互??2.2.3(2.2.23)Fisher判别Fisher判别准则是与“距离”概念相联系的一个准则。如果已知判别函数g(x),则理论上在总体G1中g(x)的均值蚕和方差砰是一定的?同样,在总体G2 中g(x)的均值磊和方差霹也是一定的。 北京交通大学博士学位论文第二章非平衡数据线性判别Fisher判别的思想是:要使得总体判别函数的均值之间距离(磊一磊)2尽可能 地大,而同时使各总体判别函数的方差砰和西尽可能地小,即在‘,:韭簋口lD彳+qe啄(2.2.24)为极大的条件下,求得判别函数g(I)。上式中吼与吼分别是总体GI和G2的先验概率或某种权数(即为指定的常数).记Z(x)与五(x)分别为总体6l和G2中x的概率密度,则蟊=括(xM(x)矗,砰=Hg一蚕)2Z(x)斑(2.2.25)由(2.2.24)和(2.2.25)式容易得出这个准则下判别函数的一个性质:如果g(x1是使(2.2.24)中.,达到最大的判别函数,则口g(x)+卢也是使‘,达到最大 的判别函数,此处a与∥为任意常数,口≠0。也就是说,g(x)与口g(x)+卢在Fisher准则下是等价的。 利用极值原理可以证明g(I)=黼一晓:舶,是使(2.2.24)中J达到最大的一个判别函数,它又称为Fisher准则下的最佳判 别函数.由于一般概率密度形式是不知道的,因而实际上可以转而限定判别函数 的形式,比如取线性判别函数g(x)=q^+…+口l黾-“a'x,曩=(q,q….,q)然后再设法确定待定判别系数a.这时,将上式代入(2.2.25)可得(2.2.27)磊=a.^,砰=a’∑,a,f=1,2其中,It,,£,为G,中x的均值及协方差阵,代入(2.2.24)可得(2.2.28)‘,:!f竺!:!!!!!竺!二竺!!!其中Z=吼∑I+9222(2.2.29)(2.2.30)(2.2.30)式两端对a求导数,利用皇::丝:2Aa(当一为对称阵时),得芸=堑掣Ea一番m-仉灿一吨ya钿afa’PA\‘……1~利用(2.2.29)式,令学=o,上式可变为如下形式 北京交通大学博士学位论文第二章非平衡数据线性判别z_=,,(pl―p2) 其中,r是一个未知的标量.由Fisher准则性质可知,判别系数可以相差一个常数倍数,所以不失一般性可取,,=l,于是上式变为,Tat=(pI―p2)a=(霉IzI+%邑)-l(1Il―p2)(2.2.31)总体来讲,Fisher判别法是将两个不等的协方差阵加权构成一个公共协方差阵,它并不要求GI与G2满足正态分布,而贝叶斯判别法则要求Gl与G2是正态等 协方差阵的.所以就这个意义来说,可以认为Fisher线性判别函数实际上是推广的贝叶斯线性判别函数。但在判别分析的历史上Fisher判别是1936年就提出了, 而贝叶斯线性判别函数却迟至20世纪50年代才出现。 当总体参数未知而用训练样本去估计时,样本Fisher函数形式上仍为(2227)式,只是n及写应分别用样本均值m,及样本协方差阵骞代替,即-=(吼毫+92乞)-1(m。一m:)g(x1=a’I其中(2.2.32) (2.2.33)”(粪~协小驼\J一 /,(2.2.34)毫=专粪(~咀)睁m,).唐Lz(2.2.35)2.2.4线性判别小结在线性判别中,判别准则和判别方法很多,上述是其中最著名的3种。对于 同一批数据采用不同的准则或方法来处理,其结果一般不会相同。可是在统计理论研究中早已证明(【SP90]):在两总体时,如x在GI与G2中的分布服从多维正态分布且有相同的协方差阵,则上述3种判别方法的效果是相同的,并且为最优 分类器.在实际应用时,需要注意它们之间的一些差异,具体表现在: 1.Fisher判别对分布类型并无规定,只要求有两阶矩存在,这与距离判别 是一致的,而与贝叶斯判剔不同。从此意义上讲,Fisher判别是一种非 参数方法。 2.当两总体协方差阵不相等时,Fisher判别用两总体的样本协方差阵的加 权和吼宝。+吼宝:作为共同的协方差阵,实际上看成是等协方差阵,这与 距离判别和贝叶斯判别是不同的。l叠 北京交通大学博士学位论文第二章非平衡数据线性判别3.Fisher判别法本身未规定判别阈值点的选择原则,因此允许人为地用各种方法来选取阈值点.2.3非平衡数据线性判别 2.3.1非平衡数据对线性判别的影响本文以Fisher判别法研究对象,分析非平衡数据对线性判别的影响。在经典的模式识别教材中([BZ00][DHS01]),吼与92通常分别取总体Gl和G2先验概率的样本估计值N. N、吼=耳葡’吼2币麓”则式(2.232)可改写为?。赤(墨+是)-l(ml-m:)其中(2-3.1)西=Ⅳf毛=艺(I,一m,)(x,一m,)。,t=1,2Jml(2.3.2)式中墨称为类内离散度。可见,由于常数因子l/(Ⅳl+Ⅳ2)对投影方向-没有影响,故-由类内离散度之和与样本均值矢量之差共同决定.在独立同分布假设下,样 本均值矢量与样本个数无关,即两类样本均值矢量差与样本类别不平衡无关。因此,投影方向a仅受类内离散度之和的影响.由(2.3.1>及(2.3∞式可知,当两类样本协方差阵相等毫=宝:时,样本类别不平衡(Ⅳl≠^r2)不会影响投影方向a; 当毛≠龟,两类样本个数不平衡,尤其相比悬殊(Ⅳl《Ⅳ2)时,足对投影方向a的贡献将远远大于墨对a的贡献,从而可能导致投影方向偏离最优判别方向.2.3.2加权Fisher线性判别为消除非平衡数据的影响,本文对公式(2.3.1)中的墨与岛分别进行加权Ⅳ2 与Ⅳl,从而使两类样本协方差阵对投影方向的贡献相等,即-=瓦÷瓦(Ⅳ2s+Ⅳl最)-l(m-一mz) 北褒交通大学博士学位论文第二章非平衡数据线性判别=毒籍(竞。+宝:)-1(m1.m:)(2.3.3)Linear鼬inant,WFLD).本文将这种改进Fisher判别称作加权Fisher线性判别(1)l,ei曲∞cd Fisher由式(2.3.3)可见,WFLD本质上是一种特殊的上抽样方法:不但对正类样 本进行镌倍的上抽样(简单复制),而且同时对负类样本进行Ⅳl倍的上抽样(简 单复制).这样加权相当于使原始非平衡数据集变成两类样本数目为1:1的平衡 数据集,从而克服非平衡数据对Fisher判别的分类性能韵影响。2.4实验与分析 2.4.1实验1:在UCI数据集上的实验实验l的目的是比较由非平衡数据集和平衡数据集分别学习到的Fisher::r濮器(即判别规则)的推广性能。为捧除判决阈值选取对性能评估的影响,将ROC 曲线下面积(Area Under the ROC c粗rvo,AUC)作为评估标准(利用文献[Faw03】 中的算法3计算AUC,详见附录B,ROC曲线和AUC的原理叙述见第三章). 从公共机器学习数据库UCI中选择了10个数据集用于实验([BM981)。对于类 别数大于两类的数据集,任取其中一类作为正类,其余各类都归为负类。从而使 这10个数据集具有不同的非平衡程度,如表2.1。UCI数据集hIlage原有19个 特征,其中第3个特征为常数,它不但于分类毫无价值,而且必然导致矩阵求逆 时奇异,故在予以删除。此外,所有数据集都进行了0均值、标准差为l的规范 化预处理。表2.1数据集描述 数据集Let把r-a Safimage-3样本数20000 6435特征数16 36 21 18 18 8 59类别标签(iE,负) 札其余) (3'其余) (1,其余) (BRICKFACE,其余) (van,其余)(1,o)类别概率(正,负)a.95%,96.05%)(21.1%78.辨幻(33.33%,66.67%)(14.29%。85.7I%) (23.52%,76.48%)wareformImage‘ Vehicle Pima Thyroid Glass50∞23lO 846 768215(34.77%.65.23%)(16.28%,83。72%)(hypo,其余) (Ve-win-float-proc,其余) (3,其余)214 178 150(7.94‰92.06煳(26,97%,73.03%) t33.33¨’66.67%)WineIris13 4(3,其余)20 北京交通大学博士学位论文第二章非平衡数据线性判别为了从原始非平衡数据集得到平衡数据集,本文采用4种不同的抽样方法: 1.随机上抽样:简单地随机复制(replicate)正类样本,最终使两类样本数 目趋于平衡。在机器学习研究中,常采用一种最简单的随机上抽样方法――样本集复制(duplication),即成倍地复制正类样本集,以使两类样本达到平衡。这种方法不破坏正类样本的类内分布,但一般只能使两类样本数目近似达到l:1.2.随机下抽样:简单地随机删除负类样本,最终使两类样本数目达到l:1.在样本数目有限时,该方法极可能改变负类样本的类内分布,并且常常丢掉一些 对分类有益的样本信息.3.Tomek联结(口.om76】):用d《骂,E,)表示正类样本五与负类样本冒,之间 的距离,如果两类中不存在另外一个样本马,J≠‘-,,使d(乓,弓)<d(五,目)或d(弓。E)<d(互,弓),那么局与弓便构成一个Tomek联结(Tomeklink)?可以认为构成Tomck联结的两个样本必然处于两类样本的分界线(或面)附近,将其中的负类样本E,剔除,便是基于Tomck联结的下抽样方法,本文简称为Tomck联结法。对于可分性较好的两类样本,这种方法剔除的样本数目常常很小,使抽 样后的数据集的非平衡性改善不大。 4.SMOTE(Syuthetie MinorityOver-sampfing Technique)([CHBK02]):主要思想是引入新的非重复的人造正类样本,即在任意两个正类样本之间插入新 的正类样本,使两类样本数目趋于平衡. 本实验采用4重交叉验证技术进行比较。训练集和测试集的划分如下:首先, 将原始数据集随机地划分成4等份,其中每一份中的样本类别概率与原始数据集 保持一致:其次,做4次训练和测试,每次轮流将l份样本作为测试集,剩余的 3份样本作为非平衡训练集;再次,利用上述4种抽样方法,可以由非平衡训练 集分别得到4种。平衡训练集”.然后,比较由平衡与非平衡训练集学习出的Fisher 分类器在同一非平衡测试集上的推广性能。 需要指出,由于随机下抽样方法在删除负类样本时具有随机性,所以本文对 每一次随机下抽样都重复进行了lO次,然后取平均结果作为该次随机下抽样的结果。同样,在求解随机下抽样方法相应的投影方向与其它投影方向的夹角余弦绝对值时,也是取10次结果的平均值. 表2.2是4重交叉验证的AUC平均值,可见:1)在除Pima外的9个数据 集上,由随机上抽样、随机下抽样、SMOTE及WFLD四种平衡训练集学习出的 Fisher分类器的推广性能均比非平衡训练集情况有所提高.2)对于Tomek联结 法,除了在数据集Glass上提高了推广性能外,在其它9个数据集上几乎没有任 北京交通大学博士学位论文第■章菲平衡数据线性判别何提高。3)总体上讲,随机上抽样、SMOTE、及WFLD比随机下抽样方法的 效果更好。 分析原因:1)实际数据(UCI数据集)一般不能满足“两类样本协方差阵 相等”的条件,所以抽样或加权修正(实质也是抽样)可以提高Fisher分类器的 推广性能。2)除了数据集Glass的线性可分性较差(AUC值较tb),其它9个数 据集的线性可分性都较好(AUC值接近于1),导致Tomek联结法删除的负类样 本个数相对较少(见表2.3),从而抽样后的数据集的非平衡性没有显著变化,最 终使推广性能没有提高。3)随机下抽样方法可能丢弃了包含对分类有益的样本 信息,故其效果不如各种上抽样方法。表2.2 数据集Lc比er.a4重交叉验证的AUC平均值 随机下抽样0r.9853 0.9871 O.9425 0.9928 0.9902 0.S293 0.9957 0.7884 0.9990 0.9825非平衡O.9754 0.986 O.9414 O.9925 0.9828 O.8317 0.9788 0.7497 0.9987 O.9673随机上抽样0.9855 O.9876 0.9434 O.9939 0.9906 o.8303 0.9977 0.8392Toreek联结0.9754 0.9861 O.

我要回帖

 

随机推荐