概率论问题 贝叶斯估计定理

 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
(概率论与数理统计专业论文)回归模型中的贝叶斯分析
下载积分:800
内容提示:
文档格式:PDF|
浏览次数:0|
上传日期: 02:22:16|
文档星级:
该用户还上传了这些文档
(概率论与数理统计专业论文)回归模型中的贝叶斯分析.PDF
官方公共微信论文发表、论文指导
周一至周五
9:00&22:00
贝叶斯推理的逻辑与认知问题
&&&&&&本期共收录文章12篇
  [摘 要] 贝叶斯主义的复兴出现在统计推理领域,贝叶斯方法成功避免了经典统计推理中的主观因素问题以及先验回避问题,凸显了自身的归纳特性,因而是推理方法的革命。尽管目前贝叶斯主义风行,但它仍存在主观性、简单性与旧证据问题等难题,这也为其进一步发展留下了宽广空间。认知心理学近来对贝叶斯推理研究的发展,为贝叶斯推理研究的认知转向提供了契机,同时为这种方法的发展提供了可能的进路:探索频率主义与贝叶斯主义整合的可能性;在外延性归纳逻辑中引入内涵因素,尝试外延性与非外延性因素的融合。中国论文网 /4/view-3161395.htm  [关键词] 统计推理; 贝叶斯推理; 逻辑; 困境; 认知转向  20世纪是现代归纳逻辑取得重大进展的一百年。现代归纳逻辑的初步形成是在20世纪20年代,以“凯恩斯革命”闻名于世的英国经济学家和逻辑学家凯恩斯(J.M.Keynes)在1921年出版了《论概率》,率先把数学概率论与归纳逻辑相结合,建立了第一个概率逻辑系统。此后,逻辑学家们纷纷提出自己的概率逻辑系统,凯恩斯开创了现代归纳逻辑发展的新时代。这条研究进路通常被称为“贝叶斯主义”。贝叶斯主义是目前最具优势的研究纲领之一。  贝叶斯主义思想包括两个方面的要点:一是归纳推理与演绎推理的不同之处在于,归纳推理是一种不确定推理,即前提的真并不蕴涵结论的真,它只是对结论提供了某种程度的支持。二是归纳推理的这种不确定性,也就是前提对结论的支持程度可以用概率来衡量。直到20世纪30年代,由于概率形式系统的出现并对概率概念作出主观主义的哲学解释,才使贝叶斯主义有了一个完整的思想框架。  贝叶斯主义广泛运用于统计学、经济学和心理学等领域。除了这些传统学科,它还与新兴的认知科学的研究有重要联系,尤其是在1990年后,出现了“贝叶斯主义的复兴”。在人工智能(AI)的研究中,以贝叶斯网络应用为主的贝叶斯统计技术亦是成果斐然[1]。  同时,一大批哲学家开始把贝叶斯主义从统计推理领域延伸到更为一般的归纳推理和科学方法论的研究中,试图借助贝叶斯理论来进行科学确证与接受等科学推理中的实际活动,解决归纳逻辑中的各种悖论和难题,并形成了归纳推理研究的一种综合性纲领。按照德?芬内蒂的看法,在实际预测的场合中,“主观主义的解释是唯一适用的”[4]347,所以江天骥先生指出:“主观贝叶斯主义或私人主义已成为现代归纳逻辑和决策论中一个强有力的学派。”[2]25主观主义概率逻辑的兴起是“推理方法上的革命”[2]25。  尽管贝叶斯主义理论极具方法论意义,在许多研究领域和学科中可以作为一种普适的归纳方法,如科学推理中的贝叶斯方法,然而,贝叶斯方法在不断解决哲学难题而蓬勃发展的同时,其理论内核也遭遇了困境。国内学界对这方面的研究比较零散,缺乏系统而深入的探讨。本文缘此而论,围绕贝叶斯方法的兴起、困境与出路展开探讨。  一、 经典统计推理的不足与贝叶斯方法的兴起  贝叶斯理论和方法的复兴发生在统计推理中[3]10。从逻辑上看,较之经典统计推理方法,贝叶斯方法在某些方面表现出较大的优越性,特别表现在凸显归纳特性上。  (一) 经典统计方法的不足  在处理统计假说,面对估计和假设检验问题时,经典统计推理的基本假设都受到贝叶斯主义者的反对和批评。实际上,反对者对这两个基本假设的批评是有道理的,他们至少明确地指出了经典方法的局限:  第一,经典统计推理以基于频率解释的概率概念为唯一根据,这是经典统计方法的核心。它主张概率模型必须建立在一个样本空间上,并假定这个样本空间能够反映总体在同等条件下的实际情况。这样一个总体是否存在(即使在概念上)有时是有疑问的,对这个样本空间的详细说明往往被认为是武断的或者主观的。  第二,样本数据是有待分析的唯一具有“客观”形式的资料。经典统计方法对于它认为是“相关资料”的东西大加限制。换言之,经典统计方法认为只有样本数据才是适合进行定量化和加以形式分析的。然而,推理者先前已经掌握的资料或先验信息事实上也是量化处理和形式分析的重要部分,经典统计方法忽视了这一点。特别是当这些先验信息也能够轻易加以量化时,人们对经典统计方法的批评就更加激烈了。  具体而言,经典统计方法主要有显著性检验和经典估计理论,它们都是非贝叶斯方法。这两类方法的不足主要有:  1. 显著性检验的主观因素问题  显著性检验的两种主要理论分别是费希尔(Fisher)检验和奈曼—皮尔逊(Neyman?Pearson)检验。一般来说,显著性检验的基本模型的推理程序可以看做是用一种反证的方法检验原假说H0(null hypothesis),将检验结果与设定的显著性水平对比,以判定能否证伪H0。如果能够证伪H0,就接受与其矛盾的备择假说H1。这里的显著性水平就是检验时采纳的临界概率,按照社会学的惯例,一般采用0.05作为标准。例如,若H0的检验结果P0≤0.05,那么可以认为它在显著性水平0.05上是显著的,且认为原假说H0在水平0.05上是被拒绝的,继而接受H1。虽然这种推理程序有一定的应用价值,但显著性检验面临主观性的困境,这与经典方法追求的客观性理想相矛盾。费希尔理论的不一致体现在检验统计量的选择难题上。也就是说,选择不同的检验统计量可能会得出不同甚至矛盾的结论,影响我们对假说的判断。而检验统计量的选择又缺少约束条件,带有人为的任意性。另一方面,奈曼—皮尔逊理论(N  P检验)中有两个主观因素:原假说的选择和结果空间的产生。首先,N  P检验引入了竞争假说,而且将这个竞争假说作为原假说,通过验证该假说的结果来决定接受或拒绝检验假说。但原假说有可能是被任意指派的,这就使N  P检验理论带上了主观色彩。这种实用但任意的决策不具有认识论意义,不能构成归纳支持的基础。其次,N  P检验的完成需要对假说的结果空间进行比较。N  P检验认为,凭借停止法则可以创建可能的结果空间。这条法则预设了实验应该停止的情况。由于停止法则暗含了主观意图,使结果空间的确定具有主观性,进而有可能影响人们作出科学的判断。例如检验公平硬币假说的实验,要求出现6次正面朝上就停止实验,与要求实验者抛掷20次后停止相比,前一条停止法则会排除许多不停止实验可能出现的结果。
  2. 经典估计的先验回避问题  所谓经典估计理论,就是通过随机抽样形成一个总体的样本,根据该样本的知识来评估所求属性在总体中的比例。科学家通常需要估计物理量,从而把某个或一些数值视作差不多较好地逼近了真值。显著性检验一般不能表述这类估计,而对这类估计的诉求促使经典统计学家发展了一套经典估计理论。这个理论之所以是经典的,是因为它声称提供了客观和非概率的结论。经典估计的推理程序一般表现为: 在总体中进行随机抽样,获得一个具有所求属性A的样本,通过观察A在样本中的相对频率f(A),来估计A在总体中的比率P(A)。可见,经典估计是一个从样本到总体的归纳过程。  但经典统计推理将先验知识排除在外,这不符合科学推理活动的实际。我们通常是在知晓局部知识的背景下进行估计,而不是处在一种全然不知的状态下。经典统计对此可能会采取两种不充分的方式回应。第一种方式就是把经典估计限定在没有相关信息出现的场合中。但这种限定是不切实际的,因为这类场合非常罕见;如果知识的掌握者被置于一种永远一无所知的境地,也是异常的。第二种可能方式是设法将非形式(informal)先验信息与根据随机抽样作出的形式估计结合起来。但在经典方法论范围内没有把两者结合的相应机制。  (二) 贝叶斯统计推理的优点  将贝叶斯方法用于统计假说的相关结果,构成了贝叶斯统计推理的内容。贝叶斯统计推理同样属于归纳推理的范畴,它是一种依托贝叶斯定理,通过相应先验分布得到的后验概率来获取新信息的计算。贝叶斯方法与经典方法在统计推理中的主要区别在于处理估计和假设检验问题时的不同解决方案。正是贝叶斯方法的这种新的研究进路使统计推理走出了经典方法导致的困境,获得了长足的发展。  1. 贝叶斯假说检验的合理性  贝叶斯方法在检验假说时不同于经典推理的反证方法,它依据贝叶斯定理计算假说的后验概率,通过直接比较后验概率的大小来决定是接受还是拒绝假说,即接受后验概率大的假说,拒绝后验概率小的假说。例如,检验竞争假说H0和H1,可根据假说的后验概率P0和P1来决定。如果P0/P1>1,那么接受H0;如果P0/P1<1,那么接受H1;而当P0/P1≈1时,则先不作判断,继续抽样或调整先验知识。与经典方法相比,贝叶斯方法在假说检验上更具合理性,具体表现在:  第一,解决了经典统计中存在的检验统计量的选择难题。贝叶斯方法用后验分布代替了经典统计中统计量和抽样分布的决定性作用,从而消除了费希尔理论中检验统计量的选择(任意性)难题。  第二,避免了停止法则带来的困难。经典方法需要通过停止法则来确定可能的结果空间,这条法则本身的任意性使经典方法的客观性遭到了质疑。而贝叶斯方法在检验假说时并不依赖结果空间,且后验概率的计算在所有情形下都不受停止法则隐含的主观意图的影响,仅仅取决于结果。以上文硬币实验为例,假如实验结果是6次正面朝上,14次反面朝上,不管实验者打算在掷20次硬币后停止实验还是在出现6次正面朝上后停止实验,都不会影响假说的检验。  第三,贝叶斯统计检验凸显出自己的归纳特性。在经典方法中,显著性检验理论的归纳意义相当模糊。Lindley悖论表明,显著性检验刻画的推理不具有任何形式的归纳显著性。经典统计学家试图在分析中附加证据强度或归纳支持的观念,但这种把显著性水平与证据强度联系起来的努力不可能取得成功。而贝叶斯方法采用的是概率归纳推理,以贝叶斯定理为中心的定量研究进路显然是归纳逻辑的主要推理模式。  2. 贝叶斯估计的优越性  与经典估计相比,贝叶斯估计的优越性表现在以下方面:  第一,用可信区间代替置信区间,为经典置信区间下的直觉提供了一个概念性的解释和合理说明。通常情况下,如果概率P表示θ位于a和b之间的概率,那么区间(a,b)被认为是一个对于θ的100%可信区间。贝叶斯主义者把可信区间作为后验分布的有用概括。可信区间类似于经典统计的置信区间,例如从某种角度看,95%可信区间与通常可接受的95%置信区间是同等且一致的。但这两种类型的区间有很重要的不同之处: 可信区间表明,相对于证据,θ是位于这个区间内的概率;而置信区间并未提及θ的概率,也没有用非概率术语表示 θ的任何不确定程度。  第二,通过应用贝叶斯定理完成了先验分布到后验分布的过渡。人们在作出估计时,或多或少具有一些先验的背景知识。但经典方法却没有合理的机制在估计时引入先验信息。而贝叶斯方法凭借先验分布来表述这类信息并加以量化,以引入贝叶斯定理的计算,进而影响推理的整个结论。这种从先验分布到后验分布的过渡,克服了经典估计的困难。  虽然经典统计推理方法存在某些不足,但这并不影响它在不确定性理论和统计假说中的广泛运用。在科学推理中,经典统计推理仍具有重大的应用价值,它推崇的实验程序和数据分析已经成为许多科学家的校正标准。而贝叶斯方法在凸显归纳特性等方面表现出的优越性表明,这种推理“是很值得重视的统计推理的新形式,它给归纳逻辑提供了新的发展方向”[4]251。  二、 困境: 对贝叶斯主义理论的诘难  尽管贝叶斯方法优于经典统计方法,但它仍然面临着困难和挑战。贝叶斯方法在统计推理中取得了成功,进而发展为一般科学方法,但该方法的理论内核存在一些有待解决的问题。这些问题是:  (一) 主观性问题  贝叶斯主义面临的首要问题是主观性问题。贝叶斯主义者并不忌讳主观性,并且认为主观性在贝叶斯推理中是恰当的。因为:第一,科学评估本来就含有科学家的主观因素,而贝叶斯主义中的主观性是以先验概率的形式明确表现的,这是没有必要隐讳的;第二,贝叶斯推理是客观的归纳推理,这套逻辑将先验概率作为前提,以贝叶斯定理作为推理规则,产生一个有效的推论: 后验分布。这种推理非常类似于演绎逻辑,即首先筛选前提,然后推理机制根据这些前提导出有效的推论。实际上,对贝叶斯主义的主观性诘难正集中在对这套推理机制的前提筛选上,即先验概率的约束问题。
  此外,按照主观贝叶斯主义,先验概率是个体对于假说合理置信度的先验分布,它是完全任意的。可见,贝叶斯方法缺少对先验概率自由指派的约束。为此,贝叶斯主义通过大弃赌(Dutch Book)论证和意见收敛定理来调整先验概率。由此也带来一些问题:  第一,一致性(consistent)要求与大弃赌(荷兰赌)论证。标准大弃赌论证表明,信念强度可在数值上进行测度,且这种测度满足概率公理,而满足概率公理的要求就是对合理信念度的一致性要求。这个要求的提出是为了约束先验概率的主观任意性。但大弃赌论证不具备典型性,它只是对可数可加性的一个虚构特例,这削弱了该论证对一致性要求的辩护力度,使一致性要求变得含糊和不确定。事实上,对于信念是否满足概率公理的问题本身就存在争议。如豪森(Howson)在《科学推理:贝叶斯进路》的第三版(2006)中,不再将可数可加性作为一条推理规则,因为在他看来信念度可能不是有限可加的。  第二,条件化原则与意见收敛定理。意见收敛定理表明,通过贝叶斯定理的不断修正,先验概率的主观性能够被后验概率的客观性代替。这条定理的成立暗含了一个条件,它要求把后验概率等同于条件概率,即条件化原则。可见,对于假说h而言,Pr/e(h)=Pr(h/e)(为了更好地表述两种概率的区别,根据命题概率逻辑系统Pr 的符号表征[5]87,令Pr/e(h)表示后验概率,Pr(h/e)表示条件概率)。但贝叶斯主义并没有为先验概率和后验概率之间的关系提供任何辩护,这使条件化原则缺乏合理性基础。如凯伯格(Kyburg)就声称,“(贝叶斯主义)原理并没有表明,一个人应该变化他的信念来与贝叶斯定理保持一致”[6]95。  (二) 简单性问题  简单性原则是科学假说与模型选择的重要标准。由于曲线拟合问题很难在贝叶斯主义框架内运用简单性原则,所以杰弗里斯(Jeffreys)提出一个简单性假设(simplicity postulate)[7]46  50:具有较少可调参数(adjustable parameter)的假说应该获得更大的先验概率,也就是说一个假说越简单,它所获得的先验概率就越大。但波普尔指出这一假设与概率公理不一致,而福斯特(Forster)和索伯(Sober)随后也在不相交类问题上指出,简单性只是一种“特设方法”。比如说直线H1:y=mx+c与抛物线H2:y=nx2+mx+c,根据简单性假设,H1比H2简单,所以H1的先验概率更大。但是,当n=0时,如果H1为真,那么H2一定为真。H1逻辑上蕴涵H2,这时H1不能比H2具有更大的先验概率。而根据波普尔的证伪主义方法,一个假说包含的经验内容越多,就越容易被证伪;换言之,一个假说的先验概率越大,就越容易被证伪,即假说的后验概率越小,所以从逻辑的观点看,假说的先验概率与后验概率成反比。可见,如果H1→H2,那么为了满足概率公理,必须保证H1的后验概率不小于H2,这就要求H1的先验概率不能比H2大。显然,这个要求与简单性假设导出的结论相矛盾。正因为如此,豪森主张回避简单性问题,他认为简单性只是一个陷阱,不应该被视为理论选择时的一条重要指导原则。可见,就简单性而言,贝叶斯主义仍然面临困境。  (三) 旧证据问题  旧证据问题最初由格莱莫尔(Glymour,1980)[8]提出,埃尔曼(Earman,1992)将这个问题视为贝叶斯理论的“污点”[9]135。格莱莫尔将旧证据问题表述为:如果证据e在假说h提出时是已知的(即e是对于h的旧证据),那么P(e)=1,由此可知P(h/e)=P(h)。所以e不能支持h或提高h的概率。旧证据问题表明,在贝叶斯主义框架内,一个旧证据不能对理论或假说提供任何确证。这显然与我们的直觉相悖,特别是在科学史上的一些典型实例中,这种悖谬表现得更明显。例如19世纪发现水星近日点有反常旋进,这个现象对1915年提出的相对论有重要确证作用。但自格莱莫尔开始的大多数评论者都认为,这是贝叶斯原理原则上不能解释的预测。豪森对此进行了反驳,认为旧证据问题的出现在于格莱莫尔对贝叶斯公式的不恰当运用。他用证据的相关性表明,旧证据问题的出现有两个预设: 需要一些反对e的背景事实和知识,且e被判定为证据。换言之,“证据支持”隐含着数据、假说和背景知识k之间的三元关系。只有当e被判定为证据,且k包含e时,才会出现旧证据问题。可见,背景知识附加的约束(e是否包含于k中)会在实际上影响结果。豪森由此构造了一个贝叶斯推理,引入可遗函子(forgetful functor)概念,重新表述水星近日点旋进,以表明旧证据问题不复存在。但这并未消除学界对旧证据问题的质疑,相关讨论还在继续。如国内学者马文俊和熊卫采用一种基于Levi理论的动态方案来消解旧证据问题。在这种方案下,知识会集的动态性使旧证据在新理论引入前后的置信概率可能是不相同的,进而证明新理论扩充后得到的知识会集无论是一致扩充还是不一致扩充,均存在一个旧证据E,它对该新理论具有确证作用[10]。  三、 出路: 贝叶斯推理的认知研究  为使贝叶斯方法更加有效地处理科学推理中的实际问题,解决贝叶斯理论中的难题,认知科学和心理学的研究提供了一些可能的进路和重要的启示。  认知科学与贝叶斯主义理论的纽带在于贝叶斯主义又被称为主观主义,它将概率解释为私人的合理置信度。这与认知科学把推理看做认知心理过程的观点不谋而合。认知科学的许多领域也把贝叶斯方法视为一种有效的归纳推理模型。从科学认知的角度看待贝叶斯方法,研究贝叶斯主义理论在认知科学中的运用和发展,对于贝叶斯推理的研究是极具启发意义的。  认知心理学对概率的运用主要用于主观概率判断,即人们怎样对不确定事件作出判断和推理。针对这个问题,认知心理学家提出了一个频率格式的贝叶斯推理模型,把频率主义与贝叶斯概率统一起来。同时,认知心理学家提出了主观概率的支持理论,建立了一个主观概率的非外延归纳推理理论。  (一) 频率格式的贝叶斯推理模型
  在人的思维是否遵循贝叶斯推理规则的问题上,卡内曼和图文斯基(Kahneman和Tversky,1972)[11]持否定意见。为此,吉仁泽和霍夫拉格(Gigerenzer和Hoffrage,1995)在总结前人研究成果的基础上提出了频率格式的贝叶斯推理模型,即用频率格式代替概率格式来对问题进行信息表征,进而改进贝叶斯推理方法[12]。例如,贝叶斯公式P(H| D)=P(H)P(D| H)[P(H)P(D| H)+P(?H)P(D| ?H)]可以用频率格式表述为 P(H| D)=d∧ h(d∧ h+d∧ ?h),这两个公式遵循不同的演算规则,但在数学上等价。他们认为,数学上等价的表达式在心理学上并不等价,不同的表达式应该遵循不同的演算规则。所以,数学上等价的信息表征其运算规则不一定相同。根据进化论,他们假设在进化过程中人类已经发展了认知运算法则,并且能够按此完成统计推理任务。由于这些法则的信息获得是通过自然采集的,其本质属性是频率,所以它们不适合概率格式的输入。吉仁泽和霍夫拉格(1999)用实验表明,频率格式的贝叶斯推理比概率格式的贝叶斯推理要准确得多[13]。  虽然逻辑学与心理学研究贝叶斯方法的角度不一样,但认知心理学用频率格式表征贝叶斯推理的尝试,为科学推理中的贝叶斯方法的发展提供了一条可能的进路: 频率主义与贝叶斯主义的整合。  (二) 主观概率判断的支持理论  主观概率判断的支持理论是一种非外延的归纳推理理论。大多数现代归纳逻辑理论都是纯粹的外延逻辑,贝叶斯主义理论也不例外。但基于外延性原则的现代归纳逻辑有其不足,且容易导致各种难题和矛盾,如乌鸦悖论和绿蓝悖论等。  按照贝叶斯原理,人类的主观概率判断应遵循外延性原则,对具有同样外延的事件应赋予同样的主观概率值。然而,认知心理学的许多相关研究表明,人们的主观概率判断并不遵循外延性原则,图文斯基等人(1994)认为,外延性的失效代表了一种人类判断上的本质特征,它显示了概率判断并非建立在事件上,而是依赖于对事件的描述。基于此,图文斯基等人提出了主观概率判断的支持理论[14],这个理论遵循假说—支持—概率的思路,支持在概率判断中起到了重要的中介作用。而支持的获得既可以依靠客观数据,如实际的概率或频率值;也可以基于判断式启发,如代表性启发等。这种非外延性归纳理论开拓了归纳逻辑的视野,为贝叶斯主义的发展提供了一种发展的可能性: 引入内涵因素,尝试外延性与非外延性的融合。  综上所述,尽管贝叶斯方法同样受到种种批评和责难,但从发展趋势看,贝叶斯方法借鉴认知科学的研究成果,在非外延性发展方面可以取得新的突破。实现归纳逻辑的认知转向,可能是归纳逻辑未来的重要发展方向之一。  [参 考 文 献][1] C.David & J.Williamson,Foundations of Bayesianism,Dordrecht: Kluwer Academic Publishers,2001.[2] 江天骥: 《归纳逻辑的新进展》,《哲学研究》1986年2期,第22  29页。[Jiang Tianji,″The New Developments of Inductive Logic,″Philosophical Investigations,No.2(1986),pp.22  29.] [3] C.Howson & P.Urbach,Scientific Reasoning: The Bayesian Approach,La Salle: Open Court Publishing Company,1989.[4] 江天骥: 《归纳逻辑导论》,长沙: 湖南人民出版社,1987年。[Jiang Tianji,An Introduction to Inductive Logic,Changsha: Hunan People?s Publishing House,1987.] [5] 陈晓平: 《归纳逻辑与归纳悖论》,武汉: 武汉大学出版社,1994年。[Chen Xiaoping,Inductive Logic and Inductive Paradox,Wuhan: Wuhan University Press,1994.] [6] H.E.Kyburg,Epistemology and Inference,Minneapolis: University of Minnesota Press,1983.[7] H.Jeffreys,Theory of Probability,Oxford: Clarendon Press,1961.[8] C.Glymour,Theory and Evidence,Princeton: Princeton University Press,1980.[9] J.Earman,Bayes or Bust?A Critical Examination of Bayesian Confirmation Theory,Cambridge: The MIT Press,1992.[10] 马文俊、熊卫: 《旧证据问题: 一种动态的消解方案》,《逻辑学研究》2011年第2期,第81  92页。[Ma Wenjun & Xiong Wei,″The Problem of Old Evidence: From the Dynamic Point of View,″Studies in Logic,No.2(2011),pp.81  92.] [11] D.Kahneman & A.Tversky,″Subjective Probability: A Judgement of Representativeness,″Cognitive Psychology,Vol.3,No.3(1972),pp.430  454.[12] G.Gigerenzer & U.Hoffrage,″How to Improve Bayesian Reasoning Without Instruction: Frequency Formats,″Psychological Review,Vol.102,No.4(1995),pp.684  704.[13] G.Gigerenzer & U.Hoffrage,″Overcoming Difficulties in Bayesian Reasoning: A Reply to Lewis and Keren (1999) and Mellers and McGraw (1999),″Psychological Review,Vol.106,No.2(1999),pp.425  430.[14] A.Tversky & J.K.Derek,″Support Theory: A Nonextensional Representation of Subjective Probability,″ Psychological Review,Vol.101,No.4(1994),pp.547
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。数据挖掘经典算法总结-朴素贝叶斯分类器
贝叶斯定理(Bayes theorem),是中的一个结果,它跟的以及有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
贝叶斯定理的陈述
贝叶斯定理是关于随机事件A和B的和的一则定理。
<img TITLE="贝叶斯定理复习(from&&wbr&wikipedia)” src=”http://upload.wikimedia.org/math/8/c/a/8caba7f33ea46828822f3b.png” alt=”\Pr(A|B) = \frac{\Pr(B | A)\, \Pr(A)}{\Pr(B)} \propto L(A | B)\, \Pr(A) \!” /&&/dd&&#10;&/dl&&#10;&p&其中L(A|B)是在B发生的情况下A发生的可能性。&/p&&#10;&p&在贝叶斯定理中,每个名词都有约定俗成的名称:&/p&&#10;&ul&&#10;&li&Pr(&em&A&/em&)是&em&A&/em&的&em&&a title=" HREF="http://zh.wikipedia.org/w/index.php?title=%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87&variant=zh-cn" />先验概率或。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的,也由于得自B的取值而被称作A的。
Pr(B|A)是已知A发生后B的,也由于得自A的取值而被称作B的。
Pr(B)是B的或,也作(normalized
constant).
按这些术语,Bayes定理可表述为:
后验概率 = (相似度 * 先验概率)/标准化常量
也就是说,后验概率与先验概率和相似度的乘积成正比。
另外,比例Pr(B|A)/Pr(B)也有时被称作标准相似度(standardised
likelihood),Bayes定理可表述为:
后验概率 = 标准相似度 * 先验概率
从条件概率推导贝叶斯定理
根据条件概率的定义 . 在事件B发生的条件下事件 A发生的概率是
<img TITLE="贝叶斯定理复习(from&&wbr&wikipedia)” src=”http://upload.wikimedia.org/math/3/6/5/365fe01a91eddd5efe843b6c17985e96.png” alt=”\Pr(A|B)=\frac{\Pr(A \cap B)}{\Pr(B)}.” /&&/dd&&#10;&/dl&&#10;&p&同样地, 在事件&em&A&/em&发生的条件下事件 &em&B&/em&发生的概率&/p&&#10;&dl&&#10;&dd&&img title=" />wikipedia)”
src=”http://upload.wikimedia.org/math/f/9/9/f33bd8e78d2.png”
alt=”\Pr(B|A) = \frac{\Pr(A \cap B)}{\Pr(A)}. \!”
整理与合并这两个方程式, 我们可以找到
<img TITLE="贝叶斯定理复习(from&&wbr&wikipedia)” src=”http://upload.wikimedia.org/math/8/4/5/eb223ca48d2792d0d9d132b.png” alt=”\Pr(A|B)\, \Pr(B) = \Pr(A \cap B) = \Pr(B|A)\, \Pr(A). \!” /&&/dd&&#10;&/dl&&#10;&p&这个引理有时称作概率乘法规则.上式两边同除以Pr(&em&B&/em&), 若Pr(&em&B&/em&)是非零的, 我们可以得到贝叶斯定理:&/p&&#10;&dl&&#10;&dd&&img title=" />wikipedia)”
src=”http://upload.wikimedia.org/math/b/2/6/b23d5a928157.png”
alt=”\Pr(A|B) = \frac{\Pr(B|A)\,\Pr(A)}{\Pr(B)}. \!”
下面我再举个简单的例子来说明下。
考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。
上面的数据可以用以下概率式子表示:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98,P(阴性|cancer)=0.02
P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97
假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:
P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078
P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298
因此,应该判断为无癌症。
贝叶斯学习理论
贝叶斯是一种基于概率的学习算法,能够用来计算显式的假设概率,它基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到的数据本身(后面我们可以看到,其实就这么三点东西,呵呵)。
我们用P(h)表示没有训练样本数据前假设h拥有的初始概率,也就称为h的先验概率,它反映了我们所拥有的关于h是一个正确假设的机会的背景知识。当然如果没有这个先验知识的话,在实际处理中,我们可以简单地将每一种假设都赋给一个相同的概率。类似,P(D)代表将要观察的训练样本数据D的先验概率(也就是说,在没有确定某一个假设成立时D的概率)。然后是P(D/h),它表示假设h成立时观察到数据D的概率。在机器学习中,我们感兴趣的是P(h/D),也就是给定了一个训练样本数据D,判断假设h成立的概率,这也称之为后验概率,它反映了在看到训练样本数据D后假设h成立的置信度。(注:后验概率p(h/D)反映了训练数据D的影响,而先验概率p(h)是独立于D的)。
P(D|h)P(h)/p(D),从贝叶斯公式可以看出,后验概率p(h/D)取决于P(D|h)P(h)这个乘积,呵呵,这就是贝叶斯分类算法的核心思想。我们要做的就是要考虑候选假设集合H,并在其中寻找当给定训练数据D时可能性最大的假设h(h属于H)。
简单点说,就是给定了一个训练样本数据(样本数据已经人工分类好了),我们应该如何从这个样本数据集去学习,从而当我们碰到新的数据时,可以将新数据分类到某一个类别中去。那可以看到,上面的贝叶斯理论和这个任务是吻合的。
朴素贝叶斯分类器
  贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive
Bayes、TAN、BAN和GBN。
  贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点X
均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点X
在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 为其先验概率分布。贝叶斯网络的结构及各结点的CPT
定义了网络中各变量的概率分布。
  贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C,其中C 的取值来自于类集合( c1 , c2 , … ,
cm),还包含一组结点X = ( X1 , X2 , … ,
Xn),表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x = ( x1 , x2 , … , x n)
,则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , … , Xn = x n) ,( i
= 1 ,2 , … , m) 应满足下式:   P( C = ci | X = x) = Max{ P( C = c1 | X =
x) , P( C = c2 | X = x ) , … , P( C = cm | X = x ) }   而由贝叶斯公式:
  P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
  其中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x)
的计算则较困难。
  应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT
学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP
完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,Naive
Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的贝叶斯分类器。
在具有模式的完整统计知识条件下,按照贝叶斯决策理论进行设计的一种最优分类器。分类器是对每一个输入模式赋予一个类别名称的软件或硬件装置,而贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。
最小错误概率贝叶斯分类器
  把代表模式的特征向量x分到c个类别(ω1,ω2,…,ωc)中某一类的最基本方法 贝叶斯分类器是计算在
x的条件下,该模式属于各类的概率,用符号P(ω1|x),P(ω2|x),…,P(ωc|x)表示。比较这些条件概率,最大数值所对应的类别ωi就是该模式所属的类。例如表示某个待查细胞的特征向量
x属于正常细胞类的概率是0.2,属于癌变细胞类的概率是0.8,就把它归类为癌变细胞。上述定义的条件概率也称为后验概率,在特征向量为一维的情况下,一般有图中的变化关系。当
x=x*时,P(ω1|x)=P(ω2|x)对于
x>x*的区域,由于P(ω2|x)&P(ω1|x)因此x属ω2类,对于xP(ω2|x),x属ω1类,x*就相当于区域的分界点。图中的阴影面积就反映了这种方法的错误分类概率,对于以任何其他的
x值作为区域分界点的分类方法都对应一个更大的阴影面积,因此贝叶斯分类器是一种最小错误概率的分类器。
贝叶斯分类器计算过程
  一般情况下,不能直接得到后验概率而是要通过贝叶斯公式进行计算。式中的P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度,称为x的类条件概率密度;P(ωi)为在所研究的识别问题中出现ωi类的概率,又称先验概率;P(x)是特征向量x的概率密度。分类器在比较后验概率时,对于确定的输入x,P(x)是常数,因此在实际应用中,通常不是直接用后验概率作为分类器的判决函数gi(x)(见线性判别函数)而采用下面两种形式:
对所有的c个类计算gi(x)(i=1,2,…,c)。
与gi(x)中最大值相对应的类别就是x的所属类别。
最小风险贝叶斯分类器
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
  由于客观事物的复杂性,分类器作出各种判决时的风险是不一样的。例如将癌细胞误判为正常细胞的风险就比将正常细胞误判为癌细胞的风险大。因此,在贝叶斯分类器中引入了风险的概念。在实际应用中根据具体情况决定各种风险的大小,通常用一组系数Cij来表示。Cij表示分类器将被识别样本分类为ωi,而该样本的真正类别为ωj时的风险。设计最小风险分类器的基本思想是用后验概率计算将
x分类为ωi的条件风险
贝叶斯分类器比较各Ri(x)的大小,与最小值对应的类别是分类的结果。评价这种分类器的标准是平均风险,它的平均风险最小。在实际应用时,后验概率是难以获得的,根据模式类别的多少和Cij的取值方式,可设计出各种分类器,例如模式为两类时,判别函数为判别函数如果选择C11和C22为零,C12和C21为1,它就是两类最小错误概率分类器。实际上,最小错误概率分类器是最小风险分类器的一种特殊情况。
贝叶斯分类器
&&&&&&&&&&&&&&&&&&&&&&&&&&&&
设计贝叶斯分类器的关键是要知道样本特征
x的各种概率密度函数。条件概率密度函数为多元正态分布是研究得最多的分布。这是由于它的数学表达式易于分析,在实际应用中也是一种常见的分布形式。经常使用参数方法来设计正态分布的判别函数。
也许你觉得这理论还不是很懂,那我再举个简单的例子,让大家对这个算法的原理有个快速的认识。(注:这个示例摘抄自《机器学习》这本书的第三章的表3-2.)
假设给定了如下训练样本数据,我们学习的目标是根据给定的天气状况判断你对PlayTennis这个请求的回答是Yes还是No。
Temperature
PlayTennis
可以看到这里样本数据集提供了14个训练样本,我们将使用此表的数据,并结合朴素贝叶斯分类器来分类下面的新实例:
(Outlook = sunny,Temprature = cool,Humidity = high,Wind =
我们的任务就是对此新实例预测目标概念PlayTennis的目标值(yes或no).
由上面的公式可以得到:
可以得到:
P(PlayTennis =yes) = 9/14 = 0.64,P(PlayTennis=no)=5/14 = 0.36
P(Wind=Stong| PlayTennis =yes)=3/9=0.33,p(Wind=Stong| PlayTennis
=no)=3/5 = 0.6
其他数据类似可得,代入后得到:
P(yes)P(Sunny|yes)P(Cool|yes)P(high|yes)P(Strong|yes) =
P(no)P(Sunny|no)P(Cool|no)P(high|no)P(Strong|no)=0.0206
因此应该分类到no这一类中。
贝叶斯文本分类算法
好了,现在开始进入本文的主旨部分:如何将贝叶斯分类器应用到中文文本的分类上来?
根据联合概率公式(全概率公式)
M——训练文本集合中经过踢出无用词去除文本预处理之后关键字的数量。
参考文献:
&贝叶斯、概率分布与机器学习
&刘未鹏的经典博文
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 贝叶斯分类器 的文章

 

随机推荐