来源:蜘蛛抓取(WebSpider)
时间:2016-07-20 07:26
标签:
先验
1134人阅读
机器学习(62)
最大似然估计
最大似然估计法的基本思想
最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现 的可能性最大的那个作为真的估计。
我们分两种情进行分析:
<span style="color:#.离散型总体
设 为离散型随机变量,其概率分布的形式为,则样本的概率分布为,在固定时,上式表示取值的概率;当固定时,它是的函数,我们把它记为并称为似然函数。似然函数的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值,那它出现的可能性应该是大的,即似然函数的值应该是大的。因而我们选择使达到最大值的那个作为真的估计。
2.连续型总体
设 为连续型随机变量,其概率密度函数为则为从该总体抽出的样本。因为相互独立且同分布,于是,样本的联合概率密度函数为
,在是固定时,它是在处的
密度,它的大小与落在附近的概率的大小成正比,而当样本值固定时,它是的函数。我们仍把它记为并称为似然函数。类似于刚才的讨论,我们选择使最大的那个作为真的估计。
总之,在有了试验结果即样本值 时,似然函数反映了的各个不同值导出这个结果的可能性的大小。
我们选择使达到最大值的那个作为真的估计。这种求点估计的方法就叫作最大似然法。&&
& 7.2.2 最大似然估计的求法
假定现在我们已经观测到一组样本 要去估计未知参数。一种直观的想法是,哪一组能数值使现在的样本出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。这
里,假定我们有一组样本.如果对参数的两组不同的值和,似然函数有如下关系
那么,从 又是概率密度函数的角度来看,上式的意义就是参数使出现的可能性比参数使出现的可能性大,当然参数比更像是真正的参数.这样的分析就导致了参数估计的一种方法,即用使似然函数
达到最大值的点,作为未知参数的估计,这就是所谓的最大似然估计。& 现在我们讨论求最大似然估计的具体方法.为简单起见,以下记,求θ的极大似然估计就归结为求的最大值点.由于对数函数是单调增函数,所以
&& (7.2.1)
与 有相同的最大值点。而在许多情况下,求的最大值点比较简单,于是,我们就将求的最大值点改为求的最大值点.对关于求导数,并命其等于零,得到方程组
,&&&&&&&&&&&&&&&&&&&&&&&&&&
称为似然方程组。解这个方程组,又能验证它是一个极大值点,则它必是 ,也就是的最大值点,即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情
况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。
还需要指出,若函数 关于的导数不存在时,我们就无法得到似然方程组
(7.2.2),这时就必须根据最大似然估计的定义直接去的最大值点。
在一些情况下,我们需要估计 。如果分别是的最大似然估计,则称为的最大似然估计。
下面我们举一些例子来说明求最大似然估计的方法。
例 7.2.1设 从正态总体抽出样本,这里未知参数为mm和(注意我们把看作一个参数)。似然函数为
&&&&&&&&&
&&&&&&&&&&&&&& =
它的对数为
似然方程组为
由第一式解得
,&&&&&&&&&&&&&&&(7.2.3)
&&&& 代入第二式得
.&&&&&&&&&&&&& (7.2.4)
似然方程组有唯一解( ,),而且它一定是最大值点,这是因为当或或∞时,非负函数。于是和的最大似然估计为
,.&&&&&&&&
这里,我们用大写字母表示所有涉及的样本,因为最大似然估计 和都是统计量,离开了具体的一次试验或观测,它们都是随机的。
例7.2.2 设总体服从参数为的泊松分布,它的分布律为
,
有了样本 之后,参数λ的似然函数为
,
似然方程为
,
.
因为 的二阶导数总是负值,可见,似然函数在处达到最大值。所以,是λ的最大似然估计。
例7.2.3 设总体为上的均匀分布,求的最大似然估计。
的概率密度函数为
对样本 ,
很显然,L(a,b)作为a和b的 二元函数是不连续的。这时我们不能用似然方程组(7.2.2)来求最大似然估计,而必须从最大似然估计的定义出发,求L(a,b)的 最大值。为使L(a,b)达到最大,b-a应
该尽量地小,但b又不能小于 ,否则,L(a,b)=0。
类似地,a不能大过 。因此,a和b的最 大似然估计为
,
.
现在为止,我们以正态分布,泊松分布,均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。在我们所举的例子中,除了均匀分布 外,两种估计都是一致的。矩估计的优点是简单,只需知道总体的矩,总体的分布形式不必知道。而最大似然估计则必须知道总体分布形式,并且在一般情况下,似 然方程组的求解较复杂,往往需要在计算机上通过迭代运算才能计算出其近似解。
贝叶斯估计
贝叶斯(Bayes)统计是由T. R. Bayes于19世纪创立的数理统计的一个重要分支,20世纪50年代,以H. Robbins为代表提出了在计量经济学模型估计中将经验贝叶斯方法与经典方法相结合,引起了广泛的重视,得到了广泛的应用。贝叶斯估计对经典计量经济学模型估计方法的扩展在于,它不仅利用样本信息,同时利用非样本信息。
(1)贝叶斯估计
在经典计量经济学模型中广泛采用的最小二乘估计,以及本章讨论的最大似然函数估计和广义矩估计的一个共同特征是,在模型估计中只利用样本信息和关于总体分布的先验信息,而关于分布的先验信息仍然需要通过样本信息的检验,所以说到底还是样本信息。
由于模型估计依赖样本信息,这就要求样本信息足够多,因此,这些估计只有在大样本情况下才具有一定的优良性质。但是在许多实际应用研究中,人们无法重复大量的实验以得到大量的观测结果,只能得到少量的观测结果。在小样本情况下,最小二乘估计、最大似然估计和广义矩估计不再具有优良性质。因而,人们不得不寻求小样本情况下的优良估计方法。贝叶斯估计方法就是其中之一。
a、贝叶斯方法的基本思路
贝叶斯方法的基本思路是:假定要估计的模型参数是服从一定分布的随机变量,根据经验给出待估参数的先验分布(也称为主观分布),关于这些先验分布的信息被称为先验信息;然后根据这些先验信息,并与样本信息相结合,应用贝叶斯定理求出待估参数的后验分布;再应用损失函数,得出后验分布的一些特征值,并把它们作为待估参数的估计量。
贝叶斯方法与经典估计方法的主要不同之处是:
(a)关于参数的解释不同
经典估计方法认为待估参数具有确定值,它的估计量才是随机的,如果估计量是无偏的,该估计量的期望等于那个确定的参数;而贝叶斯方法认为待估参数是一个服从某种分布的随机变量。
(b)所利用的信息不同
经典方法只利用样本信息;贝叶斯方法要求事先提供一个参数的先验分布,即人们对有关参数的主观认识,被称为先验信息,是非样本信息,在参数估计过程中,这些非样本信息与样本信息一起被利用。
(c)对随机误差项的要求不同
经典方法,除了最大似然法,在参数估计过程中并不要求知道随机误差项的具体分布形式,但是在假设检验与区间估计时是需要的;贝叶斯方法需要知道随机误差项的具体分布形式。
(d)选择参数估计量的准则不同
经典估计方法或者以残差平方和最小,或者以似然函数值最大为准则,构造极值条件,求解参数估计量;贝叶斯方法则需要构造一个损失函数,并以损失函数最小化为准则求得参数估计量。
b、贝叶斯定理
c、损失函数
常用的损失函数有线性函数和二次函数,不同的损失函数,得到的参数估计值是不同的。
(2)线性单方程计量经济学模型的贝叶斯估计
以正态线性单方程计量经济学模型为例介绍贝叶斯估计方法。选择正态线性单方程计量经济学模型的主要原因是:(1)多元线性单方程计量经济学模型具有普遍性意义;(2)在模型设定正确的情况下,随机误差项是大量随机扰动之总和,根据中心极限定理,可以认为它是渐近正态分布;(3)计算简单,使用方便,并能完整地体现贝叶斯估计方法的主要内容。正态线性单方程计量经济学模型又分为随机误差项方差已知和方差未知两种情况。作为贝叶斯估计方法的演示,我们只讨论方差已知的情况。
a、有先验信息的后验分布&
b、无先验信息的后验分布
d、区间估计
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:838442次
积分:10505
积分:10505
排名:第1353名
原创:223篇
转载:278篇
评论:106条
(15)(9)(14)(15)(6)(3)(27)(26)(63)(23)(8)(1)(4)(4)(13)(15)(1)(1)(3)(1)(1)(8)(5)(1)(7)(5)(2)(1)(1)(4)(4)(1)(8)(3)(5)(6)(2)(2)(1)(8)(1)(1)(2)(21)(31)(10)(29)(21)(8)(42)(1)扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
什么是先验分布?
这厮TA1400
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
贝叶斯统计中的两个基本概念是先验分布和后验分布 .①先验分布.总体分布参数θ的一个概率分布.贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素.他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念.在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布.设定先验分布是Bayesean分析的需要.
为您推荐:
其他类似问题
扫描下载二维码