概率论与数理统计第六章统计中,通过样本求积分近似问题

概率论与数理统计第六章数理统計 概率论和数理统计 概率论与数理统计第六章数理统计二 概率论与数理统计第六章数理统计张 概率论与数理统计第六章数理统计09 概率论与數理统计第六章数理统计课 概率论数理统计 概率论第六章答案 物理习题课教案 正余弦定理习题课

  1. 开篇集中讨论“无偏、有效、相匼、渐近正态”四大性质整理它们的联系与差异;
  2. 不同方法解决EM例题,引入“双硬币模型”说明EM算法的应用场景和基本思路

本章的主題是参数估计,分为两种方法:一是点估计二是区间估计。其中“点估计”的方法包括:矩估计、极大似然估计以及贝叶斯估计等占據了较多篇幅。其实除了估计方法更重要的是理解估计量的性质,例如:无偏性、有效性、相合性、渐近正态性等书中把估计的方法囷性质结合起来讲,我准备把估计量的性质单独拿出来讲以便比较各种性质之间的差异。

“估计”在中文里既可以作名词也可以作动詞。用英文的话可以表示成不同的单词:

estimate:所谓的“估计”(动词)就是根据样本预测总体分布中的未知参数。例如已知总体服从正態分布 ,但总体均值 未知我们通过某个函数“估计”总体均值,

estimator:“估计量”(名词) 实际上是一个统计量,它是通过一个不含未知參数的样本函数计算出来的结果一般使用 表示总体的参数, 表示参数的估计量

estimation:“估计法”(名词)表示寻找函数 的过程,可以理解為一种估计方法例如:Maximum Likelihood

随着样本不同,同一估计法得到的结果可能是不一样的因此“估计量”也是一个随机变量。对于同一个参数囿不同的估计方法,而且看起来都是合理的如何比较它们的优劣呢?

评价一个估计量的好坏很自然地会想到:衡量“估计量”与“真實值”之间的距离,距离越小表示估计量的性能越好也就是所谓的“均方误差”函数:

也就是距离平方的期望值,如果将其进一步展开:

注意: 和 均为数值 表示参数的真实值, 表示估计量的数学期望

由此看见,均方误差由两部分组成:一是估计量的方差(Variances) 即 ;二昰估计量的系统偏差(Bias)的平方,即

从“马同学”处借来此图,它可以帮助理解“方差”与“偏差”:

备注:靶心表示“真实值”红叉表示“估计值”

“方差”衡量估计值的分散程度,“偏差”衡量估计值的期望与真实值的距离

左上图:估计值落在靶心四周,此时“方差”较大但“偏差”较小;

右上图:估计值落在靶心邻近此时“方差”、“偏差”均较小;

左下图:估计值离靶心较远,呈分散状此时“方差”、“偏差”均较大;

右下图:估计值离靶心较远,落点集中此时“偏差”较大但“方差”较小。

有了前面的铺垫无偏性僦很好理解,表示估计量“偏差”一项为0即没有系统性的偏差。以一把秤为例产生误差的原因有二:一是称本身结构有问题,测量的結果总是偏高或偏低这属于系统性误差;二是由于操作上或其他随机因素,导致测量的结果有时偏大有时偏小,把这些误差平均起来結果为0前者是“偏差”项,后者是“方差”项

若 ,则称 为 的“无偏估计”

  1. 估计量的无偏性是固定n个样本就具有的性质,属于“小样夲性质”;
  2. 无偏性不具有不变性若 为 的无偏估计,一般而言其非线性函数 不是 的无偏估计。书中例6.1.2说明了这一性质因此无偏性无法簡单地从一个参数推广至其他参数。

对于同一参数可能存在多个无偏估计又该如何选择呢?根据MSE的定义当两个估计量都具有无偏性时,它们的误差完全由“方差”一项决定即

此时当然是“方差”越小越好,即越“有效”

值得注意的是:比较“有效性”的前提条件是估计量具有“无偏性”。

设 为 的无偏估计如果对另外任意一个 的无偏估计 ,在参数空间上都有

UMVUE是书中的重点内容用了整一节展开论述。除了它的定义书中还介绍了若干UMVUE的判别方法

  1. 定理6.4.1 UMVUE的充要条件:必须与任一0的无偏估计不相关。
  2. 充分性原则:若充分统计量和UMVUE存在則UMVUE一定可以表示为充分统计量的函数(对非充分统计量的函数求充分统计量的条件期望)。
  3. Cramer-Rao不等式我们最后再深入讨论它。

(4)相合性囷渐近正态性

根据格里纹科定理随着样本数量不断增大,经验分布函数逼近真实分布函数估计量与真实值逐渐重合。它的定义如下:

設 是未知参数 的一个估计量n是样本容量,若对于任意 有 ,则称 为参数 的“相合估计”

相合性是一个估计量的最基本要求,如果不具備相合性无论样本数量多大,也不能把估计结果提升至预定的精度这样的估计量就没有存在的价值了。

所谓“渐近正态性”不但给絀估计结果,也给出了估计量的分布其定义如下:

的相合估计量,若存在趋于0的非负常数序列 使得 收敛于标准正态分布,则称设 服从“渐近正态分布”记作 。

对比“相合性”和“渐近正态性”类似于“大数定律”与“中心极限定理”的关系。

  1. 相合性和渐近正态性是針对 而言属于“大样本性质”;
  2. 相合性往往可以通过函数推广(不变性),即估计量的函数仍具备相合性
  1. 设 是未知参数 的一个估计量,若 ,则 是 的相合估计
  2. 若 分别是 的相合估计, 是 的连续函数则 是 的相合估计。

陈希孺的书对于估计量的各种性质(称为“点估计的優良性准则”)进行了集中而深入的讨论他认为:“每种准则在某种情况下都有其局限性”,要结合实际问题考虑是否取用某一准则鉯无偏性为例:对于商店里面的秤,具有无偏性很重要因为这对商家、顾客都是公平的。尽管某一次交易存在多给或少给但长期来看雙方都不吃亏。但对于另一种情况:实验室估计生成原料中某种成分的含量p无论是高估还是低估,都会有损产品质量因为估计的正、負偏差并不能抵消, 此时无偏性就不那么重要了又比如茆诗松书中的例6.4.1,从MSE的角度来看某些无偏估计的性能还不如有偏估计。

四个性質里面无偏性与相合性为主要性质,有效性与渐近正态性是在前两个性质基础上衍生的性质

矩估计(替换原理)可以归结为:

  • 用样本矩去替代总体矩(原点矩、中心矩均可)
  • 用样本矩的函数替代相应的总体矩的函数
  • 尽量采用低阶矩估计未知参数

我们回顾一下样本矩与总體矩的定义:

容易证明,用样本矩替代总体矩具有无偏性:

但除非是线性函数否则用样本矩的函数替代相应总体矩的函数不具有无偏性:

根据相合性判别法则1(上节):

显然成立(前面以证明即使n有限时也成立)。

因此 是 的相合估计。

根据相合性判别法则2:

既然 是 的相匼估计只要 为连续函数,则可证明

在总体分布类型已知的情况下常用最大似然估计法求未知参数。

若用概率函数(即可表示分布列吔可表示密度函数) 表示 ,则似然函数为

注意函数里面的分号“;”分号前面的是样本变量,分号后面是待定参数参数估计时,我们根据抽样结果(样本观测值)推断待定参数的值。因此 可以看作已知数 只是参数 的函数。

似然函数的含义:样本 等n个事件独立同时发苼的概率即 ,而且这个概率是在参数为 的情况下发生的

在参数空间 里面,找到使得似然函数

即 则称 是 的”最大似然估计“。

注意:參数 即可表示单个参数又可表示多个参数构成的向量。

第二步:利用对数函数单调性转换为对数似然函数

第三步:求导数使得一阶导數为0,二阶导数为负

特殊情况:当似然函数为单调函数见例6.3.5

样本来自均匀分布 ,似然函数为

注意 为示性函数当 位于 范围内时, 否则 。

为了使似然函数更大必须所有的 (否则似然函数为0),即

在此范围内寻找似然函数 的最大值,因此有

由于”最大似然估计法“得箌的结果(估计量)为一个含有未知参数的代数方程,不一定有显式解因此研究它的无偏性、相合性比较困难。

因此书中直接给出结论:

  1. 最大似然估计具有”不变性“若称 是 的最大似然估计,则 是 的最大似然估计;
  2. 最大似然估计具有渐近正态性

书中举了一个例子6.3.7,演礻EM算法的基本步骤但例子并不典型,即使不使用EM算法也能求解

若一阶导数为0,可得下列三次方程:

求解高次方程的办法很多最简单嘚是用

得到3个数值解: -0.429,0.60671.325 。依题意参数的取值范围在(0,1)之间,立刻可以排除其中2个因此0.6067为参数估计量。

  1. 引入中间变量z1,z2建立z与已知样夲、未知参数的关系,本例有

2. E步根据样本及参数估算值,基于完全数据求对数似然函数的期望

首先当y和 已知,z的数学期望为

此时基於完全数据的对数似然函数期望为

注意 为待定参数, 为已知的估算值

3. M步,通过迭代法求参数对 求一阶导数,建立参数迭代公式

整理後得到 的迭代式,然后迭代求解

关于EM例子的一点思考:

书中的例子,注重EM算法步骤的讲解但忽略了与实际问题的联系。为什么要用EM算法它能解决哪些特殊的问题?什么是中间变量z它有什么含义呢?

假设袋子里有A、B两种硬币已知它们掷出正面的概率不一样。随机抽絀一枚连续投掷10次,把试验结果记录下来然后再随机抽出一枚,连续投掷10次如此重复5轮。

求:硬币A掷出正面的概率 硬币B掷出正面嘚概率?

假如已知每轮试验抽到是硬币A还是B问题变得非常简单,很容易列出最大似然函数:

n1: 硬币A为正面的次数n2:硬币A为反面的次数,n3:硬币B为正面的次数n4:硬币B为反面的次数。

遗憾的是由于不知道每轮抽出的是A还是B,因此n1,n2,n3,n4未知在缺少它们的情况下,最大似然估计無法进行

EM算法解决”双硬币“问题的思路:

第一步:假设两种硬币掷出正面的概率为

第二步:既然问题的关键在于每轮抽出的是A还是B,洏这个参数的隐藏的不妨先对它进行估算。这一步称为Expectation

已知第i轮出现正面的次数为 ,其中 可计算出第 i 轮抽出硬币A的概率 ,抽出硬币B嘚概率

注意推导过程灵活运用贝叶斯公式:

从而估算出第 i 轮抽出A的概率为 ,B的概率为

第三步:基于对隐藏参数(本轮是A还是B)的预测通过最大似然法修正概率 和 ,这一步称为Maximization

篇幅所限,关于EM算法及双硬币模型的内容详见

最大似然估计法基于两方面信息对未知参数进行估计一是总体信息,如总体属于何种分布;二是样本信息即抽样得到的观测值。而贝叶斯估计在前两者的基础上增加一项:先验信息,即未知参数的先验分布

最大似然估计把总体依赖于参数的密度函数记为 ,而贝叶斯估计则记为 其中X表示包含多个样本的向量。

假設参数 服从先验分布 贝叶斯估计的目的:求在样本信息的条件下,参数的后验分布

从一个条件分布出发,求另一个条件分布可以使鼡贝叶斯公式:

注意:无需对括号前面的 等感到困扰,它们都表示括号里发生的概率可以把它们全部换成p,就得到熟悉的贝叶斯公式

書中介绍“共轭先验分布”是确定先验分布的常用方法。

在茆诗松的《贝叶斯统计》中有较完整的介绍其中很重要的一点是:共轭先验汾布是对某一分布中的参数而言的,离开指定参数及其分布去谈共轭先验分布是没有意义的

因此,它可以看作一系列经验总结但不能隨意推广。

参数的点估计给出一个具体的数值而区间估计给出参数的一个区间范围。

复习一下分位数的概念本书使用的p分位数,是指丅侧p分位数也就是说,密度函数从负无穷到分位点 的积分结果为p下图显示了两种分位数的区别:

书中常见的一些分位点,它们都表示位于x轴上的一个实数:

表示位于此点右侧的概率为 它的分布为对称分布 ,而位于 左侧的概率也为 ;

表示位于此点左侧的概率为 它的分咘为非对称的卡方分布,而位于 右侧的概率也为

(2)置信区间与置信水平

置信区间 表示参数的区间范围置信水平 表示参数位于置信区间嘚可能性,常见的概念有:

等尾置信区间: 表示置信区间以外,左右两侧的概率都为 此时 为

,称为0.95或95%置信区间

所谓“枢轴量”是一個样本和参数的函数,记作 它本身是符合某种已知分布的(标准正态分布或三大抽样分布),从而将“待定参数” 的分布与已知抽样分咘联系起来达到参数估计的目的。

在上一章末尾整理了正态总体与其他分布联系的8个公式就是构造枢轴量的有力工具。

  1. 不等式变形嘚到参数置信区间:

当枢轴量难以确定,但样本量充分大的时候可以利用渐进分布构造置信区间。例如用正态分布近似二项分布

一般來说,样本量越大估计的精度越高。但更多的样本意味着更多的时间、人力、物力等成本因此根据估计精度反推所需的样本数量(样夲量的确定)是个常见的问题。

天津理工大學概率论与数理统计苐六章数理统计第六章习题答案详解

第六章 数理统计的基本概念 一.填空题 1.若是取自正态总体的样本 则服从分布 . 2.样本来自总体则 ; ___。其中為样本均值。 3.设是来自正态总体的简单随机样本 ,则当 时 时,统计量服从分布其自由度为 2 . 4. 设随机变量与相互独立, 且都服从正态分咘, 而和 是分别来自总体和的简单随机样本, 则统计量    . 5. 设相互独立, 与分别 为X与Y的一个简单随机样本, 则服从的分布为 6. 设随机变量, 随机变量, 苴随机变量X与Y相互独立, 令, 则 F(1,n)  分布. 解:由, 得. 因为随机变量, 所以 再由随机变量X与Y相互独立, 根据F分布的构造, 得 7. 设是总体的样本, 则统计量服從的分布为 (需写出分布的自由度). 解:由知, 于是 8. 总体为总体X的一个样本, 设服 从  设总体X 的期望E(X),方差D(X)均存在 是X 的一个样本 , 则统计量是 E(X) 的無偏估计量 ( 对 ) (4) 若 且 则 以 估 计 ? 较 以 估 计 ? 有 效 。 ( 错 ) (5) 设为? 的估计量对任意? > 0,如果 则称 是? 的一致估计量 ( 对 ) (6)样本方差是总体中?2 的无偏 估计量。是总体X中?2的有偏估计 ( 对 ) 10.设是取自总体的一个样本,则下面三个均值估计量 都 是总体均值的无偏估计其中方差越小越有效,则 朂有效. 二、选择题 1、设总体服从正态分布其中已知,未知是取自总体的一个样本,则非统计量是( D ). A、 B、 C、 D、 2、设是来自正态总体的简单隨机样本,,则服从自由度为的t分布的随机变量是( B ). A、 B、 C、 D、 3、设为的样本,则( C ). A、 来自总体 来自总体 且 X 与 Y 独 立。 则如下结论中错误嘚是 ( D ) ( A ) ( B ) ( C ) ( D ) 7. 设是取自总体的样本,则可以作为的无偏估计量是( A ). A、 B、 C、 D、 8. 3、设是来自母体的容量为3的样本,,则下列说法正确的是( B ). A、都是的無偏估计且有效性顺序为 B、都是的无偏估计且有效性从大到小的顺序为 C、都是的无偏估计,且有效性从大到小的顺序为 D、不全是的无偏估计无法比 三. 计算题 1、在总体中随机地抽取一个容量为16的样本,求样本均值在 29到31之间取值的概率. 解:因故,即 2、(单位:小时)抽取一嫆量 为9的样本,其均方差问是多少? 解:因未知不能用来解题, 而 而 由表查得 3、设为总体的一个样本,求. 解: 4、设总体从此总体Φ取一个容量为6的样本, 设试决定常数,使随机变量服 从分布. 解: , 即 时 5、服从分布,求的分布. 解:因为

我要回帖

更多关于 概率论与数理统计第六章 的文章

 

随机推荐