概率论重点知识点总结问题

专业文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“专业文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取,非会员用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文库认证用户/机构上传的专业性文档,需要文库用户支付人民币获取,具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档。

原标题:考研方法总结:概率论与数理统计之估计问题

提到考研数学,很多同学都能想到高数和线代。其实概率论与数理统计也是数学一和数学三中的考查重点,而且往往是难点。同学们在学习概率的时候觉得有难度。跨考教育数学教研室向喆老师总结如下两方面原因:

1.大家在学习了高数和线代后,难免在学习概率时后劲不足。2.概率论与数理统计本身抽象的东西较多,一些概念难以理解。

下面,向老师为大家详细讲解概率论与数理统计中的估计问题,大家需分三个步骤来学习。

首先,构建知识框架。估计问题是概率论与数理统计中最后一部分的内容。它的考试范畴是矩估计和极大似然估计。所以,在学习这部分之前,大家要把统计学的基本知识搞清楚,了解常见的统计量及其分布。而且大家还要深刻理解大数定理和中心极限定理的内涵。在这些基础上,大家学习矩估计和极大似然估计就好多了。

然后,把握知识原理。在有前面的知识做铺垫后,大家就要开始学习矩估计和极大似然估计了。先看矩估计,它的本质原理是样本矩有相合性,所以可以用样本矩来替代总体矩。同时总体矩中含有未知参数。所以通过建立含有未知参数的样本矩的方程就可以把参数给估计出来。再看极大似然估计,它的本质原理是基于一种假设,即我们观察的一组样本数据,那么观察这组数据发生的概率应该是比较大的。所以我们对参数的估计就是要找一个估计量使得这组数据发生的概率最大。总之,只有理解了矩估计和极大似然估计的深刻原理,我们才能把握好这个知识,才能更好的应用它。

最后,多做习题练习。在前面有了知识体系和掌握了知识原理后,剩下的就是多做题对知识进行理解了。有句古话:光说不练假把式。所以对知识的熟练掌握还是要通过做题来实现。同时,我也反对题海战术,做题不是盲目的做题,不是只做不练。做题应该是有选择的做题,做一个题就应该了解一个方法,掌握一个原理。所以,大家可以参考历年真题来进行练习。每做一个题,大家就该考虑下它是怎么考察我们所学的知识点的。如果做错了,大家还要多进行反思。找到做错的原因,并且逐步改正。这样才能长久的提高。

总之,希望大家在学习概率论与数理统计中的估计问题时候把握这三个原则,在此基础上,勤思考,多练习,那么大家一定可以学习好,祝大家考研成功!

概率论为定量的描述不确定性提供了一个数学框架,伴随而来的是一整套标准的的描述不确定性的定理和表示方式。通过概率论来定量描述不确定性,使得对于频率和概率的描述不再因人而异,而是可以像程序语言一样在不同的程序员和计算机之间可以准确的被传递和解释,这使得我们在了解一个事件的时候,不会被“非常”,“相当”,“极其”... 等定性的描述语言所困惑。

在人工智能相关应用中要面临很多的不确定性问题,在这个领域概率论主要应用在以下两个方面:

  • 需要算法可以基于目前呈现给它的信息根据概率理论进行推理

  • 从业人员可以使用概率工具来分析人工智能系统的表现

频率概率 frequentist probability:通过一个比率来描述一个或多个事件在多次重复实验中发生的概率,例如在 10000 次键盘敲击中,有多少次输入由于没有激发电容而导致输入失败。

贝叶斯概率 Bayesian probability:通过一个概率来给出一个事件属于某一性质的置信程度 degree of belief,例如某个来访的病人以多大的概率患有某种疾病。

随机变量是一个可以随机取得不同值的变量,在本书中随机变量用不加任何修饰的小写字母 x 来表示,其可能的取值用 x1,x2... xn 来表示。当随机变量的结果是一个向量时,用黑体小写字母 x 表示,其可能的一个取值则用斜黑体字母表示 x

随机变量本身只是对变量的所有可能的取值状态的一个描述,即 x = xi,i =
1,... ,n。而对于随机变量取得各个值的概率,则需要使用概率分布 Probability distributions 来描述。例如对于诊断一个疾病来说,诊断结果这个随机变量最简单的取值就是有(1)或没有(0)某种疾病,而疾病发生的概率则需要采用概率分布来描述,例如如果流行病学数据统计发现患病率为 10%,则 P(1) = 10%, P(0) =

根据取值的分布情况,可以将随机变量分为离散型随机变量和连续性随机变量,离散型随机变量的取值是一个个独立的分类或状态,而连续性随机变量的取值则是任意实数。基于取值情况的差异,离散型随机变量和连续性随机变量的概率分布情况也用不同的方式来描述。

离散型随机变量的概率分布用概率分布函数 Probability mass function,PMF 来表示,离散型随机变量的概率分布函数用大写斜体字母 P 表示。概率分布函数建立了一个从随机变量取值到取得这个值的概率之间的一个函数关系:

  • 这个函数的定义域 domain 是随机变量的所有可能取值

  • 对于任意一个取值来说,0 ≤ P(xi) ≤ 1

连续性随机变量的概率分布用概率密度函数 Probability density function,PDF 来表示,连续性随机变量的概率密度函数用小写斜体字母 p 来表示。概率密度函数在某个取值范围内的积分代表随机变量的取值在这个范围内的概率。概率密度函数的要求如下:

  • 这个函数的定义域 domain 是随机变量的所有可能取值

  • 对于任意一个取值来说,0 ≤ P(xi) ,注意这里不需要 ≤ 1,并且在实际应用中,连续型随机变量取得任意一个具体数值的概率都为 0

有时我们知道了一组随机变量的联合概率分布情况,而如果想知道只沿着其中一个变量方向的概率变化情况,则需要使用边缘概率分布。“边缘概率”这个命名实际上来源于在纸面上手动计算概率分布的过程:如果在计算联合概率分布时将所有 x 的取值作为行,将所有 y 的取值作为列,则 x 取某一特定值的概率将可以在行的右侧边缘加总得到。

  • 对于连续性随机变量,上述计算需要改成 ∫ p(x, y)dy

在某随机事件已发生的情况下,求另一个具有一定相关性的随机事件发生的概率称为条件概率 ,例如对于随机变量 x, y,当 x 取 xi 时,求 y 取 yi 的概率,这一计算的数学表示及计算公式为:

在一般性的期望、方差和协方差定义时,都讨论的是随机变量本身的期望、方差和协方差,这里作者直接讨论的是随机变量的函数的期望、方差和协方差。为了便于理解,一并给出随机变量本身的期望、方差和协方差公式。

随机变量自身的期望计算公式为:

如果随机变量 x 的概率分布为 P(x),则对于 x 的一个函数 ?(x),其在这个概率分布下的期望值记为 Ex~P[?(x)],在不至混淆的情况下可以简记为其计算方法为 Ex[?(x)]:

  • 离散型随机变量:Ex~P[?(x)] = ΣP(x)?(x),即加总 x 所有可能取值的概率与相应取值下的 ?(x) 的乘积

从计算可以看出,由于随机变量的概率分布取值为一个标量,因此期望的计算是线性的,所以有:

方差则衡量的是随机变量围绕均值变化的离散程度,方差越小则分布越集中,其本质是一个期望值。随机变量自身的方差计算公式为:

注意这个 n 是针对样本的总体 Population 而言的,在实际计算中,我们计算的都是来自总体的部分样本的方差,假设样本的数量为 m,如果需要借此来估计总体的方差,则分母需要用 m - 1 做校正。其原因在于我们有理由相信样本本身的分布相对总体来说会更加集中,因此可以将这个结果做一定程度的放大来逼近总体的方差值。方差的平方根称为标准差 Standard deviation。

上述期望和方差的定义都是针对单一随机变量的,而协方差衡量的是两个随机变量之间的线性相关性。

两个随机变量样本集 x,y 的协方差计算公式为:

相应的随机变量的函数 ?(x),g(y) 的协方差计算公式为:

  • 协方差的绝对值越大代表两个变量围绕各自均值同步偏离的程度越大,也即相关性越强

  • 如果结果是正的,则代表两个随机变量的多个取值围绕各自的均值总体上变化方向是一致的,即同时增加或减小,加总项中相同方向变化的项多于相反方向变化的项

  • 如果结果是负值,则代表随机变量的多个取值围绕各自均值的变化方向总体上是相反的,加总项中常出现的是一个变量的取值在均值的一侧,而另一个变量的取值在均值的另一侧。这里还可以参考

尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算值与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数,其计算公式为:

其中 σ 为方差,相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:

  • 当 ρ = 1 时,说明在所有取值上两个随机变量围绕均值的变化方向均相同,当 ρ = -1 时反之

  • 当 ρ = 0 或者非常接近 0 时,说明两个随机变量不具有线性相关性,但不一定相互独立,也可能具有其他的相关性,除此之外,还要注意相关关系并不意味着因果关系

  • 当 0 < ρ < 1 时,说明两个随机变量的多个取值围绕均值变化的方向有时是一致的,有时是不一致的

当将多个随机变量构成一个向量 x 时,可以通过计算这个向量中各个随机变量之间的协方差,并构造一个协方差矩阵:Cov(x) i,j = Cov(xi, xj),这个矩阵的对角线上的元素为向量中各个随机变量的方差,即 Cov(xi,

中心极限定理 Central limit theorem:从总体中多次随机抽取 n 个随机变量并计算其均值,这些均值在 n 较大时呈正态分布。中心极限定理的另一个解读方式是从总体中多次抽取 n 个随机变量并求和,这个加总的值符合正态分布。

我要回帖

更多关于 概率论重点知识点总结 的文章

 

随机推荐