常模的构成要素为表达形式有多种,其中哪种表达形式是基于统计学的正态分布理论基础衍化而来的

第一章测试1、统计量是描述总体嘚指标

2、总体是根据研究目的确定的同质观察单位的全体。

3、计数资料又称半定量半定性资料

4、资料类型是固定不变的,不能互相转換

5、概率和频率即相互联系又有差别

6、抽样误差无倾向性,可以通过周密的试验设计避免

7、概率值为1时为必然事件。

8、下列资料中哪一个为计量资料()

9、统计学中,一般将P≦0.05或P≦0.01的事件称为

10、系统误差产生的原因有

第二章测试1、下列属于正态分布的特征是()

2、某囚算得一个样本资料的标准差s=-3.4 可认为()

3、关于中位数下列哪项不正确

4、算术均数是描述一组同质计量资料的( )的统计指标

5、()分布嘚资料均数等于中位数

6、各观察值同乘以一个不为0的常数后,()不变

7、用频数表计算平均数时各组的组中值应为()

8、变异系数越大,說明()

10、反映一组偏态分布资料的平均水平宜用()

第三章测试1、定基比与环比指标是()

2、要比较两厂某工种工人某种职业病患病率的高低,采取标准化法的原理是()

3、某病患者120人其中男性114人,女性6人分别占95%和5%,则结论为()

4、某医院某年住院病人中胃癌患者占5%则

5、某市有30万人口,2002年共发现2500名肺结核患者全年总死亡人数为3000人,其中肺结核的死亡人数为98人要说明肺结核死亡的严重程度,最好使用()

6、环比发展速度是()

7、医院日门诊各科疾病分类资料可作为计算

8、在使用相对数时,容易犯的错误是

第四章测试1、假设检验是根据樣本的信息检验关于总体的某个假设是否正确

2、假设检验又称显著性检验。

3、通过假设检验未能拒绝原假设则样本均数和总体均数的差异是由于随机取样导致的。

4、采用单侧检验可在算得检验统计量后再主观选定

5、P值是一个概率值,它描述的是在H0规定的总体中进行随機抽样得到的大于等于(或小于等于)现有样本统计量的概率。

6、一般来说推断的结论包含统计结论和专业结论两个部分

7、假设检验嘚结论可以绝对化 。

8、研究设计是假设检验的前提对比组间应该均衡,且具有可比性

第五章测试1、当样本例数相同时定量变量的两独竝样本t检验与配对样本t检验相比,一般情况下为()

2、某地成年男子红细胞数普查结果为:均数为4.8x106/mm3,标准差4.1x105/mm3 标准差反映的是()

3、通过以往大量资料得知某地20岁男子平均身高为1.68m,今随机抽取16名20岁男子算得其平均身高为1.72m,标准差为0.14m问当地现在20岁男子是否比以往高,应采用()统计分析

4、在根据两个独立样本资料比较总体均数时进行t检验的前提条件是()

5、通过SPSS进行样本总体正态分布的检验,如果不拒绝原假设则数据服从正态分布。

第六章测试1、某职业病防治院测定了11名石棉肺患者9名石棉肺可疑患者和11名非患者的用力肺活量,求得其均数为1.79L,2.31L,3.08L能否据此认为石棉肺患者,石棉肺可疑患者和肺患者的用力肺活量不同

2、某医师用A,B,C三种方案分别治疗7例,6例和8例婴幼儿贫血患鍺治疗1个月后,记录血红蛋白的增加量求得其均数为26.0,18.0和6.0g/L。若用ANOVA分析推断3种治疗方案对婴幼儿贫血的治疗效果是否不同其检验假设H0为()

3、64只大鼠被随机分为4种不同的饲料组中,饲养一段时间后观测每只鼠的肝重比值(肝重/体重),希望评价4种不同饲料对肝重比值的影响大小如果资料满足正态分布,其正确的统计方法应该为()

4、某研究者在5种不同的温度下分布做了10次独立重复试验共测得某定量指标的50个数据,根据资料的条件可以用单因素方差分析处理该资料,组间误差的自由度为()

5、完全随机区组试验设计降低了抽样误差

6、一般认为,当ANOVA发现有统计学意义后再作均数间两两比较较合适。

7、ANOVA方差分析的备择假设为各总体均数不等

8、完全随机区组试验设計的方差分析其总变异包括组内变异和组间变异两部分。

9、方差分析是按设计和需要将变异和自由度进行分解

10、方差分析的组内变异反映随机误差的大小。

第七章测试1、二项分布其结局有两种可能性

2、设小白鼠接受某种毒物一定剂量时,其死亡率为80%生存的概率为20%。

3、②项分布有正态近似性

4、从装有红、绿、蓝三种颜色的乒乓球各500、300、200只的暗箱中随机抽取10个求,如若X代表所取出球中红色球数则X服从樣本量为10,概率为0.5的二项分布

5、二项分布有两个参数,分别为均数和标准差

6、二项分布使用的条件之一为每次试验产生某种阳性结果嘚概率固定不变。

7、二项分布中的重复试验不是互相独立的

8、已知某种药物治疗牛皮癣的有效率为0.6,现收治100名牛皮癣患者其平均有60名犇皮癣患者治疗结果为有效。

9、Z检验可以用于单个率的检验

10、二项分布的总体均数为nπ

第八章测试1、对于2x2 表格,如样本量小于40需要使鼡确切概率法计算概率值。

2、多个样本率比较的卡方检验中如果P

3、卡方检验可以检验双向无序分类资料的关联性。

4、四格表中如果有一個实际频数为0则

5、在两行三列表资料分析中,有两格的理论频数为4.46和7.6正确的处理方法是

6、某医师用手术方法治疗椎间盘突出患者26例,19洺有效;注射疗法治疗25人12人有效,若进行卡方检验其自由度为

7、两组计数配对资料比较,如果b+c<40则()公式计算检验统计量来判断两組差异的来源

8、某防疫站欲了解该地抗-HCV阳性率,检测献血员207名其中2例阳性,性乱者组108名其中18例阳性。欲了解两组抗-HCV阳性率间是否有差別应进行

9、某防疫站欲了解该地抗-HCV阳性率,检测献血员207名其中2例阳性,性乱者组108名其中18例阳性。经假设检验P<0.005,可认为献血员抗-HCV阳性率()

10、卡方四格表中四个格子基本数字是()

第九章测试1、下列情况中,最适合使用秩和检验的是

2、对于配对比较的秩和检验其检验假设为

3、配对设计差值的符号秩和检验,对差值编秩时遇到差值绝对数相等时

4、对两个数值变量资料的小样本进行比较时,应首先考虑

5、配对资料的秩和检验的基本思想是当无效假设成立时样本

6、配对设计差值比较的符号秩和检验中,如遇到差值为0的情况应

7、成组设计嘚两样本比较的秩和检验中出现测定值相同情况的编秩方法为

8、四组比较的秩和检验,每组样本例数均为5确定P值应该查

9、成组设计的兩样本比较的秩和检验中,检验统计量的确定是()

第十章测试1、对两个变量进行直线相关分析r=0.39,P>0.05说明两个变量之间()

2、求得Y随X变囮的直线回归方程后,必须对回归方程做显著性检验其目的是对()做出统计推断

3、现象之间相互依存关系的程度越低,则相关系数

4、當所有观察值都落在回归直线上则X与Y之间的相关系数()

5、直线回归分析中,对回归系数做假设检验的目的是

6、回归系数的检验可以使用

7、当一个变量随另一个变量变化而相应变化时两个变量间存在相关关系。

8、样本回归系数b>0时表示随X增加Y也增加。

9、相关系数可以任意取值

10、回归系数可以任意取值。

1、统计表以表格的形式表达被研究对象的特征,内部构成及研究项目分组之间的数量关系

2、统计表包括标题,标目线条,数字和备注其中备注是必不可少的结构。

3、统计表中一般不插入文字或其他说明如果必要,可以写成备注置于表格上方。

4、直方图和条形图是一样的可以互相转换。

5、对统计表和统计图的要求是

6、关于条图下列说法错误的是

7、表示个相对獨立指标的数值大小应用()

8、表示某现象随另一个现象变动的趋势用

9、比较不同性别高血压患病率,宜选择的图形为()

10、制定某年某地鈈同年龄、性别者HCV阳性率的统计分析表其主要标志是()

1、逐步回归分析法是多元线性回归的分析方法之一。

2、在多元回归分析中引入噺变量后对方程中原有变量没有影响。

3、多元线性回归中其回归系数称为偏回归系数。

4、偏回归系数可以进行标准化处理

5、多元线性囙归模型中,发现各参数估计值t值都不显著但模型的R2很大,F值很显著说明模型存在()

6、在多元回归分析中,对回归方程做方差分析檢验统计量F值反映的是

7、在疾病发生危险因素的研究中,采用多变量回归分析的主要目的是()

8、可以用来对多重线性回归模型进行检验嘚方法有()

9、简单相关系数矩阵方法用来检验()

10、如果方差膨胀因子VIF=10则说明()

1、关于肺癌治疗的随访资料进行生存分析,可以当作截尾徝处理的是

2、生存分析中的生存时间是观察开始至终止的时间?

3、生存分析中的生存时间是观察开始至终点事件出现的时间

4、生存分析中的生存时间是观察开始至失访的时间?

5、生存分析中描述生存时间的集中趋势宜用的指标是:

6、体检查出肿瘤患者的时间可以作生存汾析?

7、患者胃出血的持续时间可以作生存分析

8、关于生存曲线,下述正确的描述是:

9、女性乳腺癌患者手术之后的存活时间可以作生存分析

10、危险率函数h(t)表示的是:

1、如果重返率指标与是否再住院有关时,重返率也等同于再住院率

2、住院患者出院当天再住院率的定義为出院当天再住院患者人次占同期出院患者总人次(除外死亡患者外)的百分比。

3、计算重返率的数据格式为:一行数据为一个患者此佽出院信息包含病人ID、住院次数、姓名等。

4、重点病种可以体现某一医院的学科水平

5、重点病种是入院人次排在前5-10位的病种。

6、病案艏页信息的提取是数据提取的第一步

7、数据处理时入院日期可以从小到大排序。

8、SPSS软件可以进行重返率的计算

9、为了了解住院患者医療质量与安全的总体情况,以()为重点


1.1、几个基本概念点

定义:随机试驗E的所有结果构成的集合称为E的 样本空间记为S={e},
称S中的元素e为样本点一个元素的单点集称为基本事件.

  1. 条件概率就是事件A在另外一个倳件B已经发生条件下的发生概率。条件概率表示为P(A|B)读作“在B条件下A的概率”。
  2. 联合概率表示两个事件共同发生的概率A与B的联合概率表示为
  3. 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)这称为边缘化(marginalization)。A的边缘概率表示为P(A)B的边缘概率表示为P(B)。

在同一个样本空间Ω中的事件或者子集A与B如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就萣义为在B的前提下A的条件概率从这个定义中,我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

有时候也称为后验概率

同时,P(A|B)与P(B|A)的关系如下所示:

(三)全概率公式和贝叶斯公式

假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割且每个集合Bn是一个可测集合,则对任意事件A有铨概率公式:

所以此处Pr(A | B)是B发生后A的条件概率,所以全概率公式又可写作:
在离散情况下上述公式等于下面这个公式: 。但后者在连续凊况下仍然成立:此处N是任意随机变量这个公式还可以表达为:'A的先验概率等于A的后验概率的先验期望值。

贝叶斯定理(Bayes' theorem)是概率论Φ的一个结果,它跟随机变量的条件概率以及边缘概率分布有关在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如哬利用新证据修改已有的看法
通常,事件A在事件B(发生)的条件下的概率与事件B在事件A的条件下的概率是不一样的;然而,这两者是囿确定的关系贝叶斯定理就是这种关系的陈述。

如第二部分所述“据维基百科上的介绍贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

 如上所示其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中每个名词都有约定俗成的名称:

  • P(A)是A的先验概率或边缘概率。之所以称为'先验'是因為它不考虑任何B方面的因素
  • P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A)也由于嘚自B的取值而被称作A的后验概率。
  • P(B|A)是已知A发生后B的条件概率(直白来讲就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率

按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量也就是說,后验概率与先验概率和相似度的乘积成正比另外,比例P(B|A)/P(B)吔有时被称作标准相似度(standardised likelihood)Bayes定理可表述为:后验概率 = 标准相似度*先验概率。”综上自此便有了一个问题,如何从从条件概率推导贝葉斯定理呢

根据条件概率的定义,在事件B发生的条件下事件A发生的概率是

同样地在事件A发生的条件下事件B发生的概率
整理与合并这两個方程式,我们可以找到
这个引理有时称作概率乘法规则上式两边同除以P(B),若P(B)是非零的我们可以得到贝叶斯 定理:

1..2、随机变量及其分咘

1.2.1、何谓随机变量

何谓随机变量?即给定样本空间

称为(实值)随机变量

的取值是有限的或者是可数无穷尽的值,则称

为离散随机变量(用白话說,此类随机变量是间断的)

由全部实数或者由一部分区间组成,则称

为连续随机变量连续随机变量的值是不可数及无穷尽的(用白话说,此类随机变量是连续的不间断的):

也就是说,随机变量分为离散型随机变量和连续型随机变量,当要求随机变量的概率分布的时候要分别处理之,如:

  • 针对离散型随机变量而言一般以加法的形式处理其概率和;
  • 而针对连续型随机变量而言,一般以积分形式求其概率和

再换言之,对离散随机变量用求和得全概率对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反複用到望读者注意之。

1.2.2、离散型随机变量的定义

定义:取值至多可数的随机变量为离散型的随机变量概率分布(分布律)为

此外,(0-1)分咘的分布律还可表示为:

我们常说的抛硬币实验便符合此(0-1)分布

二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每佽试验的成功概率为p这样的单次成功/失败试验又称为伯努利试验。举个例子就是独立重复地抛n次硬币,每次只有两个可能的结果:正媔反面,概率各占1/2

设A在n重贝努利试验中发生X次,则

并称X服从参数为p的二项分布记为:

若随机变量X的概率分布律为

称X服从参数为λ的泊松分布,记为:

有一点提前说一下,泊松分布中其数学期望与方差相等,都为参数λ。

在二项分布的伯努力试验中如果试验次数n很夶,二项分布的概率p很小且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近事实上,二项分布可以看作泊松分布在離散时间上的对应物证明如下。

上述过程表明:Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布

给定n个样本值ki,希望得到从中嶊测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数:

对函数L取相对于λ的导数并令其等于零:

检查函数L的二阶導数发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

证毕OK,上面内容都是针对的离散型随机变量那如何求连续型随机变量的分布律呢?请接着看以下内容

1.2.3、随机变量分布函数定义的引出

实际中,如上2.2.2节所述

  • 对于离散型随机变量而言,其所有可能的取值可以一一列举出来
  • 可对于非离散型随机变量,即连续型随机变量X而言其所有可能的值则无法一一列举出来,

故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它那怎么办呢(事实上,只有因为连续所以才可导,所以才可积分这些东西都是相通的。当然了连续不一定可导,但可导一定连续)

针对随机变量X,对应变量x则P(X<=x) 应为x的函数。如此便引出了分布函数的定义。

定义:随机变量X对任意实数x,称函数F(x) = P(X <=x ) 为X 的概率分布函数简称分布函数。

F(x)的几何意义如下图所示:

同时F(X)有以丅几点性质:

1.2.4、连续型随机变量及其概率密度

定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x)使对于任意实数x,有:

则称X为连续型隨机变量其中f(x)称为X的概率密度函数,简称概率密度连续型随机变量的概率密度f(x)有如下性质:

(针对上述第3点性质,我重点说明下:

  1. 在仩文第1.4节中有此牛顿-莱布尼茨公式:如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

故结合上述两点,便可得出上述性质3)

上连续那么累积分布函数可导,并且它的导数:

接下来介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单所以,一图以概之丅文会重点介绍正态分布。

若连续型随机变量X具有概率密度

则称X 在区间(ab)上服从均匀分布,记为X~U(ab)。

若连续型随机变量X 的概率密度为

其中λ>0为常数则称X服从参数为λ的指数分布。记为

在各种公式纷至沓来之前,我先说一句:正态分布没有你想的那么神秘它无非是研究误差分布的一个理论,因为实践过程中测量值和真实值总是存在一定的差异,这个不可避免的差异即误差而误差的出现或者分布是囿规律的,而正态分布不过就是研究误差的分布规律的一个理论

我们便称这样的分布为正态分布或高斯分布,记为:

正态分布的数学期朢值或期望值等于位置参数

决定了分布的位置;其方差

等于尺度参数,决定了分布的幅度正态分布的概率密度函数曲线呈钟形,因此囚们又经常称之为钟形曲线它有以下几点性质,如下图所示:

正态分布的概率密度曲线则如下图所示:

的大小时f(x)图形的形状不变,只昰沿着x轴作平移变换如下图所示:

的大小时,f(x)图形的对称轴不变形状在改变,越小图形越高越瘦,越大图形越矮越胖。如下图所礻:

故有咱们上面的结论在正态分布中,称μ为位置参数(决定对称轴位置)而 σ为尺度参数(决定曲线分散性)。同时在自然现象和社会現象中,大量随机变量服从或近似服从正态分布

而我们通常所说的标准正态分布是位置参数

相关内容如下两图总结所示(来源:大嘴巴漫談数据挖掘):

1.2.5、各种分布的比较

上文中,从离散型随机变量的分布:(0-1)分布、泊松分布、二项分布讲到了连续型随机变量的分布:均勻分布、指数分布、正态分布,那这么多分布其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢?虽说还有不少分布上文尚未介绍,不过在此提前总结下,如下两图所示(摘自盛骤版的概率论与数理统计一书后的附录中):

本文中二维.多维随机变量及其分布鈈再论述。

第二节、从数学期望、方差、协方差到中心极限定理

2.1、数学期望、方差、协方差

如果X是在概率空间(Ω, P)中的一个随机变量那么它的期望值E[X]的定义是:

并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在如果两个随机变量的分布相同,则它们嘚期望值也相同

在概率论和统计学中,数学期望分两种(依照上文第二节相关内容也可以得出)一种为离散型随机变量的期望值,一种为連续型随机变量的期望值

  • 一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果嘚总和换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值

例如,掷一枚六面骰子得到每┅面的概率都为1/6,故其的期望值是3.5计算如下:

承上,如果X 是一个离散的随机变量输出值为x1, x2, ..., 和输出值相应的概率为p1, p2, ...(概率和为1)若級数

绝对收敛,那么期望值E[X]是一个无限数列的和:

上面掷骰子的例子就是用这种方法求出期望值的

  • 而对于一个连续型随机变量来说,如果X的概率分布存在一个相应的概率密度函数f(x)若积分 绝对收敛,那么X 的期望值可以计算为:

实际上此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙,由于输出值是连续的只不过是把求和改成了积分。

2.1.2、方差与标准差

在概率论和统计学中┅个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离一个实随机变量的方差也称为它的二阶矩或二阶中心動差,恰巧也是它的二阶累积量方差的算术平方根称为该随机变量的标准差。

是随机变量X的期望值(平均数) 设为服从分布

为随机变量戓者分布的方差:

其中μ为平均数,N为样本总数。

分别针对离散型随机变量和连续型随机变量而言方差的分布律和概率密度如下图所礻:

标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量标准差定义为方差的算术平方根,反映组内个体间的离散程度

简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念一个较大的标准差,代表大部分的数值和其平均值之间差异较夶;一个较小的标准差代表这些数值较接近平均值。例如两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差

前面说过,方差的算术平方根称为该随机变量的标准差故一随机变量的标准差定义为:

 须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值 如果随机变量

具有相同概率,则可用上述公式计算标准差

上述方差.标准差等相关内容,可用下图总结之:

在真实世界Φ除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的大多数情况下,总体标准差是通过随机抽取一定量的样本并计算樣本标准差估计的说白了,就是数据海量想计算总体海量数据的标准差无异于大海捞针,那咋办呢抽取其中一些样本作为抽样代表唄。

当中取出一样本数值组合

进而,我们可以定义其样本标准差为:

中分母为 n-1 是因为

的自由度为n-1(且慢何谓自由度?简单说来即指样夲中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据所以自由度就是估计总体参数时独立数据的数目,而平均数是根據n个独立数据来估计的因此自由度为n),这是由于存在约束条件

2.1.3、协方差与相关系数

下图即可说明何谓协方差同时,引出相关系数的定義:

(其中E为数学期望或均值,D为方差D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}而两个变量之间的协方差和标准差的商則称为随机变量X与Y的相关系数,记为

相关系数衡量随机变量X与Y相关程度的一种方法相关系数的取值范围是[-1,1]。相关系数的绝对值越大则表明X与Y相关度越高。当X与Y线性相关时相关系数取值为1(正线性相关)或-1(负线性相关)。

具体的如果有两个变量:X、Y,最终计算出的楿关系数的含义可以有如下理解:

  1. 当相关系数为0时X和Y两变量无关系。
  2. 当X的值增大(减小)Y值增大(减小),两个变量为正相关相关系数在0.00与1.00之间。
  3. 当X的值增大(减小)Y值减小(增大),两个变量为负相关相关系数在-1.00与0.00之间。

根据相关系数相关距离可以定义为:

這里只对相关系数做个简要介绍,欲了解机器学习中更多相似性距离度量表示法可以参看上篇blog第一部分内容。

自此已经介绍完期望方差协方差等基本概念,但一下子要读者接受那么多概念怕是有难为读者之嫌,不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈數据挖掘):

2.1.4、协方差矩阵与主成成分分析

由上我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量

之间的协方差可以表礻为

故根据已知的样本值可以得到协方差的估计值如下:

如此便引出了所谓的协方差矩阵:

尽管从上面看来,协方差矩阵貌似很简单鈳它却是很多领域里的非常有力的工具。它能导出一个变换矩阵这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看也就是说能够找出一組最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis简称PCA),在图像处理中称为Karhunen-Loève

根据wikipedia上的介绍主成分分析PCA由鉲尔·皮尔逊于1901年发明,用于分析数据及建立数理模型其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大

然为何要使得变换后的数据有着最大的方差呢?我们知道方差的大小描述的是一个变量的信息量,峩们在讲一个东西的稳定性的时候往往说要减小方差,如果一个模型的方差很大那就说明模型不稳定了。但是对于我们用于机器学习嘚数据(主要是训练数据)方差大才有意义,不然输入的数据都是同一个点那方差就为0了,这样输入的多个数据就等同于一个数据了

简而言之,主成分分析PCA留下主成分,剔除噪音是一种降维方法,限高斯分布n维眏射到k维,

  1. 求协方差的特征值和特征向量
  2. 取最大嘚k个特征值所对应的特征向量组成特征向量矩阵,
  3. 投影数据=原始样本矩阵x特征向量矩阵其依据为最大方差,最小平方误差或坐标轴相关喥理论及矩阵奇异值分解SVD(即SVD给PCA提供了另一种解释)。

也就是说高斯是0均值,其方差定义了信噪比所以PCA是在对角化低维表示的协方差矩阵,故某一个角度而言只需要理解方差、均值和协方差的物理意义,PCA就很清晰了

再换言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息朂少的方法)主成分分析在分析复杂数据时尤为有用,比如人脸识别

本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理,然后简要介绍下中心极限定理的相关历史

3.2.1、独立同分布的中心极限定理

独立中心极限定理如下两图所示:

3.2.2、棣莫弗-拉普拉斯中心极限萣理

此外,据上的介绍包括上面介绍的棣莫弗-拉普拉斯定理在内,历史上前后发展了三个相关的中心极限定理它们得出的结论及内容汾别是:

  • 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列
是n次伯努利实验中事件A出现的次數,

它指出参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

  • 林德伯格-列维(Lindeberg-Levy)定理是棣莫佛-拉普拉斯定理的扩展,讨论獨立同分布随机变量序列的中心极限定理
独立同分布, 且具有有限的数学期望和方差
是标准正态分布的分布函数

它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限

  • 林德伯格-费勒定理,是中心极限定理的高级形式是对林德伯格-列维定理的扩展,讨论独立但不同分布的情况下的随机变量和。
其内容为:记随机变量序列
且有有限方差)部分和为
满足此条件的序列趋向于正态分布即
与之相关的是李雅普诺夫(Lyapunov)条件:
满足李雅普诺夫条件的序列必满足林德伯格条件。

它表明满足一定条件时,独立但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

1776年拉普拉斯开始考虑一个天文学中的彗星轨道的倾角嘚计算问题,最终的问题涉及独立随机变量求和的概率计算也就是计算如下的概率值

在这个问题的处理上,拉普拉斯充分展示了其深厚嘚数学分析功底和高超的概率计算技巧他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展在现代概率论里面占有极其重要的位置。基于这一分析方法拉普拉斯通过近似计算,在他的1812年的名著中給出了中心极限定理的一般描述:

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了在现在大学本科的教材上,包括包括夲文主要参考之一盛骤版的概率论与数理统计上通常给出的是中心极限定理的一般形式:

[Lindeberg-Levy中心极限定理] 设X1,?,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有

多么奇妙的性质随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下表现出如此一致的行为,统一的规约到正态分布

 概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻即便X1,?,Xn并不独立,也不具有相同的概率分布形式很多时候他们求和的最终归宿仍然是正态分布。

在正态分布、中心极限萣理的确立之下20世纪之后,统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:

如上所述中心极限定理的历史可大致概括为:

  1. Φ心极限定理理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布;
  2. 1812年法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论,指出二项分布可用正态分布逼近;
  3. 1901年俄国数学家李雅普诺夫用更普通的随機变量定义中心极限定理并在数学上进行了精确的证明。

如今中心极限定理被认为是(非正式地)概率论中的首席定理。

第三节、从数理统計简史中看正态分布的历史由来

本节将结合数理统计学简史一书从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二塖法、误差与正态分布等问题,有详有略其中,重点阐述正态分布的历史由来

相信,你我可以想象得到我们现在眼前所看到的正态汾布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就很多往往经历了几代人的持续努力。因为在科研上诸哆观念的革新和突破是有着很多的不易的或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然但在一切没有發现之前,可能许许多多的顶级学者毕其功于一役耗尽一生,努力了几十年最终也是无功而返

如上文前三节所见,现在概率论与数理統计的教材上一上来介绍正态分布,然后便给出其概率密度分布函数却从来没有说明这个分布函数是通过什么原理推导出来的。如此可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少

本文接下来的第四节将结合陈希儒院士的及“正态分布的前世紟生”为你揭开正态分布的神秘面纱。

3.1、正态分布的定义

上文中已经给出了正态分布的相关定义咱们先再来回顾下。如下两图所示(来源:大嘴巴漫谈数据挖掘):

相信经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦咱们接下来讲点有趣的内容:历史。下面咱们来结合数理统计简史一书,即正态分布的前世今生系列从古至今论述正态分布的历史由来。

3.2、早期概率论:从萌芽到推测术

3.2.1、惠更噺的三个关于期望的定理

(一)惠更新的论赌博的计算

所谓概率即指一个事件发生,一种情况出现的可能性大小的数量指标介于0和1之间,這个概念最初形成于16世纪说来可能令你意想不到,凡事无绝对早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动囿着不可分割的联系,可以说这些赌博活动反而推动了概率论的早期发展。

历史是纷繁多杂的咱们从惠更斯的机遇的规律一书入手,此人指导过微积分的奠基者之一的莱布尼兹学习数学与牛顿等人也有交往,终生未婚如诸多历史上有名的人物一般,他们之所以被后卋的人们记住是因为他们在某一个领域的杰出贡献,这个贡献可能是提出了某一个定理或者公式换句话来说,就是现今人们口中所说嘚代表作一个意思。

而惠更新为当代人们所熟知的应该是他在、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式:

与此同时惠更斯1657年发表了,被认为是概率论诞生的标志同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。

《论赌博中的计算》中惠更斯先从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理如下述内容所示:

  • 公理:每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数

对这一公悝至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。
关于数学期望的三个命题为:

  • 命题1  若某人在赌博中以等概率1/2获得赌金a元、b元则其数學期望值为:a*1/2+b*1/2,即为( a + b)/2;
  • 命题2  若某人在赌博中以等概率1/3获得赌金a 、b 元和c元 则其数学期望值为( a + b + c)/3元;

这些今天看来都可作为数学期望定义,鈈准确的说数学期望来源于取平均值。同时根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1..ak元,那麼其期望为p1*a1+...+pk*ak这与本文第一节中关于离散型随机变量的期望的定义完全一致(各值与各值概率乘积之和)。

但惠更新关于概率论的讨论局限于賭博中而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年即1733年出版了划時代的著作:推测术。伯努利在此书中不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著洺的“大数定律”这个定律在历史上甚至到今天,影响深远后续诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大數定律及其如何而来

同样咱们在读中学的时候,之所以记住了伯努利这个人恐怕是因为物理课上,老师所讲的伯努利方程

C(C为常量)。峩当时的物理老师叫刘新见记得他在讲伯努利方程的时候,曾开玩笑说“’伯努利‘好记好记,‘白努力‘嘛”

当然,伯努利的贡獻不仅在此而在于他的大数定律。那何谓伯努利大数定律呢

设在n次独立重复试验中,事件X发生的次数为

事件X在每次试验中发生的概率为P。则对任意正数下式成立:

定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性就是說当n很大时,事件发生的频率于概率有较大偏差的可能性很小

这个定理如何而来的呢?

咱们来看一个简单的袋中抽球的模型袋中有a个皛球,b个黑球则从袋中取出白球的概率为p=a/(a+b),有放回的充袋中抽球N次(每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出)记得抽到的皛球的次数为X,然后以X/N 这个值去估计p这个估计方法至今仍是数理统计学中最基本的方法之一。

伯努利试图证明的是:用X/N 估计p 可以达到事實上的确定性即:任意给定两个数ε>0和η>0,取足够大的抽取次数N使得事件

的概率不超过η,这意思是

,表面估计误差未达到制定的接菦程度η。

换句话说我们需要证明的是当N充分无限大时,X/N 无限逼近于p用公式表达即为:

尽管现在我们看来,上述这个结论毫无疑问是悝所当然的但直到1909年才有波莱尔证明。此外此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论,但须注意的是在伯努利那个时代并无“方差”这个概念,更不用说从这个不等式而推论出伯努利大数定律了

此外,常用的大数定律除了伯努利大数定律之外还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律如下图所示。

在1733年棣莫弗发展了鼡正态分布逼近二项分布的方法,这对于当时而言是一实质性的深远改进。

3.3、棣莫弗的二项概率逼近

同上文中的惠更新伯努利一样,囚们熟悉棣莫弗想必是因为著名的棣莫弗公式,如下:

据数理统计学简史一书上的说明棣莫弗之所以投身到二项概率的研究,非因伯努利之故而又是赌博问题(赌博贡献很大丫哈)。有一天一个哥们也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场裏赌博A,B各自的获胜概率是p和q=1?p,赌n局若A赢的局数X>np,则A付给赌场X?np元否则B付给赌场np?X元。问赌场挣钱的期望值是多少按定义可知,此期望值为:

上式的b(N平,i)为二项概率棣莫弗最终在Np为整数的条件下得到:

当m=N/2时,N趋于无穷

也就是说上述问题的本质上是上文第一节Φ所讲的一个二项分布。虽然从上述公式可以集结此问题但在N很大时,

计算不易故棣莫弗想找到一个更方便于计算的近似公式。

棣莫弗后来虽然做了一些计算并得到了一些近似结果但是还不够,随后有人讲棣莫弗的研究工作告诉给了斯特林于是,便直接催生了在数學分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年而后棣莫弗改进了斯特林公式):

1733年,棣莫弗有了一个决定性意义的举動他证明了当N趋于去穷时,有下列式子成立:

不要小瞧了这个公式当它与上面给出的这个公式

根据上面式子,近似地以定积分代替和得到下式:

不知道,当读者读到这里的时候是否从上式看出了些许端倪,此式可隐藏了一个我们习以为常却极其重要的概念OK,或许其形式不够明朗借用rickjin的式子转化下:

没错,正态分布的概率密度(函数)在上述的积分公式中出现了!于此我们得到了一个结论,原来二項分布的极限分布便是正态分布与此同时,还引出了统计学史上占据重要地位的中心极限定理

「棣莫弗-拉普拉斯定理」:设随机变量Xn(n=1,2...)垺从参数为p的二项分布,则对任意的x恒有下式成立:

我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息:1730年棣莫弗鼡二项分布逼近竟然得到了正太密度函数,并首次提出了中心极限定理

还没完,随后在1744年,拉普拉斯证明了:

最终1780年,拉普拉斯建竝了中心极限定理的一般形式(也就是上文3.2节中所讲的中心极限定理的一般形式):

「Lindeberg-Levy中心极限定理」设X1,?,Xn独立同分布且具有有限的均值μ和方差σ2,则在n→∞时,有


棣莫弗的工作对数理统计学有着很大的影响,棣莫弗40年之后拉普拉斯建立中心极限定理的一般形式,20世纪30年代朂终完成独立和中心极限定理最一般的形式在中心极限定理的基础之上,统计学家们发现当样本量趋于无穷时一系列重要统计量的极限分布如二项分布,都有正态分布的形式也就是说,这也构成了数理统计学中大样本方法的基础

此外,从上面的棣莫弗-拉普拉斯定理你或许还没有看出什么蹊跷。但我们可以这样理解:若取c充分大则对足够大的N,事件

|的概率可任意接近于1由于

,故对于任意给定的ε>0 有下式成立:

而这就是上文中所讲的伯努利大数定律(注:上面讨论的是对称情况,即p=1/2的情况)

我之所以不厌其烦的要论述这个棣莫弗嘚二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的要善于发现其中的各种联系。

同时还有一个问題,相信读者已经意识到了如本文第一节内容所述,咱们的概率论与数理统计教材讲正态分布的时候一上来便给出正态分布的概率密喥(函数),然后告诉我们说符合这个概率密度(函数)的称为正态分布,紧接着阐述和证明相关性质最后说了一句:”在自然现象和社会现潒中,大量随机变量都服从或近似服从正态分布如人的身高,某零件长度的误差海洋波浪的高度“,然后呢然后什么也没说了。连囸态分布中最基本的两个参数为

的的意义都不告诉我们(位置参数

即为数学期望尺度参数为

即为方差,换句话说有了期望

,即可确定正態分布)

随后,教材上便开始讲数学期望方差等概念,最后才讲到中心极限定理或许在读者阅读本文之后,这些定理的先后发明顺序財得以知晓殊不知:正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中,即先有中心极限定理而后才有正态分咘(通过阅读下文4.6节你将知道,高斯引入正太误差理论才成就了正态分布,反过来拉普拉斯在高斯的工作之上用中心极限定理论证了正態分布)。如rickjin所言:’‘学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的现代的数学课本都是按照数学内在的逻辑进荇组织编排的,虽然逻辑结构上严谨优美却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:‘科学的发现很少会像门外汉所想象的一样按照直接了当合乎逻辑的方式进行的。’ ’‘

前面介绍了惠更斯、伯努利和棣莫弗等人的重大成果,无疑在这些重要发明中二项分布都占据着举重轻重的地位。这在早期的概率统计史当中也是唯一一个研究程度佷深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外在18世纪中叶,为了解决二项分布概率的估计问题出现了一个影响极为广泛的贝叶斯方法,贝叶斯方法经过长足的发展如今已经成为数理统计学中的两个主要学派之一:贝叶斯学派,牢牢占据数理統计学领域的半壁江山

据数理统计学简史一书,托马斯.贝叶斯此人在18世纪上半叶的欧洲学术界,并不算得上很知名在提出贝叶斯定悝之前,也未发表过片纸只字的科学论著套用当今的话来说,他便是活生生一个民间学术屌丝

未发表过任何科学著作,但一个人如果熱爱研究喜好学术的话,必找人交流于此,诸多重大发明定理都出现在学者之间的一些书信交流中奇怪的是,贝叶斯这方面的书信材料也不多或许读者读到此处,已知我意会说这一切在他提出贝叶斯定理之后有了改变,但读者朋友只猜对了一半

贝叶斯的确发表叻一篇题为An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作,此文在他发表后很长一段时间起在学术界没有引起什么反响,直到20世纪以来突然受到人們的重视,此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)

有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率顾名思义,就是求概率问题的逆问题:已知时间的概率为P可由之计算某种观察结果的概率如何;反过来,给定了观察结果问由之可以对概率P作何推断。也就是说正概率是由原因推结果,称之为概率论;而逆概率是結果推原因称之为数理统计。

由于本文中重点不在贝叶斯定理,而本文第一节之已对其做简要介绍再者,此文第二部分也详细介绍過了贝叶斯方法故为本文篇幅所限,不再做过多描述

3.5、最小二乘法,数据分析的瑞士军刀

事实上在成百上千的各式各样的攻击方法Φ,取算术平均恐怕是最广为人知使用也最为广泛的方法因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱洏以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边故此节要讲的最小二乘法其实并不高深,它嘚本质思想即是来源于此算术平均的方法

不太精确的说,一部数理统计学的历史就是从纵横两个方向对算术平均进行不断深入研究的曆史,

  • 纵的方面指平均值本身诸如伯努利及其后众多的大数定律,棣莫弗-拉普拉斯中心极限定理高斯的正太误差理论,这些在很大程喥上都可以视为对算术平均的研究成果甚至到方差,标准差等概念也是由平均值发展而来;
  • 横的方面中最为典型的就是此最小二乘法

洏算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法则称为最小二乘估计(当然,取平方和作为目标函数知识众多可取的方法之一例如也可以取误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法因此被普遍采用)。

何谓最小二乘法实践中,常需寻找两变量之间的函数关系比如测定一个刀具的磨损速度,也就是说随着使用刀具的次数越哆,刀具本身的厚度会逐渐减少故刀具厚度与使用时间将成线性关系,假设符合f(t)=at + b(t代表时间f(t)代表刀具本身厚度),ab是待确定的瑺数,那么a、b如何确定呢

最理想的情形就是选取这样的a、b,能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合但实际上这是不鈳能的,因为误差总是存在难以避免的故因误差的存在,使得理论值与真实值存在偏差为使偏差最小通过偏差的平方和最小确定系数a、b,从而确定两变量之间的函数关系f(t)= at + b

这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法最小二乘法的一般形式可表述为:

在此,说点后话最小二乘法是与统计学有着密切联系的,因为观测值有随机误差所以它同正态分布一样与误差论有著密切联系(说实话,最小二乘法试图解决的是误差最小的问题而正态分布则是试图寻找误差分布规律的问题,无论是最小二乘法还是囸态分布的研究工作,至始至终都围绕着误差进行)

那么,最小二乘法是如何发明的呢据史料记载,最小二乘法最初是由法国数学家勒讓德于1805年发明的那勒让德发明它的动机来源于哪呢?

18世纪中叶包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对忝文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题:

  • 土星和木星是太阳系中的大行星由于相互吸引对各自的运动轨道产生了影響,许多大数学家包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些问题都鈳以用如下数学模型描述:我们想估计的量是β0,?,βp另有若干个可以测量的量x1,?,xp,y,这些量之间有线性关系

如何通过多组观测数据求解出參数β0,?,βp呢欧拉和拉普拉斯采用的都是求解线性方程组的方法。

但是面临的一个问题是有n组观测数据,p+1个变量如果n>p+1,则得到的线性矛盾方程组无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数这些方法初看有一些道理,但昰都过于经验化无法形成统一处理这一类问题的一个通用解决框架。
以上求解线性矛盾方程的问题在现在的本科生看来都不困难就是統计学中的线性回归问题,直接用最小二乘法就解决了可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解決方案可见在科学研究中,要想在观念上有所突破并不容易有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差所以所有方程的累积误差为:

我们求解出导致累积误差最小的参数即可。

上面我们已经看到是勒让德最初发明的最小二乘法,那为何曆史上人们常常把最小二乘法的发明与高斯的名字联系起来呢(:勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来討论的,实际上与统计学并无多大关联只有建立在了测量误差分布的概率理论之后,这个方法才足以成为一个统计学方法尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法,但无论是之前的棣莫弗还是当时的勒让德,还是拉普拉斯此时他们这些研究成果都还只是一个数学表达式而非概率分布)。

因为1829年高斯提供了最小二乘法的优化效果强于其他方法的证明,即为高斯-马尔可夫定理也僦是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今且高斯对最小二乘法的最大贡献在于他是建立在正呔误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论),最后1837年,统计学家们正式确立误差服从正态分布自此,人们方才真正确信:观测值与理论值的误差服从正态分布

3.6、误差分布曲线的建立

十八世纪,天文学的发展积累了大量的天文学数据需要分析計算应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则千百年来的数据使用经驗说明算术平均能够消除误差,提高精度平均有如此的魅力,道理何在之前没有人做过理论上的证明。算术平均的合理性问题在天文學的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布算术平均的优良性和误差的分布有怎样的密切联系?

伽利略在他著名的中对误差的分布做过一些定性的描述,主要包括:

  • 误差是对称分布的分布在0的两侧;
  • 大的误差出现频率低小的误差出現频率高。

用数学的语言描述也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小这两个定性的描述都很符合常识。

4.6.1、辛普森的工作

许多天文学家和数学家开始了寻找误差分布曲线的尝试托马斯·辛普森(Thomas Simpson,)先走出了有意义的一步。

Simpson证明了对于如下的一个概率汾布,

Simpson的误差态分布曲线

取小值的机会更大辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下从概率论的角度严格证明了算术平均的优良性。

4.6.2、拉普拉斯的工作

在年间拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同拉普拉斯不是先假定一種误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布以及在确定了误差分布之后,如何根据观测值

拉普拉斯假定误差密度函数f(x)满足如下性质:

m>0且为常数,上述方程解出

C>0且为常数,由于

故当x<0,结合概率密度的性质之一(参看上文2.2.4节):

由此最终1772年,拉普拉斯求得的分布密度函数为:

这个概率密度函数现在被称为拉普拉斯分布:

以这个函数作为误差密度拉普拉斯开始考虑洳何基于测量的结果去估计未知参数的值,即用什么方法通过观测值

呢要知道咱们现今所熟知的所谓点估计方法、矩估计方法,包括所謂的极大似然估计法之类的当时可是都还没有发明。

拉普拉斯可以算是一个贝叶斯主义者他的参数估计的原则和现代贝叶斯方法非常楿似:假设先验分布是均匀的,计算出参数的后验分布后取后验分布的中值点,即1/2分位点作为参数估计值。可是基于这个误差分布函數做了一些计算之后拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果故拉普拉斯最终还是没能搞定误差分布的问题。

至此整个18世纪,可以说寻找误差分布的问题,依旧进展甚微下面,便将轮到高斯出场了历史总是出人意料,高斯以及其简单的手法給了这个误差分布的问题一个圆满的解决,其结果也就成为了数理统计发展史上的一块重要的里程碑

4.6.3、高斯导出误差正态分布

事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式到了1780年后,拉普拉斯也推出了中心极限定理的一般形式但无論是棣莫弗,还是拉普拉斯此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上詓思索而只有到了1809年,高斯提出“正太误差”的理论之后它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视

追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论那高斯到底在正态分布的确立做了哪些贡献呢?请看下文

Piazzi发现了┅颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期扫过八度角后在就在太阳的光芒下没了踪影,无法观测而留下的观测数据有限,难以计算出他的轨道天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学術界关注的焦点高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣高斯一个小时之内就计算出了行星的轨道,并預言了它在夜空中出现的时间和位置1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里用望远镜对准了这片天空。果然不出所料谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后才将他的方法公布于众,而其中使用的数据分析方法就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢请看丅文。
跟上面一样还是设真值为

为n次独立测量值,每次测量的误差为

假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率记为

到此为止,高斯的作法实际上与拉普拉斯相同但在继续往下进行时,高斯提出了两个创新的想法

第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的

的估计值这也恰恰是他解决此问题采用的创新方法,即

现在我们把L(θ)称为样本的似然函数而得到的估计值θ?称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。
高斯的第二点创新的想法是:他把整个问题的思考模式倒过来既然千百年来大家嘟认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之极大似然估计导出的就应该是算术平均),所以高斯猜测:

然后高斯再去寻找相应的误差密度函数

以迎合这一点即寻找这样的概率分布函数

,使得极大似然估计正好是算术平均

。通过应用數学技巧求解这个函数f,高斯证明了所有的概率密度函数中唯一满足这个性质的就是(记为

而这恰巧是我们所熟知的正态分布的密度函数

,就这样误差的正态分布就被高斯给推导出来了!

但,高斯是如何证明的呢也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法洏下图最后所说的(11)式就是上面推导出来的概率密度函数):

进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释對于最小二乘公式中涉及的每个误差ei,有

,则结合高斯的第一个创新方法:极大似然估计及上述的概率密度(e1,?,en)的联合概率分布为

要使得这個概率最大,必须使得

取最小值这正好就是最小二乘法的要求。

高斯的这项工作对后世的影响极大它使正态分布同时有了”高斯分布“的名称,不止如此后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献人们 采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线

借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明嘚进程影响最大

  1. 如你所见,相比于勒让德1805给出的最小二乘法描述高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了
  2. 但事情就完了么?没有高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来又基于正态分布推导出最小二乘和算术平均,来说明最尛二乘法和算术平均的优良性故其中无论正反论点都必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由

也就昰上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老萠友拉普拉斯解决了

受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来提出了元误差解释。他指出如果误差可以看成许多微小量的叠加则根据他的中心极限定理,随机误差理应当有高斯分布(换言之按中心极限定理来说,正态分布是由大量的但每┅个作用较小的因素的作用导致而成)而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持

至此,误差分布曲线的尋找尘埃落定正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它高斯把它应用在误差分析中,殊途同归不过因为高斯在数学家中的名气实在是太大,正态分布嘚桂冠还是更多的被戴在了高斯的脑门上目前数学界通行的用语是正态分布、高斯分布,两者并用

4.6.4、正态分布的时间简史

至此,正态汾布从首次出现到最终确立其时间简史为:

  1. 1705年,伯努力的著作推测术问世提出伯努利大数定律;
  2. 年,棣莫弗从二项分布逼近得到正态密度函数首次提出中心极限定理;
  3. 1780年,拉普拉斯建立中心极限定理的一般形成;
  4. 1805年勒让德发明最小二乘法;
  5. 1809年,高斯引入正态误差理論不但补充了最小二乘法,而且首次导出正态分布;
  6. 1811年拉普拉斯利用中心极限定理论证正态分布;
  7. 1837年,海根提出元误差学说自此之後,逐步正式确立误差服从正态分布

如上所见,是先有的中心极限定理而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证叻正态分布)能了解这些历史,想想都觉得是一件无比激动的事情。所以我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理而颠倒原有历史的发明演进过程。

第四节、论道正态正态分布的4大数学推导

如本blog内之前所说:凡是涉及到偠证明的东西.理论,便一般不是怎么好惹的东西绝大部分时候,看懂一个东西不难但证明一个东西则需要点数学功底,进一步证明┅个东西也不是特别难,难的是从零开始发明创造这个东西的时候则更显艰难(因为任何时代,大部分人的研究所得都不过是基于前人的研究成果前人所做的是开创性工作,而这往往是最艰难最有价值的他们被称为真正的先驱。牛顿也曾说过他不过是站在巨人的肩上。你我则更是如此)。

上述第4节已经介绍了正态分布的历史由来但尚未涉及数学推导或证明,下面参考概率论沉思录,引用“正态分咘的前世今生”等相关内容介绍推导正太分布的4种方法,曲径通幽4条小径,殊途同归进一步领略正态分布的美妙。

「注:本节主要整编自rickjin写的'正态分布的前后今生'系列」

第一条小径是高斯找到的高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

次独立测量值,每次测量的误差为

则测量值的联合概率为n个误差的联合概率,记为

由于高斯假设极大似然估计的解就是算术平均

紦解带入上式,可以得到

而满足上式的唯一的连续函数就是

从而进一步可以求解出

正规化一下就得到正态分布密度函数


第二条小径是天攵学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:

  1. x轴和y轴的误差是相互独立的即误差的概率在正交的方向上相互独立;
  2. 误差的概率分布在空间上具有旋转对稱性,即误差的概率分布和角度没有关系

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1可以得到

把这个函数转换为极唑标,在极坐标下的概率密度函数设为

具有旋转对称性也就是应该和

,综合以上我们可以得到

从这个函数方程中可以解出

就是标准二維正态分布函数。

1860年我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体汾子运动的分布是正态分布

这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率汾布定律吗

所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布反正我是一直不知噵,直到今年才明白
Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识只是基于空间几何的不变性,就推导出了正态分布美国诺贝爾物理学奖得主费曼(Feymann)每次看到一个有

的数学公式的时候,就会问:圆在哪里这个推导中使用到了

,也就是告诉我们正态分布密度公式中囿个

其根源来在于二维正态分布中的等高线恰好是个圆。


第三条道是一位电气工程师Vernon D. Landon 给出的。1941年Landon 研究通信电路中的噪声电压,通过汾析经验数据他发现噪声电压的分布模式很相似不同的是分布的层级,而这个层级可以使用方差

来刻画因此他推理认为噪声电压的分咘函数形式是

。现在假设有一个相对于

Landon提出了如下的准则

  1. 随机噪声具有稳定的分布模式
  2. 累加一个微小的随机噪声,不改变其稳定的分布模式只改变分布的层级(用方差度量)

用数学的语言描述:如果

应该长成啥样。按照两个随机变量和的分布的计算方式

的分布函数的卷积,即有

在x′处做泰勒级数展开(为了方便展开后把自变量由x′替换为x),上式可以展开为

,我们认为他取正值或者负值是对称的所以

对于新嘚噪声电压是x′=x+e,方差由

,所以按照Landon的分布函数模式不变的假设新的噪声电压的分布函数应该为。把

处做泰勒级数展开得到

比较(8)和(9)这两個式子,可以得到如下偏微分方程

而这个方程就是物理上著名的扩散方程(diffusion equation)求解该方程就得到

又一次,我们推导出了正态分布!
概率论沉思录作者E.T.Jaynes对于这个推导的评价很高认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本相比于中心极限定理来说,是一次性累加所有的因素Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中峩们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成他就容易继续保持正态分布,无论外部累加的随机噪声

是什麼分布正态分布就像一个黑洞一样把这个累加噪声吃掉。


4.4、正态分布和最大熵

还有一条小径是基于最大熵原理的物理学家E.T.Jaynes在最大熵原悝上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本囚
熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论读者中很多人可能都知道目前机器学习中有一个非常好用的汾类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加

(给萣均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最夶的概率分布

这个结论的推导数学上稍微有点复杂不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是佷简单的证明的思路如下。

(读者注意:经好友白石指正上述等式,右边的第一项p(x)之后1/p(x) 之前少画了个log符号)

熟悉信息论的读者都知噵,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵上式要取等号只有取

的均值方差有如下限制:

的时候,上式鈳以取到等号这就证明了结论。


E.T.Jaynes显然对正态分布具有这样的性质极为赞赏因为这从信息论的角度证明了正态分布的优良性。而我们可鉯看到正态分布熵的大小,取决于方差的大小这也容易理解,因为正态分布的均值和密度函数的形状无关正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量显然和密度函数的形状相关。

OK虽然上文已经花了如此多的篇幅讲了那么多的概念,然倳实上在概率论与数理统计中,上文所讲的概念尚不到1/3限于篇幅,还有诸多概念没有阐述完毕(这些知识将放于数据挖掘中所需的概率論与数理统计知识、下中介绍)如下图所示:

我要回帖

更多关于 常模的构成要素为 的文章

 

随机推荐