什么是极值比?是在统计学中暗道极道魔女遇到爱的,是极...

来源:互联网 发表时间: 8:29:19 责任编辑:鲁晓倩字体:
为了帮助网友解决“Matlab在统计(极值分布)中的问题,在线等,急”相关的问题,学网通过互联网对“Matlab在统计(极值分布)中的问题,在线等,急”相关的解决方案进行了整理,用户详细问题包括:
昨天刚接触matlab(自学),做作业中遇到了不少问题
如何绘制gumbel分布(极值分布的直方图),并且拟合相关曲线?我试了histfit这个命令,但是它给我的是用正态分布拟合的曲线。但是gumbel分布的曲线是倾斜,那么什么命令可以在绘制直方图同时将极值连接起来,...
那么什么命令可以在绘制直方图同时将极值连接起来?我试了histfit这个命令,但是它给我的是用正态分布拟合的曲线,现在我要统计每个数值出现的频率。但是gumbel分布的曲线是倾斜,做作业中遇到了不少问题如何绘制gumbel分布(极值分布的直方图),比如999也显示在结果里了(频率是0)?我用的evpdf命令也不能嵌套
2,但我不要没出现的数字.
我有103个极值(值域是391-1722),我用了tab命令.fsolve命令具体怎么运用,并且拟合相关曲线,只需要显示所有出现数字的频率,该怎么弄?求具体代码 3昨天刚接触matlab(自学),或者直接绘制gumbel分布曲线,但是有些在原来资料里根本没出现的数字
com/zhidao/pic/item/0df3d7ca7bcb0a465d2e2f6b60af49://h.hiphotos://h.com/zhidao/wh%3D600%2C800/sign=99e0be75ba389b5038aae854b505c9e5/0df3d7ca7bcb0a465d2e2f6b60af49://h.com/zhidao/wh%3D450%2C600/sign=7a53146ee6dde711edfe22d/0df3d7ca7bcb0a465d2e2f6b60af49.baidu.jpg" />我不需要这个正态分布曲线.jpg" esrc="http.baidu.hiphotoshistfit(Sorted)<img onerror="this.src='/images/nopicend.jpg'" alt="点击图片看大图" onLoad="DrawImage(this)" onclick="javascript:window.open(this.src);" class="ikqb_img" src="http,如何绘制相关的极值分布曲线呢.baidu.hiphotos
,具体解决方案如下:学网
解决方案1:
&histfit(X;ev&#39..&ev&#39://a;1]);)<img onerror="this.src='/images/nopicend.jpg'" alt="点击图片看大图" onLoad="DrawImage(this)" onclick="javascript:window.open(this.src);" class="ikqb_img" src="http./zhidao/wh%3D600%2C800/sign=7884267ebf315cbd81e72b/c8ea15ce36d3daab012;&gt.hiphotos://a代码如下X=random(&#39,&#39.5,/zhidao/wh%3D450%2C600/sign=c6a532eacbe060637ebe6e/c8ea15ce36d3daab012.jpg" esrc="http.hiphotos
1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答
相关文章:
最新添加资讯
24小时热门资讯
Copyright &#169;
All Rights Reserved. 学网 版权所有
京ICP备号-1 京公网安备02号统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子 | 科学人 | 果壳网 科技有意思
统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子
统计谬误、科学研究方法的根本性错误
图片来源:Nature
本文作者:JacquelineShawn
(文/Regina Nuzzo)衡量统计真实性的“黄金标准”——P值,并非众多科学家想象的那样可靠。
2010年某个瞬间,马特·莫德尔(Matt Motyl)离享受科学荣誉仅有一步之遥。那时,他发现政治极端主义者看到的世界是确实是非黑即白的。
实验结果“非常清楚”。莫德尔这样回忆道。他是夏洛茨维尔市弗吉尼亚大学的心理学博士生。他所做的一项涉及近2000人的研究中的数据似乎表明,与左翼或右翼人士相比,政治中立派能更准确地辨别不同色度的灰色。他说:“实验的假设很有趣,而且数据也能够有力支持实验假设。”用来衡量统计显著性的常用指标是P值。该实验中的P值为0.01,通常人们会认为这说明实验结果“非常显著”。莫德尔十分有把握能把自己的论文发表在高影响因子的刊物上。
但是,现实无情地粉碎了幻想。由于担心实验结果陷入再现性争论,莫德尔和他的导师布莱恩o诺塞克(Brian Nosek)决定重复实验。添加了新的数据之后,P值变成了0.59,这个数字远未达到学界一般能接受的显著性水平0.05。莫德尔观察到的心理学效应没有了,他年少成名的梦也被打碎了。
其实,不是莫德尔的数据或分析出了什么问题,而是P值这个指标出了问题。从本质上讲,这个指标出人意料的不稳定,它并不是大多数科学家想象的那样可靠和客观。“P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”伊利诺伊州芝加哥市罗斯福大学的经济学家斯蒂芬o兹利亚克(Stephen Ziliak)这样说,他经常批评统计学的应用方式。
出于对实验可重复性的担忧,P值的问题让很多科学家特别发愁。2005年,加州斯坦福大学的流行病学家约翰o埃迪尼斯(John Ioanniadis)指出,大多数公开发表的科学发现都是有问题的。此后,一连串备受瞩目的、有可重复性问题的研究迫使科学家重新思考该如何评估研究结果。
与此同时,统计学家也在寻找更好的分析数据的方法,以避免科学家错失重要信息,或在假阳性结果上浪费精力。“当你的统计思想发生改变之后,突然,重要的东西也完全变了。”斯坦福大学物理学家、统计学家史蒂文·古德曼(Steven Goodman)说:“规则并不是天注定的,它是由我们所采用的统计方法决定的。”
对P值的误用
人们一直都对P值批评不断。90年前P值诞生以来,被比作过蚊子(因为这东西烦人又挥之不去)、皇帝的新衣(因为P值的方法中到处都是显而易见却被所有人无视的问题)以及“不育的风流才子”手中的工具——这位“才子”强抢了科学佳人,却让科学佳人后继无人。一位研究人员表示,应该把“统计推论和假设检验”这个方法改个名字,叫做“统计假设和推论检验”(statistical hypothesis inference testing),大概因为这个名字的首字母缩写更符合它的气质。
讽刺之处在于,20世纪20年代,英国统计学家罗纳德·费希尔(Ronald Fisher)首次采用P值方法时,并没有打算把它作为决定性的检验方法。他本来只是用P值作为一种判断数据在传统意义上是否显著的非正式方法,也就是说,用来判断数据证据是否值得进行深入研究。P值方法的思路是先进行一项实验,然后观察实验结果是否符合随机结果的特征。研究人员首先提出一个他们想要推翻的“零假设”(null hypothesis),比如,两组数据没有相关性或两组数据没有显著差别。接下来,他们会故意唱反调,假设零假设是成立的,然后计算实际观察结果与零假设相吻合的概率。这个概率就是P值。费希尔说,P值越小,研究人员成功证明这个零假设不成立的可能性就越大。
将数据和背景知识相结合得出科学结论的过程是流动的、非数值化的。尽管P值的精确性显而易见,费希尔还是希望它只是这个过程的一部分。但是,科学家很快就开始利用P值来保证循证决策的严谨与客观。这一运动是20世纪20年代末,由费希尔的死对头、波兰数学家耶日·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔森(Egon Pearson)一手推动的。他们采用了一种新的数据分析框架,该框架中包括统计效力、假阳性、假阴性和很多其他如今在统计学概论课上耳熟能详的概念。他俩直接无视了P值这个指标。
双方争执不断,内曼批评费希尔的某些工作从数学上讲比“毫无用处”还糟糕,而费希尔对内曼的方法给出的评价是“无比幼稚”、“在西方学界中简直骇人听闻”。但是,就在双方争执不下时,其他研究人员的耐心渐渐耗尽了。他们开始给进行研究的科学家们编写统计学指南。但是其中很多作者并非统计学家,他们对两种方法都缺乏透彻的理解。结果就是他们把费希尔粗略的P值计算法硬塞进了内曼和皮尔森二人建立的规则严密的统计系统中,创造出了一种混合的方法,然后就出现了像“P值为0.05,即可将统计结果视为显著”这样的规则。古德曼说:“统计学家从没打算以现在的方式使用P值。”
“P值至上”带来的恶果
这样做的后果之一就是人们对P值的意义充满困惑。我们回过头来看一下莫德尔关于政治激进者的研究。大多数科学家看到实验最初统计结果的P值为0.01,就会认为莫德尔的结论不成立的概率只有1%。但他们错了。P值无法告诉研究人员这样的信息。P值能做的,就是在特定的零假设条件下对数据特征进行总结分析。研究人员不能利用P值通过反向推导对事实作出判断。要对事实作出判断,还需要更多信息,也就是现实世界中该效应客观存在的概率。忽视了这一点,就好像一个人清晨醒来觉得有点头痛,然后就断定自己得了某种罕见的脑瘤。这当然不是不可能,只是这事儿摊到你头上的概率太小,所以你得先拿出更多证据推翻例如过敏反应这样更为常见的原因。结论越是令人难以置信(比如心灵感应、外星人、顺势疗法),这种惊人的发现是假阳性的可能性就越大,不管你的P值有多小。
这些都是比较难懂的概念,但是一些统计学家试图用它们来解释经验法则的失灵(见下图)。根据应用最广泛的一种计算方法,如果假设为该现象存在,那么当P值为0.01时,该现象实际并不存在的概率至少为11%;而当P值为0.05时,这一概率则会上升到29%。因此,莫德尔的发现是假阳性的概率超过10%。同样,结果可重复的概率也不是大多数人所想的99%,而是73%左右。而再得到一个极为显著的结果的概率只有50%。换言之,莫德尔的实验结果不可重复的概率高得惊人,就跟抛硬币猜正面向上,而落下来是反面朝上的概率差不多。
图中的三个例子证明,即使计算得出的P值非常小(具有统计显著性),实验结果也可能具有极高的不可重复率。图片来源:Nature
批评者也感慨P值会让研究人员思维混乱。最重要的一个例子是,P值容易使研究者错误的估计现象的真实影响。比如去年,一项覆盖超过19000人的研究显示,在网上结识的夫妻比在现实生活中结识的夫妻离婚的可能性更低(P&0.002),而获得婚姻满足感的可能性则更高(P&0.001)。(点击这里看详情)。这一现象也许挺让人印象深刻,但这种现象其实非常不明显。网上结识的夫妇离婚率为5.96%,而现实生活中结识的夫妻离婚率为7.67%,根据7分幸福感评分表测试中,网上结识的夫妻幸福感为5.64分,而现实生活中结石的夫妻幸福感为5.48分。澳大利亚墨尔本市拉筹伯大学的荣誉心理学家杰夫·卡明(Geoff Cumming)认为:“为了追求很小的P值而忽略背后更大的问题这一现象是“诱人的显著性”的牺牲品。”但是,显著性并不意味着实际中确实存在相关性。他说:“我们应该问的是,‘某种现象出现的概率有多大?’而不是‘有没有某种现象?’”
大概,最糟糕的错误是某种自欺欺人的行为,宾夕法尼亚大学的心理学家尤里·西蒙逊(Uri Simonsohn)及其同事给这种行为起名为“P值操纵”(P-hacking)。这种行为也被称为数据挖掘、数据窥探、数据钓鱼、追逐显著性或者双重计算。西蒙逊解释道:“P值操纵就是不断地把数据量加倍,直到获得自己想要的结果。”这种行为甚至是下意识的。这可能是在线城市词典中收录的第一个统计学词条,该词条的例句是:“这一发现似乎是通过P值操纵做出来的。作者去掉了其中一种条件下的数据,使总体的P值小于0.05。”或者“她是个P值操纵者,总是一边收集数据一边看数据好不好。”
这种行为的结果是,把本应带着质疑眼光审视的探索性研究的结果变得看似确定无疑实际上却难以重复。西蒙逊的计算机模拟实验表明,只需改变研究中的若干数据分析方法,就能使假阳性的概率提高到60%。如今的研究都希望能从杂乱的数据中发现并不十分明显的现象。在这种背景下,尤其容易出现P值操纵。尽管难以估计这种做法有多普遍,但西蒙逊认为这一问题应该已经很严重了。在一项分析研究中,他发现有迹象表明,很多公开发表的心理学论文中,P值都出人意料地分布在0.05左右——就像研究人员通过P值操纵不断尝试,直到得到理想的P值
尽管对P值提出批评的大有人在,但统计方法的变革仍然进展缓慢。“费希尔、内曼和皮尔森提出他们的理论后,统计学的基本框架实质上没有发生任何改变。”古德曼说。1982年,明尼阿波利斯市明尼苏达大学心理学家约翰·坎贝尔(John Campell)曾经抱怨过这个问题,当时他还是《应用心理学杂志》的编辑。他说:“要把作者的注意力从P值上转移走几乎是不可能的,P值小数点后面的零越多,人们就越抓着P值不愿放手。”1989年,马萨诸塞州波士顿大学的肯尼斯·罗斯曼(Kenneth Rothman)创办了《流行病学》这本杂志,当时他尽力劝阻作者不要使用P值。但是在2001年他离开了杂志社后,这本杂志中又经常出现P值了。
埃尼迪斯最近正在PubMed数据库中搜寻数据,用来研究不同领域的学者是如何使用P值和其他统计学证据的。“只需要粗略浏览几篇最近发表的论文,你就会发现P值仍然是非常非常流行的方法。”
古德曼认为,这种根深蒂固的研究文化需要彻底的改革——人们必须改变统计学的教授方式、数据分析方式以及结果呈现和解释的方式;而好在研究人员已经开始意识到自己的问题了。“已公开发表的众多科学发现都不成立,这给人们敲了个警钟。”埃尼迪斯等研究者的研究揭示了理论统计学的批评观点与统计学应用上的难题之间的联系。古德曼说:“统计学家预言会出现的问题正是我们当前遇到的问题,只是我们还没有找到全部的解决办法。”
统计学家提出了几个或许可行的方法。比如卡明认为,为了避免掉进思考结果是否显著这个陷阱,研究人员应该在文章中提供效应量和置信区间的相关数据。这些数据可以反映P值无法反映的信息,也就是效应的规模及其相对重要性。
很多统计学家还呼吁用基于贝叶斯法则的方法替代P值。这一法则诞生于18世纪,其思想是把概率视为某种结果的似然性而非出现的频率。这其中蕴含了某种主观因素,而这也是统计学前沿学者想极力避免的。但是,贝叶斯分析框架能够使观察者相对容易地将自己所知道的内容融入结论,以及计算出现新数据后概率如何变化。
其他人则赞成一种更普遍的方法,即鼓励研究人员对同一套数据用多种方法进行分析。 卢森堡市公共卫生研究中心的统计学家史蒂芬·森(Stephen Senn)把这个方法比作没法从墙角里绕出来的扫地机器人。任何数据分析方法最终都会有行不通的时候,这时就需要用常识将分析拖回正轨。他认为倘若用不同的方法得到了不同的结论,“就表明研究者应该继续开动脑筋,努力找到原因”,而这能让我们更好地理解背后的真相。
西蒙逊认为科学家为自己辩解最有利的武器就是承认一切。他鼓励作者在论文中写上这样一段话:“论文中列出了研究中我们确定样本大小的方法、所有舍弃的数据(如果有的话)以及研究中用到的所有操作和测量方法。”通过这种方式表明文章没有进行“P值操纵”。他希望通过披露这些信息,能够阻止P值操纵行为,或者至少能提醒读者注意论文中的疑点,并自行做出判断。
纽约市哥伦比亚大学政治学家、统计学家安德鲁·格尔曼(Andrew Gelman)表示,目前另一个受到关注的类似方法是两阶段分析法,也叫做“先预定后重复法”(preregistered replication)。这种方法中,探索与验证分析通过不同的方式进行,而且要在论文中清楚地标示出来。例如,研究人员首先做两个探索性的小研究,用来发现可能比较有趣的现象,而又不需要太担心假阳性结论;而不是一下做4个单独的小研究,然后在同一篇论文中写出所有的结果。然后,在上述研究结果的基础上,作者再决定用什么方法来验证他的发现,并在Open Science Framework这样的数据库中向公众提前披露自己的研究意向。然后,他们再进行重复实验,并将结果之前与探索性研究的结果一同发表。格尔曼表示这种方法使研究分析更加自由和灵活,同时也能使研究者保持严谨,并降低公开发表的假阳性结果的数量。
古德曼还表示,进一步来说,研究人员需要意识到传统统计学方法的局限性。他们应该在研究中融入对假设似然性和研究局限性的科学判断,而这些内容通常情况下会被放到讨论部分——包括相同或类似实验的结果、研究人员提出的可能的机制以及临床认识等等。马里兰州巴尔的摩市约翰霍普金斯大学布隆伯格公共卫生学院的统计学家理查德·罗耶儿(Richard Royall)认为,科学家应该在实验结束之后思考三个问题:“支持数据是什么?”、“我应该相信什么样的数据?”以及“下一步应该怎么做?” 单一方法无法回答上述全部问题。古德曼说:“数字仅仅是科学讨论的开始,而不是结束。”
编译自:《自然》,图片来源:Nature
果壳网相关小组
你可能感兴趣
这篇文章,不找统计学课本学学还真看不懂(俺承认是个人水平低),作为科普文章太坚硬了。
point estimates的问题早不是什么新鲜话题,效应量,置信区间和贝叶斯方法都是已经叫唤了N多年的老黄历了。之所以P值还是在广泛使用,无他,简单好理解而已。对于大部分学者而言统计是个工具而不是专业,跟他们要个置信区间都有困难,要别的那不是难上加难么!许多专业就上一两个学期的统计课,学生还怨声载道。这个问题一时半会是不会得到解决的。
现在有 很多莫名其妙的统计,莫名其妙的结论实际就是披着科学外衣的宗教
显示所有评论
全部评论(36)
好吧,我占座。
point estimates的问题早不是什么新鲜话题,效应量,置信区间和贝叶斯方法都是已经叫唤了N多年的老黄历了。之所以P值还是在广泛使用,无他,简单好理解而已。对于大部分学者而言统计是个工具而不是专业,跟他们要个置信区间都有困难,要别的那不是难上加难么!许多专业就上一两个学期的统计课,学生还怨声载道。这个问题一时半会是不会得到解决的。
这篇文章,不找统计学课本学学还真看不懂(俺承认是个人水平低),作为科普文章太坚硬了。
最近正好在学多重检验校正的问题,p值、FDR什么的,头大头大……
现在有 很多莫名其妙的统计,莫名其妙的结论实际就是披着科学外衣的宗教
经常的情况是,在自己的小领域精通的科学研究工作者们,在处理自己的数据时面临着困难,存在着困惑,要学习那些艰涩的统计学的知识对于他们来说总是一件不大可能的事情,特别是统计结果没有一个真正懂统计学的数学家来解释处理的时候。
P值来源于六西格玛管理,是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进[1]行比较。意义P value[2]P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。[1]==
古德曼说:“数字仅仅是科学讨论的开始,而不是结束。”编译自:《自然》,图片来源:Nature==
引用文章内容:点击这里看详情链接何在引用文章内容:而现实生活中结石的夫妻错别字= =一边看wiki一边啃下这篇文章。。
诗词科普作家
设计几个平行实验,分别计算p值,都显著的话应该能说明问题吧?
只能说是现实中对P值的误用和误解,而且感觉作者自身对统计学本身理解也比较有限。实际上如果对结果存在异议,重复试验是好的方法,两次试验检验水平就变成了0.05的平方,即0.0025,这个还是应用P值的。主要是统计上从来没有确定的,P值的理解一定要放到一定检验水平下。
P值本身的意义,决定了它比较流行适宜,但是很多人为了发布论文等学术成果,刻意控制P值(P-hacking),这才是需要重视的…
在自己的小领域精通的科学研究工作者们,在处理自己的数据时面临着困难,存在着困惑,要学习那些艰涩的统计学的知识对于他们来说总是一件不大可能的事情,特别是统计结果没有一个真正懂统计学的数学家来解释处理的时候
引用 的话:oint estimates的问题早不是什么新鲜话题,效应量,置信区间和贝叶斯方法都是已经叫唤了N多年的老黄历了。之所以P值还是在广泛使用,无他,简单好理解而已。对于大部分学者而言统计是个工具而不是...统计是不好学。所以是时候给研究者配备专业的统计团队了。
我们现在社会学本科的统计学学习和研究论文中还是以P值为主(目前看到的研究生论文也是)。。很同意给研究者配备专业的统计团队不过目前国家对这种研究本身就不太重视,专业团队啥的只能是想想了~
颠覆了统计观啊
人们不愿承认自己研究的阴性结果。来自
引用 的话:古德曼说:“数字仅仅是科学讨论的开始,而不是结束。”==引用 的话:值来源于六西格玛管理,是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进[1]行比较。P value[2]P值(P value)就是当原假设为真时所...六西格玛1980年代才出现,P值本来是假设检验中提出的
空间信息与数字技术专业
引用文章内容:点击这里看详情没有超链接...
空间信息与数字技术专业
引用文章内容:这种行为也被称为数据挖掘、数据窥探、数据钓鱼、追逐显著性或者双重计算。数据挖掘不是 data mining 么...
所以地球是最不宜居的星球了,据统计来看是人类死亡人数最多的星球。
Regina Nuzzo女士2014年2月份发在Nature杂志Volume506,Issue7487上批判p值滥用的文章(原文和中译文链接见本文末),像极了贝叶斯学派的逆袭。Regina Nuzzo文章的主要的贡献在于,通过整理科学研究文献,用数据和实例证实了科学研究中确实存在p值统计学显著结果不可重现等问题,并借此呼吁重视贝叶斯方法。文章全文有七处引用Goodman的原话("Goodman says"),11篇参考文献中有三篇来来自Goodman。而Steven Goodman是贝叶斯方法的支持和推动者。直至今日,关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。两学派各有其信仰、内在逻辑、解释力和局限性,从20世纪上半页至今,两大学派的辩论从未停歇,但分歧如故。贝叶斯学派的发展在二十世纪滞后于频率学派,甚至现今主流统计学教材仍然以频率学派的理论框架为主,贝叶斯理论通常一笔带过。这或许受到Karl Pearson,Sir Ronald A. Fisher,Egon Pearson(Karl Pearson的儿子)和Jerzy Neyman等二十世纪上半叶的大统计学家的影响,这些当时具有话语权的大统计学家并不认可贝叶斯理论(尽管一些人的文章里被怀疑使用了贝叶斯的思想)。注:上一段中提到的二十世纪上半页大统计学家的部分贡献(排列不分先后):Karl Pearson:拟合优度检验,Chi方检验,矩估计Ronald A. Fisher:极大似然估计,显著性检验,方差分析,F检验,试验设计理论Egon Pearson和Jerzy Neyman:假设检验,两类统计学错误,被择假设,似然比检验Jerzy Neyman:区间估计
Regina Nuzzo的文章相比两学派近一个世纪的辩论而言,并没有提出新的批判观点。对于频率学派假设检验的理论体系,一次试验得到很小的p值,并不意味这样的结果可以重现。关于p值的可重现性在频率学派框架下的解释,见下例。模拟:假设盒子A里有近乎无穷的有限个球(就是很多很多数不清但是又不是无穷无尽的意思),每个球上有一个数字(实数)。每从中取出一个球,记录球上的数字X,则X是一个随机变量(每取一次球得到的数字是不确定的)。假设上帝观察了每一个球上的数字,总结得到,X服从均值为2.33(特意挑选的这个数值等于标准正态分布的99%分位数),标准差为10的正态分布。那么从中有放回地随机抽取100个,计算这些球上数字的平均值x-bar,则x-bar也是一个随机变量(每做一次取100个球的试验得到的一个均值是不确定的),应当服从均值为2.33,标准差为1的正态分布。而可怜的试验者事先对盒子里球上数字的平均值一无所知(而为了方便起见,上帝仁慈地告诉试验者盒子里所有球上数字的标准差是10,且平均值不小于零)。试验者希望通过从盒子中有放回地随机抽取100个球,利用这100个球的信息,推断盒子里所有球上数字的均值是否等于零(就好比我发明了一种声称可以让骨骺线已经闭合的人在一个月内长高的药。把药给100个吃,一个月后测量身高相对基线的变化,想要检验我的药是否真的没有长高效果)。他目前只能知道(on the mercy of the god,你已经知道得比你应该知道的多了),一次试验得到的平均值x-bar应当服从一个平均值未知,标准差为1的正态分布。于是他建立的零假设(null hypothesis)是,盒子里所有球上数字的平均值等于零,被择假设(alternative hypothesis)是平均值大于零,并开始试验。可以推断,在不考虑零假设的情况下,如果重复100次这样的试验,可以得到100不全相同的x-bar,这些x-bar应当服从一个平均值未知,标准差为1的正态分布。但可惜试验者通常只有能力和精力做一次这样的试验(就算能做好多次,也在文章发表之后再说吧)。如果零假设正确,得到的x-bar更有可能在零附近不太远的地方。如果得到的x-bar距离零远得太离谱,这样极端的情况在一次试验中恐怕不太可能发生。既然发生了,更有可能是因为零假设本身是错误的,因而拒绝零假设。取到比某个极端阈值更加极端值的概率,就是p值。在本例中,如果零假设正确,(根据正态概率分布)则x-bar取到比2.33更大的值的可能性仅有1%。于是设定一个标准,如果一次试验得到大于2.33的x-bar(p&0.01),那么就很有“信心”认为零假设错误,盒子里所有球数字的平均值不太可能等于零。频率学派里的“信心”在此处理解为,在零假设正确的情况下,如果真的重复了100次这样的试验,用以上的标准做出对零假设的判断,平均意义上将出现一次错误的拒绝。换句话说,零假设本身正确而被假设检验流程拒绝的可能性是1%,这个数值常被称作显著水平,或犯第I类统计错误的概率,记作α(通常的取值有5%,1%等等,没有什么科学依据,就是Fisher当年第一次在田间随便一说,后来就成传统了)。对立地,1-α被称作置信度。然而上帝笑了,因为他知道真实情况是,盒子里所有球数字的平均值是2.33,如果真的重复了100次这样的试验,平均意义上有50次将得到x-bar小于2.33(p&0.01)的结果,而剩下50次将得到x-bar大于2.33(p&0.01)的结果。换句话说,零假设本身错误但不能被假设检验流程拒绝的可能性是50%,这个可能性又被称作犯第II类统计错误的概率,记作β。对立地,1-β被称作统计效力(statistical power)。上面的例子可以看出,如果试验者通过一次试验得到一个p&0.01的结果,并不意味着重复该试验能够再次得到这样统计学显著的结果(事实上学界现在更流行讲“有统计学意义”,而不用“统计学显著”,因为“统计学显著”的说法容易与“实际意义显著”相混淆。但此处为了突出结果“极端好”的一层意味,故沿用“统计学显著”的说法)。统计学显著结果的可重现性通常有两种成立的情形:(1)盒子里所有球数字的平均值是一个极大的数而非2.33,比如1000。如此β会很小,容易得到可重现的统计学显著结果。但如果对盒子里所有球数字的平均值一无所知(或者假装一无所知,以便留出编造试验结果的余地,Regina Nuzzo文中提到的p-hacking),则无法判断统计学显著结果的可重现性。(2)增加样本量,可以减小样本平均值x-bar分布的方差,增大信噪比。无限增加样本量,可以检测出零假设与真实值微小的差异,得到可重现的统计学显著的结果,但这样微小的差别可能并没有实际意义。(可以总结成一种,即零假设与上帝才知道的参数真实值之间,以标准差衡量的统计学距离)试验结果的不可重现也有可能与取样偏倚(样本随机性、代表性问题)、缺乏对参数分布的理解(中心极限定理保证,不论总体的分布形式,大样本平均值的分布渐近于正态分布;但对一些诸如偏斜分布、多峰分布等非对称分布,在小样本的情况下,样本平均值不能很好地渐近正态,基于此的统计推断可能出现问题)等因素有关。回到Regina Nuzzo的文章,Regina Nuzzo提出了p值统计学显著结果不可重现等问题,并认为贝叶斯方法可以补偿这样的缺陷。她提倡从先前的研究结果、猜想的理论机理、和其它专业知识中得到对将要估计的未知参数的先验分布,然后开展试验,向先验分布中补充进新的样本信息,得到后验分布后进而作出推断。但贝叶斯方法并不能解决所有问题,贝叶斯方法的适用性同样存在争议,特别在于如何确定先验分布这一基本问题。另外,在毫无先验信息的情况下,贝叶斯方法同样无法解决统计学显著结果不可重现的问题,一些提倡的贝叶斯方法在此处只是单纯增加了判断结果显著性的难度罢了。我想说,这并不是一个非黑即白的问题,两个学派各有其信仰、内在逻辑、解释力和局限性,将长期共存、协同发展。顺便提一句,Regina Nuzzo的文字如果不那么冲动和富有煽动性,或许会显得更公正一些。 能力所限,错误和不准确的地方,请包涵和指出。转载请注明出处。
通过一次试验,只能得到参数的一个置信区间,但是至于参数到底是多少,我们无从知道。来自
生理学博士
引用 的话:对于频率学派假设检验的理论体系,一次试验得到很小的p值,并不意味这样的结果可以重现。关于p值的可重现性在频率学派框架下的解释,见下例。模拟:假设盒子A里有近乎无穷的有限个球(就是很多很多数不清...你的文章很好呀,可以单独发到日志,省得埋没了。稍微说一下这篇文章背景,是因为现在建立在实验之上的科技论文几乎不用贝叶斯,尤其大量论文因为实验学家出身的不懂贝叶斯,而直接把p=0.05等同于H1正确。这个时候作者想要强调的是这是非常错误的对统计学的应用。至于为什么频率学派的“胜出”,是因为p value比较好算,计算机程序算一下就好了,科学家不懂,审稿人也一样不懂,我认为贝叶斯相对来说需要更理解背后的统计学思想。(其实我也不懂,一直想深入学习,但是还没抽出足够的时间,惭愧...)
很多文章还停留在看可决系数R值呀,P值很多都不懂的比比皆是。异方差,自相关,多重共线性都不晓得。贝叶斯就别提了。
引用文章内容:而获得婚姻满足感的可能性则更高(P&0.001)。(点击这里看详情)。“这里”点击不了啊
“结论越是令人难以置信,这种惊人的发现是假阳性的可能性就越大,不管你的P值有多小。”——这里说的道理其实就是我在这篇文章里论述的:从一幅幽默漫画谈起:为什么重大的、反常的科学成果被接受常常比较艰难 “两阶段分析法,也叫做‘先预定后重复法’(preregistered replication)。这种方法中,探索与验证分析通过不同的方式进行,而且要在论文中清楚地标示出来。”——这实际上就是我下面这篇文章分成两部分的原因,虽然是记录性质的随笔不是最后论文,但是是保持了这种结构的。大地震的发生时间没有规律吗? 由于天然数据不整齐,P值很难计算,所以没有计算P值(文中以及后期说明中计算的也不是通常要求的“P值”);实际上计算了也不能说明问题。不过现在大多数人(包括科学界人士)并不熟悉这些,反而比较容易简单陷入“统计钓鱼”的怀疑中。
引用 的话:你的文章很好呀,可以单独发到日志,省得埋没了。稍微说一下这篇文章背景,是因为现在建立在实验之上的科技论文几乎不用贝叶斯,尤其大量论文因为实验学家出身的不懂贝叶斯,而直接把p=0.05等同于H1正...谢啦,我在知乎上发啦
关于P值,我们导师就用了3次课的时间去说明其缺陷,如何的应该被抛弃!但是对于长期接受假设检验教育的学生来说,确实有点难以接受!但是不可否认,关于显著性问题,使用P值作为指标,也是存在问题的,有时仅仅是样本量的巨大就可以达到这样的显著效应。这也就会得到统计学上的意义,而非心理学上的意义的结果!所以学会效力和效应量的应用,也是必需的!
显示所有评论
(C)2016果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报电话:

我要回帖

更多关于 求极值 的文章

 

随机推荐