一元线性回归方程程中,X,Y单位不同,如一个为百万,一个为千万这时要统一吗?

在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可形性要求能够作出变量x,y具有线性相关结论,则在下列操作顺序中正确的是(  )
A、①②⑤③④B、③②④⑤①C、②④③①⑤D、②⑤④③①
考点:可线性化的回归分析
解:对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性关系的强弱,
查看完整解析,请下载菁优APP
【拍照搜题】:一秒出答案;
【名师答疑】:真人免费答疑;
【提分训练】:考高分就靠它了;
【离线题库】:不上网也能使用。
查看完整解析
点评:本题考查可线性化的回归分析,考查进行回归分析的一般步骤,是一个基础题,这种题目若出现在大型考试中,则是一个送分题目.
山西省吕梁市高一(上)期末数学试卷
湖北省武汉市部分重点中学高二(下)期末数学试卷(理科)
1、优点签到翻倍;
2、离线查看试题试卷;
3、快速搜索题目及解析…
菁优客户端
·拍照搜题
·在线提问
·专业解析
·提分训练
·千万题库资源
·速度快省流量13690人阅读
四方书库(39)
线性回归公式推导
在坐标上分布很多点,这些点可以通过y=mx+b的直线进行近似模拟,如图。最合适的线性回归线(Best fitting regression)就是Error的方差最小,即Square error to the line: SEline最小。我们需要找寻SEline最小时m和b的值,即find the m & b that minimizes SEline。
SEline=(y1-(mx1+b))2+(y2-(mx2+b))2+ … +(yn-(mxn+b))2&
&&&& = y12-2y1(mx1+b)+(mx1+b)2+y22-2y2(mx2+b)+(mx2+b)2+
… + yn2-2yn(mxn+b)+(mxn+b)2
&&& = y12 – 2y1mx1 – 2y1b + m2x12+2mx1b+b2+ … …
&&& = (y12+ y22+…+yn2) - 2m(x1y1+x2y2+…+xnyn)
- 2b(y1+y2+…+yn) + m2(x12+x22+…+xn2)
+ 2mb(x1+x2+…+xn) + nb2
如果知道所有点的分布,即在x,y已知的情况下,不同的m和b,有不同的SEline,是一个三纬曲面,类似碗状,求最小SEline时m、b知,可通过对m和b求偏导获得。偏导就是对于某一个自变量进行求导。
从第二的方程中可以知道x和y的均值位于该直线上,解方程得
决定系数r2
y=mx+b,使得SEline为最小,我们需要衡量这条回归线(regression line)和数据的吻合程度有多少。也就是How much (what %) of the total variation in y is described by the variation in x (or by the regression line) .
Total variation of y 也相当是square error of mean:
How much of total variation is
NOT describe by the regression line:
SEline=(y1-f(x1))2+(y1-f(x2))2+ … + (yn-f(xn))2
&&&&&&&&&&&&&& =(y1-(mx1+b))2+(y1-(mx2+b))2+ … + (yn-(mxn+b))2
What % variation is NOT described by the variation in x or by the regression line 。回归线y=mx+b,是用x来描述y。
What % of total variation is described by the variation in x:
R2: coefficient of determination,决定系数。当SEline越小,越符合回归线,r2越接近1;相反当SEline越大,r2越接近0。R2可以视为衡量回归线符合情况的参数。
协方差Covariance
协方差Covariance,Cov(X,Y)=E[(X-E(X))(Y-E(Y))],观察X与其均值之差X-E(X)以及Y与其均值之差E(Y)之间的同步关系,是否X-E(X)上升,Y-E(Y)也上升,两者之间的关联。
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[XY-XE(Y)-YE(X)+E(X)E(Y)]
由于E(X)是线性,有Cov(X,Y)= E[XY]-E[XE(Y)]-E[YE(X)]+E[E(X)E(Y)],这里暗红色部分是个常数,有
Cov(X,Y)= E[XY]-E(Y)E(X)-E(X)E(Y)+E(X)E(Y) = E(XY)-E(X)E(Y)
针对用采样样本进行估算,则有
重写regression line的斜率 ,当中Var(X)=E[(X-E(X))2]=Cov(X,X)
相关链接:
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:3634946次
积分:43016
积分:43016
排名:第51名
原创:679篇
转载:23篇
译文:235篇
评论:1492条
文章:222篇
阅读:456701
文章:233篇
阅读:1624351
我思故我在,如果一个人无法独立思考,即使熟习各种工具,实质只是工具的一部分,永远无法创造工具。
文章转载只能用于非商业性质,且不能带有虚拟货币、积分等附加条件;转载必须注明出处。
我的微博帐号:
(3)(12)(5)(5)(8)(3)(11)(3)(10)(6)(9)(8)(8)(8)(11)(5)(4)(16)(8)(7)(19)(17)(11)(8)(11)(22)(16)(18)(11)(6)(15)(14)(13)(17)(15)(6)(5)(2)(15)(4)(14)(3)(5)(13)(8)(7)(12)(7)(8)(6)(3)(3)(19)(14)(14)(16)(16)(13)(19)(16)(8)(17)(23)(16)(15)(11)(10)(7)(15)(10)(21)(6)(7)(8)(9)(5)(4)(14)(22)(9)(21)(22)(13)(12)(5)(5)(9)(1)是一个正确的结论,在四个点组成的四边形中,做出对边的斜率,得到两条直线的斜率相等,得到四边形的两对对边平行,即四边形是一个平行四边形.这个结论不正确,做出的线性回归直线的方程与两条对角线的方程中对应的直线的斜率差别比较大,首先做出四个点对应的线性回归方程的斜率,再做出两条对角线的斜率,比较得到结论.
解:是一个正确的结论,在四个点组成的四边形中,对边的斜率之间四边形的两对对边平行,四边形是一个平行四边形,即第一个结论正确.这个结论不正确,做出的线性回归直线的方程与两条对角线的方程中对应的直线的斜率差别比较大首先做出四个点对应的线性回归方程的斜率,,,
从三条直线的斜率上可以看出三条直线之间差距较大,不能用平行四边形的两条对角线,所在的直线作这组样本点的以变量为解释变量的用最小二乘法求出的回归直线.
本题看出独立性检验的应用,看出最小二乘法来求线性回归方程,本题解题的关键是题干比较长需要读懂题意,本题是一个中档题目.
2027@@3@@@@独立性检验的应用@@@@@@155@@Math@@Senior@@$155@@2@@@@统计与统计案例@@@@@@27@@Math@@Senior@@$27@@1@@@@排列组合与概率统计@@@@@@4@@Math@@Senior@@$4@@0@@@@高中数学@@@@@@-1@@Math@@Senior@@$2023@@3@@@@最小二乘法@@@@@@155@@Math@@Senior@@$155@@2@@@@统计与统计案例@@@@@@27@@Math@@Senior@@$27@@1@@@@排列组合与概率统计@@@@@@4@@Math@@Senior@@$4@@0@@@@高中数学@@@@@@-1@@Math@@Senior@@
@@27@@4##@@27@@4
求解答 学习搜索引擎 | 对于变量x与y,现在随机得到4个样本点{{A}_{1}}(2,1),{{A}_{2}}(3,2),{{A}_{3}}(5,6),{{A}_{4}}(4,5).小马同学通过研究后,得到如下结论:(1)四个样本点的散点图是一个平行四边形的四个顶点;(2)平行四边形{{A}_{1}}{{A}_{2}}{{A}_{3}}{{A}_{4}}的两条对角线{{A}_{1}}{{A}_{3}},{{A}_{2}}{{A}_{4}}所在的直线均可以作为这组样本点的以变量x为解释变量的用最小二乘法求出的回归直线,所不同的是这两条回归直线所对应的回归方程的预报精度不同.你认为上述结论正确吗?试说明理由.(参考数据:\sum\limits_{k=1}^{4}{{x}_{k}}=14,\sum\limits_{k=1}^{4}{{{{x}_{k}}}^{2}}=54,\sum\limits_{k=1}^{4}{{y}_{k}}=14,\sum\limits_{k=1}^{4}{{x}_{k}}{{y}_{k}}=58)线性回归中的 ANOVA 的作用是什么?
做线性回归的时候,回归结果中都会包含ANOVA的分析,里面有Regression和Residual,请问ANOVA是来衡量什么的呢?它在回归分析中的作用是什么呢?
按投票排序
(多图)补充:统计基础上的简单解释+几个简单例子好吧,研究僧又学了一遍线性回归,觉得本科学的都是渣。重新补充一点。首先假设模型是 通常我们看到的ANOVA表是这样的。这里的SSR(X1)代表的是 the part of Y could be represented by X1SSR(X2)代表的是 the part of Y could be represented by X2SSE(residuals) 代表的是 the part of Y could not be represented by X1 and X2F value 代表的是用来检验是否significant。最末尾的p-value是指的是在超出所求F* 后的概率,所以越小越好。所以anova最简单的作用就是衡量是否是significant 检验。这里是分割线——————————————————————————————————线性回归博大精深,浅浅的学习也学了一个学期,只能简单的说一下,如果题主希望具体了解,这里推荐几本书。蒋毅的《统计建模与R软件》,以及全英的书 《Applied Linear Regression Models
Fourth Edition》
Michael H. Kutner&Christopher J.
Nachtsheim&John Neter,《Introduction to Mathematical Statistics
Fifth Edition》
Robert V. Hogg&Allen T. Craig,有需要可以看一下。再推荐一个网站,可以逛下论坛上下课什么的。网址为: 如维基百科所言:方差分析(Analysis of variance,简称ANOVA)为资料分析中常见的统计模型。方差分析依靠F-分布为机率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为Scheffé's method、Tukey-Kramer method与Bonferroni correction,用于探讨其各组之间的差异为何。再引用WolframAlpha里的定义如图,这是一个最简单的Anova表。SSR是拟合值与期望的平方和,SSE是原值与拟合值的平方和,SSTO是原值与期望的平方和。SSR是拟合值与期望的平方和,SSE是原值与拟合值的平方和,SSTO是原值与期望的平方和。如图。如图,这是一个最简单的anova F检验简单来说,就是用所得到的数据带入检验统计量,得到统计量的值,再来和标准值作对比,或算出p-value,来判断是原假设(h0)还是备择假设(ha)。简单来说,就是用所得到的数据带入检验统计量,得到统计量的值,再来和标准值作对比,或算出p-value,来判断是原假设(h0)还是备择假设(ha)。原假设与备择假设又名零假设与对立假设。引维基概念:假设检验是推论统计中,除了估计之外,另一个重要的工作。我们一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。统计上对参数的假设,就是对一个或多个参数的论述。而其中我们欲检验其正确性的为零假设(null hypothesis),零假设通常由研究者决定,反应研究者对未知参数的看法。相对于零假设的其他有关参数之论述是对立假设(alternative hypothesis),它通常反应了执行检定的研究者对参数可能数值的另一种(对立的)看法(换句话说,对立假设通常才是研究者最想知道的)。假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。再用R软件里构造一个例子。anova在R软件里为anova() 的函数样本:代码以及结果代码以及结果以上我们可以得知residuals, r-square, 回归方程,通过所得数据大小来判断这个样本是否符合线性条件,以及在到之后的调整。可以清晰地从图中看出所用样本的关系。四幅图分别是:1.
图中表示数据的残差图和它的拟合直线,由图可知,此样本数据不是线性的。2. 上图为qq plot,用来验证数据是否为正态分布,由图可知,上述数据并不是很符合正态分布3. 图为标准化残差与预测值的残差图,由图可知,样本数据不是线性的4. 标准化残差对杠杆值散点图:杠杆值是帽子矩阵的对角线元素,还含有lowess曲线和Cook距离曲线。其实这只是很小的一部分,还有很多其他的相关量。如果有什么不懂,可以随便问,我尽量答~希望能帮到题主。
Linear Regression analysis 和 ANOVA 是兩種不同的統計方法。ANOVA 是 Analysis of Variance 的縮寫。它是怎麼來的、主要用於解決什麼問題、如何用,請參考及其相關的 references,解釋非常詳盡:。Linear Regression analysis 和 ANOVA 的數學模型長得很像,但它們有本質的區別:1. Linear Regression analysis 給出的是一個模型建議(一個函數),ANOVA 給出的則是不同組別觀測值間是否存在差別以及怎樣的差別(非函數)。2. Linear Regression analysis 解決的問題是作為應變量的 Y 是如何受自變量(或多個) X 影響的;ANOVA 解決的問題是通過比較方差觀察某一或某些隨機變量是否以及如何受某一或某些因素(factor)影響而呈現出(組間)差別的。---------- 消歧義補充 ----------1. 說這兩種是不同的方法和它們有本質區別,這兩個觀點都不有悖於在某些情況下使用它們可以得出等價的結果;但並不能因為可以得到等價結果就說這兩種方法是等價的。2. 說這兩種是不同的方法和它們有本質區別,並沒有否認它們之間存在甚至是存在深層的內在聯繫。有人就提出過這樣的觀點:。因每人研究領域不同會有不同觀點這是很正常也是應該存在的事情。我們如果認為自己的說法是有理有據的,就堅持自己的觀點;堅持自己並不意味著一定要推翻那些不同於我們的觀點。在認可「因側重點不同而存在認知上的差異」這個基礎上,質疑是永遠都沒有問題並且應該被提倡的。3. 在知識儲備暫時沒有豐富到可以貫通地理解不同方法之間的同與異之時,還是建議分開學習理解這兩種方法。---------- 補充完畢 ----------所以,題主能不能把你想知道的「线性回归中的 ANOVA」是對什麼做 ANOVA 再說詳細一些,方便大家幫你;比如你用的是什麼軟件,你想問的是不是其他知友提到的那個「表」。
统计学最大的问题是应用统计方法的人只是会用,远谈不上有深入的理解。题主也许在计量经济学中学到了回归和方差分析,甚至会以为这些只是计量经济学的一部分;高票答主也是搞计量的,可能都没怎么用过ANOVA,想当然的就觉得没用了。不管你用什么方法,统计学家都会提供给你很多统计量,有的用来估计模型参数,有的用来检验假设,有的用来判断模型本身的正确性。应用过程中要特别清楚每个数字背后是什么含义,怎么解释。R^2估计的是模型的解释能力,但并不能用来判断回归系数是否显著;方差分析中的p value可以用来判断系数显著,又不能推断关系是否为线性。回到题主的问题。ANOVA可以看作是一种特殊的linear model。在covariate都是factor的时候(如性别,治疗/对照),统计学家发现线性模型有一种更简单好用的形式--方差分解。你在用线性模型时看到的表并不一定是ANOVA table,那个表讲的是每个covariate的显著性。如果covariate是factor,那么每一行就是一个factor的一个leve。============================回答@Jichun Si :你的一个误区是认为只有计量经济学关心模型的解释能力和因果关系。实际上统计学家对此的重视绝不可能更少,统计学早期发展中反复讨论的一个问题是吸烟和肺癌的因果关系,ANOVA被发明的动机也是研究影响农产品产量的因素,当前研究热点高维统计也是围绕模型的interpretability。只关心模型预测能力的统计学家只是极少数。这道问题被统计学家攻占的显然原因是题目中的线性回归和ANOVA都是最基本的统计工具,在各种领域都有广泛应用。我希望题主和读者都能跳出它们在计量经济学中的应用来看待这些统计方法。例如你说的R^2在计量经济学中意义不大,但在一个一般的问题中,它还是衡量模型好坏的一个好用易解释的指标,不可妄下结论。============================
为啥还有这么多学统计的人来反驳我的答案?你们不翻一下答案,反对我的都是学统计的,学计量的一个也没有吱声。我下面列举的这些都是仔细学过高级(微观)计量的人的共识。不同领域处理方法不一样,我已经补充了,争论下去实在没有必要。题主一开始把这个问题只归了两类,“计量经济学”和“数学”好吗?压根没有归到“统计学”这一类。就好象我知道我的统计学知识不够不去统计板块答题一样,希望学统计的不要在不了解计量经济学的前提下妄自回答计量经济学的问题。你们看一下题主的问题是,“做线性回归的时候,回归结果中都会包含ANOVA的分析”,在做线性回归的时候啊!他问的是线性回归结果里面那张ANOVA表好吗?你们学统计的一个个煞有介事的介绍ANOVA的应用是闹哪样。要说统计,虽然我不是统计的phd,但是学计量的基础就是统计。谁不是从实分析 泛函分析 概率 统计一点一点读上来的?不要以为学计量的人都是土鳖好不,说过了,解决的问题不一样,处理方法不一样,仅此而已。最后一次修改,懂的自然懂,反正我也没有必要也没有任何激励去给你们学统计的宣传计量的最新进展。===================================特别声明,本人以下回答只针对计量经济学领域!我看到题主没有把统计学放到分类里面,只有计量经济学才敢于这么回答的。统计我懂的只是皮毛,但是要说计量~其实很多人对计量经济学的理解还是统计学在经济学中的应用。为什么统计学在心理学、社会学上都有应用,偏偏没发展出计量心理学、计量社会学?有计量史学(cliometrics),但是计量史学还都是计量经济学的应用。因为阿,计量经济学跟统计学技术手段类似,但是解决的问题是不一样的。计量经济学更注重解释,而非预测;计量经济学更关注因果,而非相关;计量经济学更关注经济理论,是用数据match理论,而非用数据发现理论。所以在最开始的时候,经常听说有统计学家和计量经济学家没办法交流。为什么?因为解决的问题不一样,其技术手段也不一样。比如 对我的反驳,你们好好看看评论里面我们的讨论就知道,我们看似都在讨论线性回归,但是讨论的问题根本不是一个问题。我为什么说R2不重要?不只是我说,计量领域的懂一点的都这么说。为什么?因为R2很大程度上度量的是u的方差跟x的方差大小的问题。但是计量领域绝大多数情况下根本不关心你的u的方差有多大好吗?有更直接的指标看x对y的影响,干嘛还要看R2呢?当然现在是有很多做统计的转而做计量经济学,其实也是用统计的方法解决经济的问题,并不是说计量经济学就是统计的分支了,计量经济学是经济学好吗?记得前段时间有个国际著名计量经济学家,之前是某统计学院院长,在学院大会上说了一句“在我是个统计学家之前,我是个经济学家。”结果统计学院一大堆人都在吐槽这句话。计量经济学跟统计学的差别可见一斑了。烦请反驳我的 还有那位觉着我没有深入理解统计方法的 同学仔细看看我的回答。我如果在这个方面没有一点底气和信心,敢说这么绝对的话?敢专门发个专栏说R2在计量里面不重要?我找骂是不是?还有那个
的“如果y对a、b、c、d回归,系数都显著。这个显著只是在统计意义上显著,可能经济意义上不显著,表现为R方的增量很小。”导致R方增量很小的原因很有可能是你增加的d相对于u来说本身就没有多少variation,归根结底还是要看u的variance。当然你说预测可以理解了,但是经济学上d明明可以解释y,你忽略它就不对了吗!=================================分解方差。现在很少有人看这个了。方差分析跟R2一样,对你的模型的解释能力几乎没有任何参考意义。===================回答评论里面的问题,答案是没有什么能评估模型的解释能力。先说R2为什么不可以。我们假设一个最简单的数据生成过程(DGP),y=x*b+u,其中x~N(0,1),b=1,u~N(0,1)。这个时候你可以做出0.5的R2。但是如果u~N(0,2),那么你只能做出0.25的R2。但是这两个DGP仅仅是误差项的方差改变了而已,我们关注的是b不是吗?就算R2小到只有0.0001,也许只是u的方差太大了,但是x对y还是有解释能力的对不对?而且解释能力跟R2无关。方差分析有同样的问题。组内的方差其实就是误差项啊~看一个模型的解释能力,要看的东西很多,但是没有一甚至几个假设检验或者指标可以直接看出来。计量经济学模型也是依赖假设的,关注一下现实的问题,看看你建立的模型跟现实是否符合才能看出模型是不是有解释能力。比如你要问一下,识别是不是清楚?有没有内生性?做probit的时候有没有异方差?有没有sample selection的问题?有没有其他机制可以导致你做出来的回归结果?如果你做GMM,你的矩条件是否合理?等等等等。所以,看模型解释能力看什么?看现实问题。==============================其实要说没用,还是有用的,看的人只是很少,不是没有。比如当你研究歧视的时候,男女的工资差异可以分为两部分,一部分是你观察到的男女的差别,比如教育等,还有一部分就是误差项了。在这个背景下,比较观察到的组间方差和观察不到的组内方差是有意义的。================================哇塞!斯坦佛的phd
都来反驳我唉! 其实吧,这个问题就是计量跟统计的差别,计量关注因果,统计关注相关。计量关注统计量是不是显著,而不是这个模型的拟合程度(R2),这个是最关键的差别。要不然R2最高的方法就是OLS,还要发明工具变量、面板固定、随机效应、联立方程什么的模型干嘛?经济学家不是不关注误差项。在计量经济学家看来,误差项的方差是多少并不重要,重要的是你的误差项里面有什么。你的误差项方差再大,如果不是系统性的误差,不影响你的x的外生性,爱怎么大怎么大,系数显著就好。但是如果你的误差项里面有系统性的误差,你的误差项方差再小,你的模型也是错的,你估计出来的系数完全不是你想要的东西。在这种情况下,你甚至说不清楚你估计出来的是什么东西~还有,ANOVA其实就是特殊情况下的OLS模型,上面我举例子了,经济学也有可能用到ANOVA,我没说这个东西绝对没用,只是在计量领域,用处不大~至于我有没有用过ANOVA,只有我自己知道~============================顺便吐槽一下吧,改天修改一下发到我的专栏里去。计量经济学中那些从统计学、初级计量里面带来的恶习1、随意删变量什么?某个变量不显著?删掉!呵呵~这个变量如果理论上对你的y有影响,但是做不出显著,一可能是你的模型错了,二可能是数据没有足够的variation做出显著。如果删掉,你其他的估计都会受到“遗漏变量”的影响,估计的系数理论上都不对的~2、多重共线性这个多少跟第一条有关系。什么?你的模型有多重共线性?好严重啊!删变量吧!为什么不能删变量第一条已经说了。解决多重共线性最好的办法是增加样本,别的好像没办法了。至于有人用“主成份分析法”,呵呵,你还知道你估计的东西是啥不?3、变量筛选也跟第一条有关系,做很多很多回归,把显著的变量留下来,不显著的删掉。不解释了,参见第一条。4、异方差都21世纪了,你还在线性模型里面检验异方差?没听说过white heteroskedasticity robust的统计量吗?这个还需要检验?还需要加权最小二乘?只有非线性模型中异方差是致命的,线性模型中异方差可以很方便的用white或者Newey-west来解决。5、R2这个多少跟主题有关。实际情况是,时间序列你做出低于90%的R2都不正常,但是微观数据你做出50%的R2都很困难。OLS是在给定的数据和变量条件下R2最高的,因为他是个线性投影。工具变量估计是一个非正交投影,所以R2肯定比OLS的要低。但是我们还是要发展IV之类的方法,这也从侧面反映了R2不重要。所以你如果用R2去比较模型,完全没有意义。6、Box-Jenkins不是专业做时间序列的,不做过多评价。但是基于ACF、PACF图的什么“截尾”、“拖尾”是很不靠谱的方法,已经是共识了。==========================这篇回答只限内部讨论,请知乎的小编不要再把这篇发到微博上去了。里面有八卦,不想传开,如果小编感兴趣,去转专栏里面的文章吧。p.s. 上次你们在微博上推我的文章,曲解我的意思好不好!以后你们公开推别人的回答,可不可以征询一下作者的意见!
抽空复习一下自己的统计学知识。(不是装逼,可以折叠)从一个例子说起吧:从前有座山山里有个庙,庙里有个手工工艺厂,现在手工工艺厂要训练和尚做手工艺品了,现在有三个训练方案,分别是 方案A , 方案B ,方案C
工厂老板必须要决定用那一套训练方案,所以厂长挑了30个和尚做个实验来研究一下。把30个和尚分成三组做实验,这就叫做实验设计(Example designed),与其相对应的是观测实验(observational study)ANOVA 就是 ANalysis Of VAriance 的缩写,翻译过来就是 变化分析就是对比一个变量的两个变化值对于 试验结果影响的比较。方案选择 ANOVA 分析the table of ANOVA(昨天知乎账号好像被黑了)
这个问题看起来是变成对喷了,不过我和题主一样关心 出现在线性回归结果里的ANOVA是啥。个人理解,实际上,ANOVA并不是线性回归结果里的,只不过较多的统计软件都顺带做了ANOVA。它是一个多因素方差分析,衡量了变量x的变异对变量y的变异解释程度,也就是说某种程度上表示的内容和线性回归的R是一回事。ANOVA最擅长针对的事情,是可控变量实验,检验比如多块田施肥量的区别是否对产量有影响,多组小白鼠的用药量是否有效果。这个时候,由于实验中控制了除了施肥量、用药量等的其他变量,那么ANOVA的结果是有说服力的。然而,线性回归问题就有点微妙了。线性回归最经常处理的事情,是经验科学,面对的是观察数据而不是实验数据。这个时候,观察到的变量是x,而大量的变异躲在u里头,就算R很高,也说明不了问题,因为严格来说不知道多大的R算高,多一个变量就多一点解释,增添变量总会使得R提高。线性回归里,特别是计量经济学里的OLS,优先关心线性回归模型中x是否能解释y,次要关心解释了多少程度,解释再厉害也搞不定u。这个时候,一些统计软件顺带输出的ANOVA,就缺乏说服力了,脱离了可控实验的环境,ANOVA就只是参考参考了。ANOVA和R很像,但是两者在观察数据上,有一个就够了。擅长观察数据的线性回归顺带出一个可控实验的ANOVA,有点不伦不类。统计终究是工具,脱离了问题,就滥用了。
线性回归中的ANOVA作用是根据显著性判断整体模型是否有效。我用最傻瓜的SPSS只展示最简单的回归。Regression对应预测变量的效应,Residual是相对应的误差1. 当预测变量只有1个的时候, ANOVA的结果就是线性回归中关于预测变量的结果()2. 当有2个或以上预测变量的时候,ANOVA的结果对应线性回归整体模型的有效性例如这个图的ANOVA显示,整个模型是有效的。具体每个预测变量的系数,看下面的结果;两个预测变量当中,只有age的系数是显著的,Satisfaction的系数不显著例如这个图的ANOVA显示,整个模型是有效的。具体每个预测变量的系数,看下面的结果;两个预测变量当中,只有age的系数是显著的,Satisfaction的系数不显著
反对“R方对你的模型的解释能力几乎没有任何参考意义”的说法。研究模型,大体上出于两种目的:我要预测Y,解释变量a、b、c、d自己找,无限制。偏实务现有的研究发现a、b、c对y有预测能力,我要确定d是否有预测能力。偏学术第一种,R方显然越大越好,说明能解释/预测Y的绝大多数波动第二种,R方有两个作用:其一,如果y对d回归,系数即使显著,也可能存在omitted variable bias,从另一个方面表现为R方小于已有研究的R方。其二,如果y对a、b、c、d回归,系数都显著。这个显著只是在统计意义上显著,可能经济意义上不显著,表现为R方的增量很小。
@的答案开启了群嘲模式,作为统计PhD必须反驳一下。ANOVA的基本作用是告诉我们变量对模型的贡献程度(方差解释比例)和这种贡献的可信程度(显著性水平).比如检验某个变量是否显著,可以用t检验,也可以用方差检验;在简单情形,这两个检验是等价的.我以前也想过ANOVA能做的事情,线性回归同样能做,还要ANOVA干啥.后来学了更多才明白,一, ANOVA的方差解释比例是一个衡量模型好坏很直观的指标,且不依赖假设;二,ANOVA的想法更直观简单,所以很容易移植到更复杂的情形.比如在函数型数据分析中,依然可以用ANOVA,而线性回归里的单个变量的显著性检验就不行了.再比如在样条回归里,单个变量的显著性检验也很难解释,而ANOVA依然有一定的作用.做统计分析的人会很谨慎的谈论"因果"这个词.很难用模型来说明一个变量与另一个有因果关系.(X计量学能这么干,不是因为它牛逼,而是因为加入了很多无法验证的假设.X)如果非要说有因果,那就一定要加入无法用数据验证的假设。之所以用统计,就是因为大部分时候我们不知道变量重不重要,所以用客观的方法去估算.如果有先验知识,可以加进模型;但不能心里预设一个答案,然后责怪统计方法不靠谱.(XX至于y=xb+u的例子就不说什么了,他显然没有弄明白什么叫模型的解释能力.XX)两个完全不同的问题是不能比较模型解释能力的。模型解释能力强还是弱,指的是对同一个问题,一个模型比另一模型好。=================================================================方差分析作为一个工具,在它的假设条件成立或近似成立时都是有意义的.如果假设条件不成立,那它的检验结果当然没有意义.所以要讨论方差分析是不是有意义得讨论它的假设条件,而不应该讨论是不是它是不是应用在计量领域.过于强调计量的特殊性是说不过去的.也许在计量领域,很多情况下假设条件不满足,所以很多计量经济学家不看方差分析表.但是如果这样就得出方差分析没有用的结论就太主观了,也不能引申为计量领域方差分析没有用.这个问题和领域没有关系。
说计量经济学“加了很多无法验证的假设”,而统计则是“用客观的方法去估算”。我想问问作为统计学家的你:你们玩 OLS 的时候有没有假设被解释变量的条件分布?如果没有假设具体的分布,有没有假设它的形状(moments)?你们玩 The Method of Moments 的时候有没有假设数据分布的形状?你们玩 Maximum Likelihood Estimation 的时候有没有假设似然函数?你们玩 Bayesian 的时候有没有假设似然函数以及先验概率?
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 线性回归 的文章

 

随机推荐