二阶段随机抽样资料能不能用多重excel 线性回归分析析

21-多重线性回归_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
21-多重线性回归
上传于||暂无简介
大小:666.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢后使用快捷导航没有帐号?
查看: 9880|回复: 10
线性回归分析时,残差一定要符合正态分布吗?
论坛徽章:19
薛毅《统计建模与R软件》,例6.12中提到对残差做正态性检验,认为去掉第12号样本后,残差符合正态性检验,这时才是合理的。
不明白为什么残差一定要符合正态分布才是合理的呢?我觉得在坐标图上描出一条直线作为回归方程的直线后,真实值所表示的点到直线的Y轴方向距离大小可大可小,只要是在直线附近都可以呀!
高级会员, 积分 511, 距离下一级还需 489 积分
论坛徽章:4
首先要明白,线性回归估计出的系数值都是随机变量。会随着样本的不同有不同的估计。因此有自己的均值和方差。当估计量的平均值等于总体的真实系数值时,就是无偏的。一致性说的是当样本趋于无限大时,估计值会趋于真实值。
下文的x是解释变量,u是扰动项,也就是未观测到的“其他因素”。线性回归的算法,软件默认一般是最小二乘法。最小二乘算法不需要残差项符合正态分布。但是需要E(u|x)=0,也就是所谓的扰动项外生假设。这个等式可以按照统计的随机抽样原则来理解,就是假设包含在残差项里的“其他因素”,分布比较平均,独立于x;也就是假设我们使用的数据有比较好的性质,可以用来估计总体的一些特征。只要有这个性质,就说最小二乘估计量是最优的,即在所有的线性无偏估计量中方差最小(Best Linear Unbiased Estimator)。另外还是一致的。你的数据当然可以不符合E(u|x)=0这个条件,那样你也可以照样用最小二乘去拟合。只不过估计出来的系数值是有偏的。更严重的是可能还不一致。当然有专门的方法来应对这种情况。比如用工具变量。
而之所以需要正态假设,是因为要做假设检验。做假设检验需要先估计系数估计量的方差。也就是需要估计系数估计量的方差协方差矩阵。这时候是不是正态分布,直接影响你的估计值。有了这个矩阵,就可以构造一些统计量。如果残差符合正态分布,那么这些统计量也就会有相应的分布,如x-square、F、t分布什么的。通常,你看到的回归结果里的什么t统计量,F统计量,p-value,都是在正态分布假设下做出来的。
残差可以不符合正态分布。这说明你的数据需要进一步特别处理,也有专门的方法帮助修正方差协方差矩阵的估计结果。如怀特异方差修正什么的。
中级会员, 积分 232, 距离下一级还需 268 积分
论坛徽章:1
我觉得如果该样本不满足正态分布,肯定其表示的点不在画出的直线附近。
发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法了。
论坛徽章:19
hualong7501 发表于
我觉得如果该样本不满足正态分布,肯定其表示的点不在画出的直线附近。
发现异常数据主要从技术上找原因, ...
不一定啊,你随便画一条斜直线表示回归直线,然后随便在直线周围画几个点作为测试数据对应的散点图,这样看来,这些点呈关于这条直线线性分布是很合理的,但是你不能保证这些点对应的残差一定满足正态分布啊,因为你可以在直线周围画这些散点时,爱怎么画都可以,只要是在直线附近,看起来呈线性就行。
金牌会员, 积分 1819, 距离下一级还需 1181 积分
论坛徽章:7
sonyicn 发表于
不一定啊,你随便画一条斜直线表示回归直线,然后随便在直线周围画几个点作为测试数据对应的散点图,这样 ...
我对这个问题也非常感兴趣,下面纯属个人理解,欢迎牛人讨论
我的理解拟合,说到底是一种根据现有数据推算出的假设,只是这种假设在目前来看最好的。
残差就是说 实际值与假设值的差异。
既然是假设,肯定就有误差,误差嘛,当数据量很大的时候,误差就应该是正态分布的。
金牌会员, 积分 2479, 距离下一级还需 521 积分
论坛徽章:3
从别处摘录的几句解释:标准回归模型假定随机误差项满足零均值、同方差、序列不相关等假定。特别的,为了进行统计推断,还要求随机误差项服从正态分布。
金牌会员, 积分 2760, 距离下一级还需 240 积分
论坛徽章:10
中级会员, 积分 257, 距离下一级还需 243 积分
论坛徽章:3
这是基于回归模型建立的要求。因为在建立回归模型时候,要求的条件之一就是正态性,即残差服从正态分布。为什么回归模型要求残差一定要服从正态分布?个人之见是:回归模型要求数据要符合正态分布,如一元线性回归中,要求y和x都服从正态分布。现在给定x,用回归模型推断^y的值,如果这个^y的值同y的值一样符合正态分布,才能说明模型可能是正确的。如果^y连基本的正态分布都不符合,这个回归模型肯定是有问题的。因此,一个好的回归模型基本条件之一就是^y也符合正态分布。残差作为y-^y的值,必然是要服从正态分布滴。
中级会员, 积分 487, 距离下一级还需 13 积分
论坛徽章:1
TAMU 发表于
这是基于回归模型建立的要求。因为在建立回归模型时候,要求的条件之一就是正态性,即残差服从正态分布。为 ...
一元线性回归中,要求y和x都服从正态分布?
没有这个要求吧,LS从哪里得到的这个结论
中级会员, 积分 487, 距离下一级还需 13 积分
论坛徽章:1
本帖最后由 weknow 于
10:26 编辑
顺便贴一个别人的博文:
在线性回归分析中,独立很好理解,但是正态和同方差往往会被误用。很多人做线性回归之前,先检验响应变量y是否符合正态分布,这样做是不对的。这里说正态分布,是指每个y是从不同正态分布的样本里抽样出来,而不是所有y是同一正态分布抽样出来的。这一点可以理解为,每个y 相当于从每一组正态分布中抽取出来(如图),而不是从同一个正态分布随机抽取出来。因此,理论上,做线性回归先检验响应变量y是否符合正态分布是没必要的,因为对于某一个特定的x , 往往所对应的y样本量很少,所以检验每个特定x (相当于方差分析中每种treatment)下所对应的y 是否符合正态分布往往是不现实,也是没必要的。同方差就是指不同x 条件下,残差的大小不随x变化而变化(也就是残差随机)。如同残差不随机,说明普通线性模型不符合,得考虑其他类型模型。多重线性回归分析作业_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
多重线性回归分析作业
上传于||暂无简介
阅读已结束,如果下载本文需要使用3下载券
想免费下载本文?
你可能喜欢文档分类:
下载前请先预览,预览内容跟原文是一样的,在线预览图片经过高度压缩,下载原文更清晰。
您的浏览器不支持进度条
淘豆网网友近日为您收集整理了关于多元线性回归分析的文档,希望对您的工作和学习有所帮助。以下是文档介绍:多元线性回归分析直线回归概念复习例:为了研究 3 岁至 8 岁男孩身高与年龄的规律,在某地区在 3岁至 8 岁男孩中随机抽样,共分 6 个年龄层抽样:3 岁,4 岁,…,8岁,每个层抽 10 个男孩,共抽 60 个男孩。资料如下:60 个男孩的身高资料如下年龄 3 岁 4 岁 5 岁 6 岁 7 岁 8 岁身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0 96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5平均身高 95.4 101.8 107.6 113.1 120.6 124.0从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正图 1 某地男童身高与年龄的散点图态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高 Y 在年龄 X 点上的总体均数 XY| 与X 呈直线关系。x
y其中 y 表示身高,x 表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为x
y|x表示在固定年龄情况下的身高总体均数。年龄平均身高直线2 4 6 8
130身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系上述公式称为直线回归方程。其中为回归系数(regressioncoefficient),或称为斜率(slope);称为常数项(constant),或称为截距(intercept)。回归系数表示 x 变化一个单位 y 平均变化个单位。当 x 和 y 都是随机的,x、y 间呈正相关时&0,x、y 间呈负相关时&0,x、y 间独立时=0。一般情况而言,参数和是未知的。对于本例而言,不同民族和不同地区,和往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数和进行估计,一般采用最小二乘法进行参数估计。我们将借助 Stata 软件对本例资料进行直线回归。数据格式x y3 92.5 3 97.0 3 96.0 3 96.5 3 97.0 3 92.0 3 96.5 3 91.0 3 96.0 3 99.0 4 96.5 4 101.0 4 105.5 4 102.0 4 105.0 4 99.5 4 102.0 4 100.0 4 106.5 4 100.0 5 106.0 5 104.0 5 107.0 5 109.5 5 111.0 5 107.5 5 107.0 5 111.5 5 103.0 5 109.0 6 115.5 6 115.5 6 111.5 6 110.0 6 114.5 6 112.5 6 116.5 6 110.0 6 114.5 6 110.0 7 125.5 7 117.5 7 118.0 7 117.0 7 122.0 7 119.0 7 119.0 7 125.5 7 120.5 7 122.0 8 121.5 8 128.5 8 124.0 8 125.5 8 122.5 8 123.5 8 120.5 8 123.0 8 124.0 8 126.5回归命令regress y xSource | SS df MS Number of obs = 60-------------+------------------------------ F( 1, 58) = 777.41Model |
Prob & F = 0.0000Residual | 447. 7. R-squared = 0.9306-------------+------------------------------ Adj R-squared = 0.9294Total |
59 109.240395 Root MSE = 2.7776------------------------------------------------------------------------------y | Coef. Std. Err. t P&|t| [95% Conf. Interval]-------------+----------------------------------------------------------------x | 5. 0.000 5..274577_cons | 78.202 64.66 0.000 75.24------------------------------------------------------------------------------回归方程 78.286y a bx x
b=5.854286 , a= 78.18476se(b)= 0.2099654回归系数检验:H0:=0 vs H1:0回归系数统计量 t=b/se(b)= 5.854286/ ..88,P 值&0.001,95%CI of
为(5..)简述单因素线性回归方程 y=+x 在实际分析中要注意的问题(a) 残差i=yi-a-bxi,引入回归模型 yi=+xi+i(b) i~N(0,)且{i}相互独立:说明有三个条件:i)i 服从正态分布ii){i}相同的方差2。iii){i}相互独立。(c) 不满足上述 3 个条件时,反映在实际回归分析时,有如下情况:i)散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项偏态分布。ii)散点随着自变量 x 增大而离散程度增大或减小(喇叭口状),反映了误差项方差随着 x 变而变,即不满足相同方差(方差齐性)。iii)随着 xi 变化而i 呈某种规律性的变化。反映还含有 x 的信息未利用到,还可以继续改进回归模型。问题 1:在同一总体中随机抽取 2 个相同样本量的样本,每个样本中都含有变量 x 和 y,并以 y 为因变量和 x 为自变量,作线性回归,请问:两个样本作出的回归方程一样吗?它们之间什么关系?问题 2:回归方程所示的直线与原始数据的关系是什么?1) 不同,它们之间存在抽样误差2) 回归分析统计背景:对于固定自变量 x,对 y 所在的总体进行抽样,得到在固定 x 情况下,y 的样本值,因此对于每个 xi,得到对应的抽样值 yi。即:资料为:(x1,y1),(x2,y2),…,(xn,yn)。因此对于同一个 x 值,y 所对应的总体均数|Y X 相同,不同的 x 值,y 所对应的总体均数|Y X 可能不同。如果 y 的总体均数值|Y X 与 x 的关系呈直线关系|Y X x
,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。由于抽样资料 y=总体均数|Y X +抽样误差因此如果 y 的总体均数值|Y X 与 x 呈直线关系|Y X x
,则抽样资料|Y Xy x
当 2~ (0, )N
,则对于固定 x, 2|~ ( , )Y Xy N
,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程 y a bx 是固定 x情况下,y 的总体均数与 x 的线性方程的表达式|Y X x
。即:b 是β的样本估计值(无偏估计),a 是α的样本估计值(无偏估计), y a bx 是|Y X 的样本估计值。抽样误差(估计值)=样本资料-(a+bx) (即:
的估计值:残差)所以要求回归分析的资料,其残差服从正态分布,且与 x 无关、方差齐性。2)引入多元线性回归模型定义(a) 例 3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了 10 名女中学生的体重 x1(kg),胸围 x2(cm)和肺活量 y(ml),资料如表 3-1,试建立一个因变量为 y 对自变量 x1,x2 的线性回归方程。(b) 对于相同的体重 x1 和胸围 x2,考查女中学生的肺活量 y 总是有一定的变异的,但总对应有一个总体均数y|X,而且总体均数y|X 可能与体重 x1 和胸围 x2 有关。x1 和 x2 与总体均数y|X 最简单的关系为线性关系:i)同样的 x1 和 x2,观察值 y 与总体均数y 总有一定的随机误差,即 y-y|X=,因此| 0 1 1 2 2y Xy x x
ii)若~N(0,2)分布且独立,而观察值 22110 xxy ,则称肺活量 y、体重 x1 和胸围 x2 符合线性回归模型 22110 xxy(c) 对于一般的线性回归模型定义为:i)设有 p 个观察自变量 x1,x2,…,xp ,并用向量X=( x1,x2,…,xp)’,因变量为 y,且记 y 的总体均数为ppy xxx
22110 ,随机误差~N(0,2)且独立,则线性回归模型可以表示为 pp xxx 22110y对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中 Xi=(xi1,xi2,…,xip),i=1,2,…,n。对应的线性回归模型为iippiii xxxy
22110),0(~ 2 Ni 且独立。在本例中,作线性回归如下:(介绍一下数据结构). regress y x1 x2Source SS df MS Number of obs = 10F( 2, 7) = 6.75回归平方和回归均方和Model
Prob & F = 0.0232残差平方和残差均方和决定系数Residual
R-squared = 0.6587校正和决定系数Adj R-squared = 0.5611Total
Root MSE = 374.57总平方和 SS 总描述样本量为 n=10 的因变量 y 总的变异。回归平方和 SSR 描述了样本量为 n时,由自变量 x1,x2 变化而引起的因变量 y 的这部分变异,SSe 描述了样本量为 n 时,由随机误差项所引起的因变量 y 的一部分变异,因此:总变异=自变量引起 y 的变异+随机误差引起变异对应:SS 总=SS 回归+SS 误差由于 SS 总,SS 回归和 SS 误差均与样本量 n 有关,样本量 n 越大,对应变异就越大。所以取平均变异指标:均方差 MS回归回归回归=dfSSMS ,误差误差误差=dfSSMS回归系数回归系数标准误 t 值 P 值 95%可信区间y Coef. Std.Err. t P&|t| [95% Conf. Interval]x1 113.09 2.976 0.021 23.01x2 45.28 1.614 0.151 -21.89_cons -3.933 -2.418 0.046 -1.5156回归方程 21 .113- xxy 解释回归系数的意义简述 SST 总=SSR 回归+SSE 残差,自由度 df 回归=模型中的回归系数个数(不含常数项),df 残差=n-df 回归-1回归回归=dfSSEMSR ,残差残差=dfSSEMSE模型的假设检验 H0:1=2=0 vs 1,2 不全为 0当 H0 成立时,MSEMSRF
~F(df 回归,df 残差)单个回归系数检验:H0:=0 vs H1:0当 H0:=0 成立时, )t(df)(残差~ set简述回归系数的 95%CI 意义与 t 检验的对应关系。(d) 假设检验一般情况叙述(e) 决定系数SSTSSE1SSTSSR2-==R(f) 复相关系数 R(g) H0:1=2=…=r=0 vs 1,2,…,r 不全为 0。当 H0 成立时)1,(~),,,(/),,,(),,,(21 2121pnsFxxxMSErxxxSSRxxxSSRFpprrp(x1,x2,…,xp)的估计及其误差pp xxxx p1101 ),,( (STATA 命令:predict y1)))(( 0Xs (STATA 命令:predict meansd,stdp)(因为 p10 , ,, 有抽样误差)95%CI ))(( 0,025.0 Xst v ,自由度 v=n-1-p个体预测值和标准误pxx p110y (STATA 命令:predict y1)线性回归模型应用的条件总结理论上iippiii xxxy
22110),0(~ 2 Ni 且独立。具体检查是否复合线性回归模型步骤1. 先做线性回归2. 计算残差i3. 检查残差i 是否服从正态分布(引起正态分布)4. 检查残差i 的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系)5. 检查残差i 变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系)多元线性回归常见的应用以及应用中的问题全回归模型(析因分析) 多重共线对分析的影响 VIFs (variance inflation factors) 对于自变量 p 个自变量 x1,x2,…,xp 中,以其中一个 xi 作为因变量作回归以及其它 p-1 个变量为自变量,得到相应的决定系数 Ri。定义 xi 的膨胀因子 2i1 1iRVIF VIFi=1 对应 02i R 说明 xi 与其它 p-1 个自变量无共线。当 01 2 iR 对应 VIFi&1 当 12iR ,说明 xi 与其它 p-1 个自变量完全共线,对应 VIFi 成为无穷大。通常认为在 p 个自变量 x1,x2,…,xp 中,最大的 VIF&10,则认为严重共线,最小二乘估计受到较严重的影响。平均 VIF=1-PVIFp1ii&&1,则认为寻找影响因变量的主要因素。用回归进行两组或多组的均数比较并校正混杂因素的影响。全回归分析举例例:据儿童保健部门的考察,4 至 7 岁儿童的身高与年龄近似呈线性关系,且男女身高也有差异。下列收集了 50 名男孩和 50 名女孩的身高,年龄均在 4 岁至 7 岁之间。请试建立回归方程描述年龄与身高的关系(其中 sex=1 表示男,sex=0 表示女)sex age y1 4.5 90 1 6.5 111 1 6.2 107 1 6.4 107 1 6.7 114 1 4.4 88 1 6.4 109 1 4.2 86 1 6.2 107 1 7.4 122 1 5 95 1 4.1 85 1 5.6 100 1 7.5 121 1 6 106 1 7.3 120 1 4.8 93 1 6.2 105 1 5 94 1 7.7 125 1 5.1 96 1 4.4 88 1 5.6 101 1 6.8 113 1 7.4 121 1 5.8 105 1 5.6 102 1 7.5 122 1 4.2 84 1 6.7 113 1 6.8 115 1 6.7 114 1 4.9 93 1 4.3 86 1 6.3 108 1 5.4 99 1 7.2 116 1 4.4 87 1 6.3 109 1 4.4 89 1 7.8 125 1 4.8 92 1 5 95播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表多元线性回归分析.doc
文档介绍:
多元线性回归分析直线回归概念复习例:为了研究 3 岁至 8 岁男孩身高与年龄的规律,在某地区在 3岁至 8 岁男孩中随机抽样,共分 6 个年龄层抽样:3 岁,4 岁,…,8岁,每个层抽 10 个男孩,共抽 60 个男孩。资料如下:60 个男孩的身高资料如下年龄 3 岁 4 岁 5 岁 6 岁 7 岁 8 岁身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 1...
内容来自淘豆网转载请标明出处.计量经济学实验二 多元线性回归分析 完成版_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
计量经济学实验二 多元线性回归分析 完成版
上传于||文档简介
&&计​量​经​济​学​实​验​ ​及​答​案
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
下载文档到电脑,查找使用更方便
还剩5页未读,继续阅读
你可能喜欢

我要回帖

更多关于 excel 线性回归分析 的文章

 

随机推荐