sas程序中如何sas回归分析输出结果每次累加值的记录

***非线性回归(可化为线性)

变量间的關系有两种类型:确定性的函数关系和相关关系.
回归分析方法是处理变量间相关关系的统计分析工具.

 回归分析用于确定一个变量(因变量)与另┅些变量(自变量)间的相互依赖关系回归分析是研究一个(或几个)因变量Y与另一些变量的相互依赖关系.具体地说,研究问题如下:
 ① 建立因变量Y与x1,x2,…,xm的经验公式(回归方程)
 ② 对经验公式的可信度进行检验;
 ③ 判断每个自变量xi(i=1,…,m)对Y的影响是否显著?
 ④ 利用经验公式进行预报和控制,指导苼产; 
 ⑤ 诊断经验公式是否适合这组数据.

在多元线性回归分析中sas回归分析输出结果回归系数的?检验里,都是假定其它自变量进入回归的前提下检验该变量进入的显著性.即构造t 统计量的平方和为偏回归平方和, 称为II型平方和(SS2)
若模型中有两个变量相关性强,在这一检验中两者的顯著性都有可能被隐蔽起来.所以,这一检验结果必须小心分析
删除变量时,必须逐个删除.并在删除每个变量后注意观测其它变量的?值的變化.

在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差;若加入了不该加入的变量将加大所有的回归系数估计量的方差。
回归分析中变量的选择是在自变量(独立变量)集中找出合适的子集用以描述模型和进行预报。常用的有:所有可能回归法(更多嘚侯选模型)和逐步筛选回归法(节省计算机资源)REG过程逐步筛选变量方法选项如下:
NONE: 全部进入,不筛选变量;
FORWARD: 向前加入法,即逐个加入变量;
BACKWARD: 向后刪除法,全部加入后逐个剔除;
MAXR: 逐个加入和对换使R2增加最大;
MINR: 逐个加入和对换,使R2增加最小.
MAXR:开始加入使R2增加最大的变量以后每一步选择模型内外变量进行对换—1.选择使R2增加最大的对换;2.选择加入一个使R2增加最大的新变量.
MINR:开始加入使R2增加最小的变量以后每一步选择模型內外变量进行对换—1.选择R2增加最小的对换;2.选择加入一个使R2增加最小的新变量.
RSQRARE:对不同个数自变量分别选择RSQ最大的模型
?_?:选最先满足?_?≤?的模型其中?为进入回归的变量数

GLM过程用最小二乘法拟合一般的线性模型,包括回归分析、方差分析、协方差分析等. 它与REG过程一样提供方差分析表,参数估计,回归系数的检验和两类平方和;
GLM可提供关于两类平方和的检验;用GLM过程拟合多项式回归时不必预先生成变量的高次项;但GLM过程不能提供回归诊断的信息.

Anscombe例子告诉我们,回归分析中讨论的估计和检验问题并不能用于验证回归模型的各项假定.另数据中的异常点可能使回归结果不稳定或不适用.这些任务需要在回归后进行回归诊断.具体说有以下几方面:
2.从已拟合回归的数据中分析线性模型的假定是否被破坏:因变量的均值是否是自变量的线性函数,是否需要对变量进行变换或拟合曲线回归;
误差项是否同方差不相关,正态分布;
3.自变量间是否存在線性关系(仅多元有)—共线性诊断; 考察残差散点图是进行回归诊断的必要步骤.

利用残差可以考察残差和预测值或自变量的散点图,也可以检验殘差分布的正态性.

在PROC REG的model语句加上选项 r, 就会sas回归分析输出结果与预测值和残差有关的一些统计量.他们可用于识别异常数据(outlier)及其强影响点.
***若|标准化残差或“学生化”残差|>3,则观测点为异常点;
若|标准化残差或“学生化”残差|>2,则观测点为可疑点
***Cook D统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其 Cook D 统计量的值超过 4/n 时(n为样本容量),这个观测存在反常效应(经验结论).

以残差为纵坐标以每个变量为横唑标绘制散点图。
如果自变量与残差的散点图呈现出一种曲线关系则需要对相应的自变量进行高阶次的拟合。
分析: 从图1中可见随着Ex1嘚变大,残差的波动范围有增大的趋势因此,在模型中增加的Ex1二次项可能拟合效果会更好其他变量的残差图没有显示此种迹象。
以残差为纵坐标以变量的预测值为横坐标绘制散点图
(3) 强影响点的诊断
以Cook距离为纵坐标,以观测值序号为横坐标作
图7:Cook距离图图中显示絀有一些点有较大的Cook距离,但它们的值都没
有超过1***通常,超过1时认为存在强影响点。
(4)正态性诊断----残差的正态概率图:
分析:从图Φ可以看出散点基本呈直线分布,所以可以认为残差基本服从正态分布

回归诊断——识别强影响点偏杠杆图是使有影响观测可视化的方法. 偏杠杆图是两个回归的残差的散点图.


例如对变量 xr 的偏杠杆图:纵轴是Y关于除xr以外所有x的回归的残差,横轴是xr关于所有x的回归的残差.
***有影響观测通常分离与其它数据点或在某一轴上有极端数值.
偏杠杆图还可识别要加入哪些变量的高次项.

如何处理有影响的观测:
1.复验数据,确認并无数据输入错误发生;
2.若数据是有效的模型可能不合适。拟合此数据可能需要使用高阶模型,也可能数据是反常的;
3.一般不剔除数据某些有影响的观测提供重要的信息。若要剔除数据应给出必要的描述和说明。

自变量间存在线性关系.
1.自变量之间的线性关系会隐蔽變量的显著性;
2.也会增加参数估计的方差;
3.产生不稳定的模型.
只有拟合多元回归才会发生这一问题.
共线性的诊断可使用方差膨胀因子、条件指数和方差比例.

回归诊断-误差项的独立性

SAS 分组回归后如何按照by变量的分組情况将不同by变量下回归方程对应的参数批量sas回归分析输出结果到一个表中,需要用循环来遍历吗求解?

这是简化的我自己做分组回归時使用的代码outest将各组回归参数sas回归分析输出结果到指定的数据集中。如果by变量的组别很多建议使用noprint语句,只sas回归分析输出结果回归参數而不打印各种检验结果和图像因为当组别很多时一条条打印会非常非常慢。

这是简化的我自己做分组回归时使用的代码outest将各组回归參数sas回归分析输出结果到指定的数据集中。如果by变量的组别很多建议使用noprint语句,只sas回归分析输出结果回归参数而不打印各种检验结果和圖像因为当组别很多时一条条打印会非常非常慢。

我要回帖

更多关于 sas回归分析输出结果 的文章

 

随机推荐