spss p值检验回归分析的F检验值

当前位置: >>
spss统计分析及应用教程-第6章 相关和回归分析
第6章 相关和回归分析 第6章 相关和回归分析? 本章学习目标? 理解相关和回归分析的基本思想、原理与两者之间关系; ? 明确相关和回归分析的实验目的、实验步骤和实验内 容; ? 掌握实验结果的统计分析; ? 熟练使用散点图; ? 相关和回归分析应用在经济管理数据分析中的应用。 第6章 相关和回归分析?相关和回归分析是分析客观事物之间相关性的数量分析方法。客观 事物之间的关系可分为函数关系和统计关系。函数关系指客观事物 之间的一一对应关系,即当一组变量取一定值时,另一变量y可以 依确定的函数取唯一确定的值。统计关系指客观事物之间的一种非 一一对应关系,即当一组变量取一定值时,另一变量y无法依确定 的函数取唯一确定的值。事物之间的函数关系比较容易分析,而事 物之间的统计关系不像函数关系那样直接。相关和回归分析正是以 不同的方式处理事物间的统计关系。 。 实验一 相关分析? 实验目的? 了解相关分析的方法原理; ? 熟练掌握相关分析的SPSS操作命令; ? 熟练应用三个常用相关系数的计算方法及其数据测度要求; ? 运用相关分析解决管理学实际问题的能力。 实验一 单一样本t检验? 准备知识 简单相关分析的概念统计学中,相关分析是以分析变量间的线性关系为主,是研究它们 之间线性相关密切程度一种统计方法。它是通过几个描述相关关系 的统计量来确定相关的密切程度和线性相关的方向。这些统计量包 括皮尔逊(Pearson)相关系数、斯皮尔曼(Spearman)和肯德尔 (Kendall)秩相关系数,一般用符号r来表示。 ? 准备知识 简单相关分析的概念相关系数具有一些特性: (1)它的取值极限在-1和+1之间,即-1≤r≤+1。 (2)它具有对称性,即X与Y之间的相关系数和Y与X之间的相关系 数相同。 (3)它与原点和测度都无关,即如果定义和,其中,且c和d都是 常数,则和之间的r无异于原始变量X与Y之间的r。 (4)如果X和Y统计上独立的,则它们之间的相关系数r=0;但反过 来,r=0不等于说X和Y是独立的。 (5)它仅是线性关联的一个度量,不能用于描述非线性关系。 ?相关系数的计算方法 皮尔逊(Pearson)相关系数通常,仅对刻度级(Scale)变量计算皮尔逊(Pearson)相关系数, 公式为: ? ( xi ? x )( yi ? y )rxy ?其中x ,y 分别为? ( x ? x ) ? ( y ? y) x i , y(i=1,2,?,n)的算术平均值。 i2 2 i i ?相关系数的计算方法 斯皮尔曼和肯德尔秩相关关系用于反映两个序次或等级变量的相关程度。计算Spearman相关数 据时,要求先对原始变量的数据排序,根据秩使用Spearman相关 系数公式进行计算。公式可为: ? ( Ri ? R )(S i ? S ) rs ? ? ( Ri ? R ) 2 (S i ? S ) 2yi 的秩。R、S分别是变量 Ri 、Si 的平均值。 式中,Ri 、Si分别是 x i, 至于肯德尔秩相关系数的计算公式,此处不再列出。 ?关于相关系数统计意义的检验我们通常利用样本来研究总体的特性,由于抽样误差的存在,样 本中两个变量之间的相关系数不为 0 ,不能直接就断定总体中两 个变量间的相关系数不是0,而必须进行检验。零假设H 0 : r ? 0给出显著性水平,做出判断。对给定的显著性水平,与检验统 计量相对应的 p 值进行比较:当 p 值( SPSS 中常用 Sig 值来表示) 小于显著性水平,则拒绝原假设,认为相关系数不为零。如 =0.05 , P=0.01 ,则 P <,拒绝零假设,即两个变量相关系数 r≠0,计算得到的相关系数是有意义,可以对它进行说明两个变 量之间的相关程度:反之,当p值大于显著性水平,则不能拒绝 原假设,认为相关系数为零,不能根据计算得到的相关系数来说 明两者之间相关程度。 实验一 相关分析? 实验内容?某大学一年级12名女生的胸围(cm)、肺活量(L)身 高(m),数据见表6-1-1。试分析胸围与肺活量两个变 量之间相关关系。 ?表6-1-1 胸围、肺活量与身高相关数据表 ? 实验步骤(1)绘制散点图,以判断两个变量之间有无线性相关趋势,见图 (2)从菜单上依次选择“分析―相关―双变量(二元相关) ”命令,打开对话框,如图6-1-2所示。选择“胸围”、“肺 活量”到变量框;选择“相关系数-pearson”、“显著性检验 -双侧检验”、“标记显著性相关”。单击“确定”按钮。 ? 实验结果胸围与肺活量相关性 ? 实验分析胸围与肺活量相关性由结果表可以看出,变量间相关系数是用2*2方阵形式出现 的。每一行和每一列的两个变量对应的单元格就是这两个变 量相关分析结果,有三个数字,分别为Pearson 相关性、显 著性(双侧)、N(样本量)。如表格中黑色单元格所示。 胸围与肺活量的Pearson 相关系数为0.549,显著性检验为 0.064,样本量为12。如果单从相关系数可以看出两者是正 相关的而且具有中等相关性。但是,显著性检验0.064> 0.05,接受原假设,所以Pearson 相关系数为0.549的值没有 通过显著检验。根据这12个小样本来推断该大学一年级女生 胸围与肺活量之间的没有线性相关性。 实验二 偏相关分析? 实验目的? 准确理解偏相关分析的方法原理和使用前提; ? 熟练掌握偏相关分析的SPSS操作; ? 了解偏相关分析在中介变量运用方法。 实验二 偏相关分析? 准备知识 偏相关分析的概念在多元相关分析中,由于其他变量的影响,Pearson相关系数 只是从表面上反映两个变量相关性,相关系数不能真正反映两 个变量间的线性相关程度,甚至会给出相关的假想。因此,在 有些场合中,简单的Pearson相关系数并不是测量相关关系的 本质性统计量。当其他变量控制后,给定的任意两个变量之间 的相关系数叫做偏相关系数。偏相关系数才是真正反映两个变 量相关关系的统计量。 ?偏相关系数的计算公式设有n 个变量 1, 2 ,?, n ,每两个变量间的简单相关关系, 即皮尔逊(Pearson)相关系数所构成的相关系数对称矩阵为:XXX? r11 ? ? r21 R?? ... ? ?r ? n1r12 r21 ... rn 2... r1n ? ? ... r2 n ? ... ... ? ? ... rnn ? ?其中, ,i,j=1,2,?,n。 rij ? r ji ?偏相关系数的计算公式如设 ? 为此矩阵的行列式,既 ? ? R 之间的偏相关关系为:,则变量 X i 与YjRij ?其中? ? ij ? ii ? jj的代数余子式。分别为中元素 实验二 偏相关分析? 实验内容? 研究人员收集了26个旅游景点某年的商店投资数据、游客增长率和风景区的经济增长率。问景区商业投资 是否确实导致了风景区的经济增长率? 实验二 偏相关分析? 实验步骤(1)在SPSSl7.0中打开数据文件6-2.sav,通过选择“文件― 打开”命令将数据调入SPSSl7.0的工作文件窗口 。 ?旅游投资数据文件 (2)从菜单上依次选择“分析-相关-偏相关”命令,打开其 对话框,如图所示。选择“商业投资”与“经济增长”作为相 关分析变量,送入变量框中;选择“游客增长率”作为控制变 量,用箭头送入右边的控制框中。 (3)点击“选项”按钮,见图,选择 零阶相关系数(也就是两两简单相关系 数,可以用与偏相关系数比较)。点击 “继续”按钮回到主分析框。点击“确 定”按钮。 ? 实验结果描述性统计分析 偏相关分析 实验三 简单线性回归分析? 实验目的? 准确理解简单线性回归分析的方法原理; ? 熟练掌握简单线性回归分析的SPSS操作与分析; ? 了解相关性与回归分析之间关系; ? 培养运用简单线性回归分析解决实际问题的能力。 ? 知识准备 线性回归分析问题线性回归分析一般解决以下问题:第一,确定因变量与若干 自变量之间的定量表达式,通常称为回归方程式,并确定它 们联系的密切程度;第二,通过控制可控变量的数值,利用 求出的回归方程式来预测或控制因变量的取值和精度;第三, 进行自变量分析,找出影响因素最为显著的,以区别重要因 素和次要因素。 回归分析主要研究变量之间的线性相关关系时,称为线性回 归分析,否则称为非线性回归分析。又按照自变量多少分为 一元线性回归和多元线性回归。 ? 知识准备 简单线性回归分析的理论模型y ? ? 0 ? ?1 x ? ?其理论假设为:? E (? i ) ? 0 ? 2 ? var(? i ) ? ? ? cov(? , ? ) ? 0, i ? j i j ?简单线性回归的主要任务是根据样本数据求出未知参数 ? 0 和 ? 和 ? ?1 的 ? ,从而得到估计的回归方程: 估计值 ? 0 1 ? 知识准备 SPSS线性回归分析的数据要求线性回归过程中包括一元、多元线性回归、多元逐步回归。 可以给出所求回归方程的回归系数估计值(即回归系数参数 估计和区间估计)、协方差矩阵、复相关系数R、方差分析 表、因变量的最佳预测值等,还可以输出变量值的散点图等 图形。 线性回归过程对数据的要求是:自变量和因变量必须是具有 刻度级测度的数值型变量;标志或分类变量,必须记录为二 元的哑变量(虚拟变量)或者其他类型的对立变量。 对于因变量的所有观察值(样本)应该认为是来自于相互独 立的等方差的正态总体(i.i.d),并且因变量与各个自变 量之间应具有一定的线性关系。 ?简单线性回归分析中的统计检验和残差分析 拟合优度检验定线性回归直线拟合优度的检验统计为:R2 ? ?(y ? ?(yi i? y) 2 ? y) 22式中, ? ( y ? y)i?i ? y) =SSR, =SST,称为总平方和, ?( y ? i ? yi ) 2 称为回归平方和,SSE=SST-SSR= ?( y ,称为残差平 方和。 R 2 称为判定系数或拟合效度等。2 ?简单线性回归分析中的统计检验和残差分析 F检验回归方程显著性检验的统计量为F统计量:R2 / p F? ? ~ F ( p, n ? p ? 1) 2 2 ? ( y ? y ) /( n ? p ? 1 ) ( 1 ? R ) /( n ? p ? 1 ) ? i ii? ?(y? y) 2 / p式中,p为自变量个数,n为样本观测个数。对于一元线性回 归方程,p=1。同时注意到 R 2 ? F ,即拟合优度越好,F 值越大,越有可能是显著的,方程成立可能性越大。说明R 方是直观地体现出拟合效果,而F是统计量定量说明这个效 果是否显著,一般两者配套使用。 ?简单线性回归分析中的统计检验和残差分析 DW检验在回归模型的诊断中,有一个非常重要的回归模型假设需要 诊断,那就是回归模型中的误差项的独立性。如果误差项不 独立,那么对回归模型的任何估计与假设所作出的结论都是 不可靠的。其参数称为DW。取值范围是0<DW<4,统计学意 义如下:当残差与自变量互为独立时,DW≈2;当相邻两点 的残差为正相关时,DW<2;当相邻两点的残差为负相关时, DW>2。 ?简单线性回归分析中的统计检验和残差分析 残差分析所谓残差就是指回归方程计算得到的预测值与实际值之间的 误差: e ? y ? y ?i i i它是回归模型中的 ? i 估计值,有多个 e i 形成的序列称为残 差序列。可通过残差序列分析来证实模型假设。常以预测值 ? i为横轴,以误差 e i 为纵轴(或学生化残差),绘制残差 y 的散点图。如果散点图呈现明显的规律性,则认为存在自相 关性,或者存在非线性、非常数方差的问题。利用残差图还 可以判断模型的拟合效果。在残差图中,如果各点呈随机状, ? ? 96%的点落 并绝大部分落在范围 ( 内, ?68% 2? 的点落在 在 之中),说明模型对于数据的拟合效果较好。 ? 2? ? 知识准备 简单线性回归分析的基本步骤1样本数据绘制散点图回归分析之前,需要对样本资料是否满足要求进行判断。可以先 使用相关分析法确定自变量与因变量之间的相关系数,或者运用 散点图(Scatter)功能,产生直观的散点图,观察自变量与因变 量之间关系,以及奇异值等情况。如果图中发现有明显远离主体 的观测值,则称之为异常点(Outlier),这些点很可能对正确 评价两变量之间关系有较大影响。 ? 知识准备 简单线性回归分析的基本步骤2观察数据的分布分析因变量的正态性、方差齐性,确定是否可以进行线性回归分 析。模型拟合完毕,通过残差分析结果来考察模型是否可靠。如 果变量进行了变换,则应重新绘制散点图并观察数据分布。 ? 知识准备 简单线性回归分析的基本步骤 3估计参数,建立回归预测模型利用检验统计量对回归预测模型进行显著性检验,得到拟合回归 直线。 ? 知识准备 简单线性回归分析的基本步骤 4残差分析考察数据是否符合模型假设条件,主要包括以下两个方面。首先 残差是否独立?实际上就是考察因变量取值是否相互独立,采用 Durbin-Watson,DW残差序列相关性进行分析,其取值范围为:0 <DW<4。统计意义为:若DW≈2,表明相邻两点的残差项相互独 立;若0<DW<2,表明相邻两点的残差项正相关;若2<DW<4, 表明相邻两点的残差项负相关。其次,考察残差分布是否为正态? 实际上就是考察因变量趋势是否服从正太分布,可以采用残差列 表及相关指标法进行分析,直方图是图示法观察用的。 ? 知识准备简单线性回归分析的基本步骤 5利用回归模型进行预测,分析评价预测值线性回归用于预测时,其适用范围一般不应超出样本中自变量的 取值范围,此时求得的预测值成为内插(Interpolation),而超 出自变量取值范围所得到的预测值成为外延(Extrapolation)。 若无充分理由说明现有自变量范围以外的两变量间仍然是线性关 系,则应尽量避免不合理的外延。同时线性模型的预测效果不及 非线性模型,所以一般不用线性模型来开展预测功能。 ?相关分析与回归分析关系 概念关系相关分析与回归分析有密切的关系,它们都是研究变量之间 线性关系的统计分析方法。但是两者又有区别。相关分析中 的变量视为随机变量,仅研究变量之间是否存在线性关系; 而回归分析中研究的变量分为因变量和自变量,因变量是随 机变量,又成为被解释变量,自变量又称为解释变量,是可 以加以控制的变量。 ?相关分析与回归分析关系虽然因果分析研究一个变量对另一个(些)变量的依赖关 系,但它并不一定意味着因果关系。用Kendall和Stuart的 话说:“一个统计关系式,不管多强也不管多么有启发性, 却永远不能确定因果方面的联系:对因果关系的理念,必 须来自统计学以外,最终来自这种或那种理论”。 实验三 简单线性回归分析? 实验内容? 下表给出年之间的美国制造业的每百名雇员的辞退率与失业率。试分析辞退率Y和失业率X的线 性关系。 实验三 协方差分析? 实验步骤(1)进入线性回归分析的对话框。选择“分析-回归-线性” 命令。弹出回归分析对话框。 ?回归分析对话框 (2)选择分析变量。将“辞退率”送入因变量分析框;将“失业率” 送入自变量分析框。 (3)在方法[M]框中回归分析方法。 ?进入法(Enter):所选择的自变量全 部进入回归模型,该选项是默认方式。 ?逐步回归法(Stepwise): 它是向前 选择法与向后剔除法的结合。根据在 选项[O]对话框中设定,首先根据方 差结果选择符合要求的自变量且对因 变量贡献最大的进入方程。然后根据 向后剔除法,将模型中F值最小的且 符合剔除要求的变量剔除出模型,重 复进行,直到回归方程中的自变量均 符合进入模型,模型外的自变量都不 符合进入模型要求为止。 ?消去法(Remove): 建立回归方程时, 根据设定的要求剔除部分自变量。?后向剔除法(Backward):先建立全 模型,根据在选项[O]对话框中设定, 每次剔除一个最不符合要求的变量, 直到回归模型中不再含有不符合要求 的自变量为止。?向前选择法(Forward):从模型中无 自变量开始,根据在选项[O]对话框 中设定,每次将一个最符合的变量进 入模型,直止所有符合要求的变量都 进入模型为止。第一个进入模型的变 量应该与因变量间的相关系数绝对值 最大。如果指定的依据是F值,每次 将方差分析的F值最大的进入模型。 (4)选择分析统计量。 单击统计量[S]按钮,弹出 对话框,如图所示。 回归系数: ?估计(E)选项:输出回归系 数、的标准误、标准化回归 系数beta、对回归系数进行 检验的t值、t值的双侧检验 的显著性水平sig。?置信区间(Confidence intervals)选项:显示每个 回归系数或协方差矩阵指定 置信度的置信区间。 ?协方差矩阵(Convariance matrix)选项:输出非标准 化回归系数的协方差矩阵、 各变量的相关系数矩阵。 与模型拟合及其拟合效果有 关的选择项 ?模型拟合度(Model fit) 选项:输出复相关系数R、复 相关系数R2及其修正值、估 计值的标准误、ANOVA方差分 析表、引入模型和从模型中 剔除的变量。这是系统默认 选择项。 ?R方变化(R squared chang) 选项:由于添加或删除自变 量而产生的R2统计量的变化。 如果较大,说明进入和从方 程中剔除的变量有可能是一 个较好的回归变量。 与模型拟合及其拟合效果有关的选 择项 ?部分相关和偏相关性(Part and partial correlation)选项:输出 部分相关系数(表明当一个自变量 进入回归方程后,R2增加了多少)、 偏相关系数(表示排除了其他自变 量对因变量的影响后,与因变量的 相关程度)、零阶相关系数(变量 之间的简单相关系数)。 ?共线性诊断(Collinearity diagnostics)选项:共线性(或多 重共线性)指一个自变量是其他自 变量的线性函数。输出用来诊断各 变量共线性问题的各种统计量和容 限值。 有关残差(Residuals)分析的选 择项 ?Durbin-Watson选项:输出DurbinWatson统计量以及可能是奇异值的 观察量诊断表。 ?个案诊断(Case diagnostics) 选项:输出观测量诊断表。 ?离群值(Outliers and standard deviation)选项,设置奇异值的判 据,默认值为≥3。所有观测量选 项,输出所有观察量的残差值。 ?离群值(Outliers and standard deviation)选项,设置奇异值的判 据,默认值为≥3。所有观测量选 项,输出所有观察量的残差值。 (5)选择分析(O)选项 ,如图 所示。 步进方法标准:设置变量进入模型或 从模型中剔除的判据。 ?使用F的概率选项:以F检验的概率 作为变量进入模型或从模型中剔除的 判据。系统默认值为0.05。当一个变 量的sig值≤0.05时,该变量进入回 归方程;当一个变量的sig值≥0.10 时,该变量从回归方程中删除。可以 在其后的编辑框中输入自定义值,但 是进入值要小于删除值。?使用F值选项::以F值作为变量进 入模型或从模型中剔除的判据。系统 默认进入F值≥3.84,F值≤2.71时从 模型中删除该变量。 步进方法标准:设置变量进入模型或 从模型中剔除的判据。 ?使用F的概率选项:以F检验的概率 作为变量进入模型或从模型中剔除的 判据。系统默认值为0.05。当一个变 量的sig值≤0.05时,该变量进入回 归方程;当一个变量的sig值≥0.10 时,该变量从回归方程中删除。可以 在其后的编辑框中输入自定义值,但 是进入值要小于删除值。?使用F值选项::以F值作为变量进 入模型或从模型中剔除的判据。系统 默认进入F值≥3.84,F值≤2.71时从 模型中删除该变量。 在等式中包含常量(Include constant in equation)选项:在回 归方程中包含常数项,这是默认选择 项。 本例选择SPSS系统默认。单击“继续” 按钮 (6)选择绘制(T)选项 ,弹出绘制对话框 。图可以帮助检验 数据的正态性、线性和方差相等的假设。还可以帮助识别离群值、 异常观察值和有影响的观测量等非常正数据。 散点图。可以绘制以下各项中的任意两种:DEPENDNT(因变量)、 *ZPRED(标准化预测值)、*ZRESID(标准化残差)、*DRESID(剔除残 差)、*ADJPRED(调整的预测值)、*SRESID(学生化的残差)、 *SDRESID(学生化的已删除残差)。针对标准化预测值绘制标准化 残差,以检查线性关系和等方差性。 ?产生所有部分图(P)选项:输出每一个自变量的残差相对于因变量 残差的散点图。要生成部分图,方程中必须至少有两个自变量。 ?标准化残差图选项:可以获取直方图,输出带有正态曲线的标准化 残差的直方图;标准化残差的正态概率图(R),即P-P图,检查残差 的正态性。 (7)单击保存(S)选项 弹出保存变量对话框,见图所示。 预测值(Predicted Values)选项 回归模型对每个个案预测值。 ?未标准化(U):非标准化,模 型为因变量预测的值。 ?标准化(R):每个预测值转换 为其标准化形式。 ?调节(J):当某观测量从回归 系数的计算中排除时,观测量的 预测值。 ?均值预测值的S.E.:预测值的标准 误,对于自变量具有相同值的观测量 所对应的因变量的均值的标准差的估 计。 残差 ?未标准化(N):未标准化残差,因 变量的实际值与模型预测值之间的差。 ?标准化(A):标准化残差,残差除 以其标注差的估计。标准化残差也称 为Pearson残差,它的均值为0,标准 差为1。 ?学生化(S):学生化残差,残差除 以其随观测量变化的标准差的估计, 这取决于每个观测量的自变量值与自 变量均值之间的距离。 ?删除(L):剔除残差,当某个观测 量从回归系数的计算中排除时,该观 测量的残差,是因变量的值和经调整 的预测值之差。 ?学生化已删除(E):学生化剔除差, 一个观测量的剔除残差除以其标准误。 距离 ?Mahalanobis距离(H):马哈拉诺 比斯距离,简称为马氏距离,是一个 测量自变量观测值中有多少观测值与 所有观测值均值不同的测度,把马氏 距离数值大的观测值视为极端值。 ?Cook距离(K):库克距离,如果一 个特殊的观察值被排除在回归系数的 计算之外时,库克距离用于测量所有 观测量的残差将会有多大的变化。当 将库克距离数值大的观测量排除在回 归分析的计算时,会导致回归系数发 生根本变化。 ?杠杆值(G):用于度量某个点对回 归拟合的影响。集中的杠杆值范围为 从0(对拟合无影响)到(N-1)/N。 预测区间(Prediction Intervals) ?均值(M):均值预测区间的上下限。 ?单值(I):因变量的单个观测量的预 测区间。 ?置信区间(C):预测区间的置信概率, 在小框中输入1~99.99之间的值。 预测区间(Prediction Intervals) ?标准化DiFit(T):标准化的DiFit值。 如果此值大于其临界值的绝对值,则 可以认定此观测量为影响点。 ?协方差比率(V):剔除一个影响点 的协方差矩阵与全部观测量的协方差 矩阵的比率。如果比率接近于1,则 说明被排除的观测量不能显著改变协 方差矩阵。 系数统计 ?将回归系数保存到数据集或数据文 件。可以在同一会话中继续使用数据 集,但不会将其另存为文件,除非在 会话结束前,将其保存为文件。数据 集名称必须符合变量名命名规则。将模型信息输出到XML文件 ?将参数估计值及其协方差导出到指 定的XML格式的文件。 ?这里不保存任何值,然后单击“继 续”命令返回 ? 实验结果模型汇总 方差分析表 模型系数表 实验四 多元线性回归分析? 实验目的? 准确理解简单线性回归分析的方法原理; ? 熟练掌握简单线性回归分析的SPSS操作与分析; ? 了解相关性与回归分析之间关系; ? 培养运用简单线性回归分析解决实际问题的能力。 ? 知识准备 多元线性回归分析基本原理(1)多元线性回归模型是指含有多个自变量的线性回归模 型,用于解释因变量与其它多个自变量之间的线性关系。 线性回归的一般数学模式是:Yi ? ? 0 ? ?1 xi1 ? ... ? ? p xip ? ? i , i ? 1,2,...,n式中因变量Y的变化由两个部分来解释:一是由P个自变量x 的变化引起的Y变化部分;二是由其他随机因素 ? 引起的Y 的变化部分。 ? 知识准备 多元线性回归分析基本原理(2)SPSS线性回归分析过程作了n次观测,得到观测值为:xi1 , xi 2 ,...,xip , yi , i ? 1,2,...,n其中, xi1 , xi 2 ,..., xip分别为第i次观测时自变量 的取值; y 为因变量Y的观测值。ix1 , x2 ,...,x p ? 知识准备 多元线性回归分析基本原理(3)回归分析需要对模型中的未知参数 ? 0 , ?1 ,...,? p 作出 估计,分别称为回归常数和偏回归系数。偏回归系数表示假 设在其他所有自变量不变的情况下,某一个自变量变化引起 的因变量变化的比率。 对建立的回归方程进行回归系数显著性检验,即检验假 设 H 0 : ?i ? 0, i ? 1,2,..., p 。即第i个偏回归系数与0无显著差异。 检验的显著性统计量为t统计量。 ? 知识准备 多元线性回归分析基本原理(4)多元线性回归方程显著性检验的零假设为: H 0 : ?1 ? ? 2 ? ... ? ? p ? 0, i ? 1,2,..., p,检验的统计量为F统计量,如 果检验拒绝H。,则认为回归方程有效。与一元回归方程相同, 在多元回归中也使用判定系数 来解释回归模型中自变 R2 量的变异在因变量变异中所占的比率,此时反映的是Y的变 异由自变量联合解释的比例,因此,称为 复判定系数 R2 (Multiple coefficient of determination)。 ? 知识准备 多元线性回归分析基本原理(4)多元线性回归方程显著性检验的零假设为: 同时,复判定系数的值随着进入回归方程的自变量个数P (或样本容量的大小)的增加而增大。因此,为了消除自变 量个数以及样本量的大小对判定系数的影响,引入了经调整 的判定系数(Adjusted R Square)。调整的判定系数的公 式是: ? i ? y ) 2 /(n ? p ? 1) ? ) 2 /(n ? p ? 1) (y (y ? y ? ? 2 ? 1? Adjusted R ? 2 2?(yi? y ) /(n ? 1)? ( y ? y)/(n ? 1)其中p为自变量的个数,n为观测量的数目。可以看出,自变 量个数大于1时,其值小于判定系数。自变量个数越多,与 判定系数的差值越大。 ?多元线性回归分析基本步骤1 2根据研究问题,确定因变量与自变 量,并初步设定多元线性回归方程估计方程参数,确定估计多元线性 回归方程。3 4利用统计量对回归预测模型进行各 项显著性检验。检验通过后,可以利用回归模型进 行预测,分析评价预测值。 实验三 简单线性回归分析? 实验内容? 本例使用6-4数据文件,建立一个以“初始工资”、“工作经验”、“受教育年限”等为自变量,“当前 工资”为因变量的回归模型。 ?员工工资与工作经验 ?实验步骤1.散点图 直观地观察自变量与因变量之间关系是否有线性特点。 (1)按“图形”→“散点”→“简单分布”顺序展开,如图所 示的对话框。单击”定义”出现图6-4-2简单散点图对话框。 1.散点图 单击”定义”出现图简单散点图对 话框。 (2)将变量“初始工资”、“当 前工资”依次放入Y轴与X轴,单击 “确定”按钮。 结果如下图:
生成图形见图6-4-3 ,根据同样操作方法,以“当前工资”为Y轴,分别以 其他几个自变量为X的散点图。 回归模型操作 (1) 按“分析”→“回归”→“线性”顺序展开,选择“当前工资” 作为因变量进入因变量(D)框中。选择“初始工资”、“工作经 验”、“工作时间”、“受教育年限”变量作为自变量进入自变量 (I)框中。在方法(M)框中选择逐步回归法作为分析方式。见图线性 回归主对话框。 回归模型操作 (2)单击统计量(S)按钮,打开 如图6-4-5对话框。在回归系 数一栏中选择估计(E)、模型 拟合度(M)、共线性诊断(L); 在残差一栏中选择DurbinWatson(U)、个案诊断中的离 群值(O)参数框中键入3,表示 设置观察量标准差大于等于3, 为奇异值。单击“继续”按钮, 返回主对话框。 回归模型操作 (3)单击保存按钮,打开图对话 框。选择距离一栏中的 Mahalanobis距离(H)、Cook距 离(K)、杠杆值(G);选择影响 统计量一栏中的标准化 DfBeta(Z)、标准化DfFit(T)、 协方差比率(V),用来确定影 响点,单击继续按钮,返回主 对话框。 回归模型操作 (4)为了从图形上检查模型的线性和方差齐性等,做散点图。单击绘 制(T)按钮,打开绘图对话框,将变量ZPRED与ZRESID分别放入X 、Y 框中;标准化残差图中选择直方图(H)、正态概率图(R)。单击“继 续”按钮,返回主对话框。 回归模型操作 (5)在主对话框中,单击选项(O) 按钮,选择在等式中包含常量 (I)。单击继续按钮,返回主 对话框。 (6)提交系统执行结果。 ? 实验结果回归方程 拟合过程模型汇总 方差分析 回归系数分析 已排除的变量 共线性诊断 案例奇异值诊断 残差统计量 残差分布直方图 观测量累计概率图 当前工资的预测值与其学生化残差散点图 实验五 曲线估计? 实验目的? 准确理解曲线回归的方法原理; ? 熟练掌握曲线估计的SPSS操作与分析; ? 掌握根据11种曲线模型,选择建立简单又适合的模型; ? 掌握利用曲线回归方程进行预测。 ? 知识准备 非线性模型的基本内容曲线估计问题,即曲线拟合问题。现实中,变量之间的关系 往往不是简单的线性关系,而是呈现某种曲线或非线性关系。 此时,选择适当的曲线拟合可以更加准确地反映实际情况。 变量之间的非线性关系可以划分为本质线性关系和本质非线 性关系。所谓本质线性关系是指变量形式上虽表现为非线性 关系,但可以通过变量转化方式变换为线性关系,并可最终 进行线性回归分析,建立线性模型。本质非线性关系是指变 量之间不仅形式上为非线性关系,而且也无法通过转化为线 性关系。 PSS的曲线估计(Curve Estimation)就是用来解决这类问 题的。它提供了包括线性回归在内的11种不同的曲线估计回 归模型。 ?拟合模型 ?曲线估计的基本步骤1 2根据数据资料绘制散点图,应用必 要的专业知识和经验,大致选定曲 线类型。 选择多个曲线回归预测模型,估计 参数。3 4利用输出的统计量对回归预测模型 进行各项显著性检验。选择一种最合适的曲线模型,并进 行预测和分析评价。 实验五 曲线估计? 实验内容? 某公司有一种新产品上市,选择8个地区做试销活动。收集了试销广告投入与销量的数据(数据文件6-5), 结果见表。问广告投入与销量之间的关系? ?实验步骤(1)绘制散点图。选择“图形-散点-简单分布-定义”命令, “销售”变量放入Y轴,“广告投入”放入X轴,按“确定”按钮 得到散点图,见图所示。从图中看出二者的斜率有逐渐减缓的曲 线趋势,因此,选用二次曲线模型、三次曲线模型和对数曲线模 型。 (2)选择“分析-回归-曲线估计”命令,显示曲线估计对话框, 如图所示。将“销售”放入因变量框(D),将“广告投入”放 入变量框。如果自变量是时间变量或观测量序号ID,可以选择时 间,这时曲线估计产生一个时间变量,观测量之间的时间长度视 为均匀的。 (3)选择分析变量。 ?在等式中包含常量(D):估计回归方程式中的常数项 ?根据模型绘图(O):对照自变量绘制因变量的值,每个模型产 生一个单独的曲线。 ?模型:11种常用曲线。此处选中二次项、对数、立方等选项,线 性选项是默认的。 ?显示ANOVA表格(Y):为每个选定的模式输出方差分析表。 (4)保存(A)。如图所示。 ?保存变量:对于每个选定的模型, 可以保存预测值、残差和预测区间。 此处三个都选中。 ?预测个案:在数据集中,如果选择 时间而不是变量作为自变量,则可 以指定超出时间序列结尾的预测期。 可以选择以下选项之一。 ?从估计期到最后一个个案的预 测(L):在估计期内的观测量 的基础上预测文件中所有观测 量的值。 ?预测范围(T):根据估计期的观 测量,预测指定日期、时间或观测 号范围内的值。此功能用于预测超 出时间序列中最后一个观测量的值。 ?实验结果线性模型 对数模型 二次曲线模型 三次曲线 不同图形的拟合结果 ?数据文件中的新变量保存情况 实验六 二项logistic回归分析? 实验目的? 准确理解二项logistic回归分析的方法原理; ? 熟练掌握二项logistic回归分析的SPSS操作; ? 明确了解二项logistic回归方程参数的意义及其解释; ? 能运用二项logistic回归分析解决实际问题。 ? 知识准备 logistic回归介绍一般的回归模型中,应变量为刻度变量,并且理论上要求其 服从正态分布等LINE(线性、独立、正态、等方差)假定条件。 logistic回归与它们的主要区别在于:因变量的类型不同。 通过一组解释变量或自变量,采用logistic回归,可以预测 一个分类变量每一分类发生的概率。解释变量可以使刻度变 量或分类变量或两者的混合。如果解释变量均为刻度数据, 则可以采用判别分析等方法进行分析。通常情况下, logistic回归对预测变量的假定条件较少,所以logistic回 归更为常用。 ? 知识准备 logistic回归介绍分类变量可以分为有序变量(序次级)和无序变量(名义 级)。后者分为二项分类变量和无序多项分类变量两种情况。 如候选人是否会当选(二项分类)?消费者对某个产品使用 满意程度分为很满意、一般、不满意,结果变量满意程度为 有序分类变量;不同人群将会选择不同品牌(联想、苹果、 戴尔等)的电脑,这里的结果变量电脑品牌为无序多项分类 变量。 ? 知识准备 二项logistic回归模型令因变量Y服从二项分布,其二项分类的取值分别为0,1, Y=1的总体概率为?(Y=1 ),则K个自变量分别为X1, X2,?,XK所对应的logistic回归模型为 :? ?Y ? 1? ?exp(? 0 ? ?1 X 1 ? ? 2 X 2 ? ? ? ? k X k ) (6-6-1) 1 ? exp(? 0 ? ?1 X 1 ? ? 2 X 2 ? ? ? ? k X k )或? ? (Y ? 1) ? logit?? (Y ? 1)? ? ln ? ? ? ? 0 ? ?1 X 1 ? ? 2 X 2 ? ? ? ? K X K(6-6-2) ?1 ? ? (Y ? 1) ? ? 知识准备 二项logistic回归模型公式(6-6-1)与公式(6-6-2)可以互相推导。公式(6-61)通常被称为logistic回归预测模型,将某一个个体的自 变量Xj值(x1,x2,?xk)代入公式(6-6-1),在求得回归 系数估计值的情况下,可以得到该个体概率?(Y=1 )的预 测值(或称估计值,),即?? p exp(? 0 ? ?1 x1 ? ? 2 x2 ? ? ? ? k xk ) (6-6-3) 1 ? exp(? 0 ? ?1 x1 ? ? 2 x2 ? ? ? ? k xk )logistic回归模型实际上是对概率?(Y=1 )进行了logit变 换后的线性回归模型,所以通常也称logistic回归模型为 logit模型。通过logit变换,使0~1范围取值的?(Y=1 ), 变成了-∞~+∞范围取值的logit值。 ? 知识准备 二项logistic回归方程参数的意义及其解释在一般线性回归模型中,通过普通最小二乘法求解回归系数。 在二项分类logistic回归模型中,通过最大似然估计法求解 回归参数。为了理解二项分类logistic回归模型参数的意义, 需要先理解优势(Odds)与优势比(Odds Rations)的概念。 一个事件的优势被定义为它发生的可能性与不发生的可能性 之比。例如,抛一枚硬币后,其正面向上的优势为 0.5/0.5=1;从52张桥牌中抽出一张A的优势为(4/52)/ (48/52)=1/12。这里不要把优势的含义与概率混淆,其概 率值为4/52=1/13,两者的关系可以用简单的公式来表示。 如果事件概率为(二项分类变量的非事件概率为1-)表示, 优势用表示,则有优势 ? ? ? 事件概率 ? p O (6-6-4) ? 非事件概率 1 ? p ? 知识准备 二项logistic回归方程参数的意义及其解释由公式(5-6-2)和公式(5-6-4)可得:? p ? ?) ? b ? b X ? b X ??? b X logit ( p) ? ln ? ? ln(O 0 1 1 2 2 K K ? (6-6-5) ?1 ? p ?根据公式(6-6-5),回归系数bj(j=1,2,?,K)表示在其他 自变量固定不变的情况下,某一个自变量Xj改变一个单位, 或对数优势的平均改变量。在实际应用中,logistic回归不 是直接用回归系数来解释,而是解释优势比。优势比被用来 作为衡量效应大小的指标,度量某自变量对因变量优势影响 程度的大小。某一个自变量Xj对应的优势比为OR j ? exp(b j )?(6-6-6) ? 知识准备 二项logistic回归方程参数的意义及其解释将公式(5-6-5)等号两边同时取以自然对数e为底的指数, 有 优势 ? O ? ? exp( b0 ? b1 X 1 ? b2 X 2 ? ? ? bK X K ) (6-6-7) 优势比的含义是在其他自变量固定不变的情况下,某一自变 量Xj改变一个单位,因变量对应的优势比平均改变exp(bj) 个单位。如X1从一个任意实数α变为α+1,则OR1 ??所以,当一个自变量的系数为正值,它意味着优势比将会增 加,此值会大于1;当系数为0时,此值等于1.如果系数为负 值,它意味着优势比将会减少,此值将会小于1。? exp(b0 ? b1 ? (? ? 1) ? b2 X 2 ? ? ? bK X K ) O 2 ? ? exp(b1 ) ? (6-6-8) exp( b ? b ? ? ? b X ? ? ? b X ) O 0 1 2 2 K K 1 ?单因素方差分析基本步骤回归系数的显著性检验 1对于较大样本的系数的检验,使用基于卡方分布的Wald统计量。 Wald统计量也有弱点,当回归系数的绝对值开始变大时,其标准误 的值将发生更大的改变,这样Wald统计量的值开始变得很小,将导 致拒绝回归系数的零假设,即认为变量的回归系数为零。因此,当 变量的系数很大时,就不要依据Wald统计量,应建立两个包含与不 包含药检测的变量的模型,利用对数似然比的变化值进行建设检验 ,可以选择Backward LR方式作为变量的选择方法。 ?单一样本t检验基本原理和步骤2 评价包含所有变量模型的拟合度 。判别模型与样本之间的“想象度”是判别模型好坏的方法之一。在SPSS的 “Model summary”输出结果中,给出了Cox and Snell决定系数和 Nagelkerke决定系数。Cox and Snell决定系数的缺点是最大值小于1,使 得解释变得困难。Nagelkerke决定系数修改了Cox and Snell决定系数, 使的取值在0~1。这里给出的决定系数不像一般回归模型,它不是真正意 义上的决定系数,而是伪决定系数(Pseudo-R-Square),解释时只能作为 模型拟合优度的参考。 ?单一样本t检验基本原理和步骤模型判别与模型校对 。3经常用来检查模型判别能力的指标为C统计量,其取值范围从0.5~1。0.5 表示模型对观测量的判别作用非常弱,1表示模型可以很好地去识别观测 量的类别。在SPSS的逻辑回归过程中,为了计算C统计量,必须要保存预 测概率,再利用ROC功能进行计算。 实验六 二项logistic回归分析? 实验内容? 为了分析孕妇顺产有否(1=顺产,0=其他)的影响因素,研究者收集了1402名产妇的相关信息:年龄、 身高、体重、职业(1=工人、农民等体力者,2=管 理者与知识分子等脑力人员,3=商人,4=其他)和 文化程度(0=文盲,1=小学,2=中学,3=大学)等 指标。数据编号为6-6。 ?数据文件 ?实验步骤(1)选择Logistic回归分析对话框。依次单击“分析-回归分 析-二元Logistic回归”命令,打开“Logistic回归”对话框, 如图所示。 (2)选择变量。在变量列框中选择“顺产”变量后,单击进入按 钮到因变量(D)框中;然后选择“年龄”“身高”“体 重”“职业”“文化程度”变量,单击进入按钮,将它们移到协 变量(C)框中。如图所示。 (3)方法(M)选择。在上图中单击方法(M)下拉菜单项,可以 选择自变量进入模型的多种方法: 进入(Enter)选项:全部进入模型。 ?向前:条件(Forward: conditional)选项:将变量剔除出模 型的依据是,条件参数估计的似然比统计量的概率值。 ?向前:LR(Forward:LR)选项:将变量剔除出模型的依据是, 最大偏似然估计所得的似然比统计量的概率值。 ?向前:Wald(Forward: Wald)选项:将变量剔除出模型的依 据是Wald统计量的概率值。 ?向后:条件(Backward: conditional)选项:将变量剔除出 模型的依据是,条件参数估计的似然比统计量的概率值。 ?向后:LR(Backward:LR)选项:将变量剔除出模型的依据是, 最大偏似然估计所得的似然比统计量的概率值。 ?向后:Wald(Backward: Wald)选项:将变量剔除出模型依据 是Wald统计量的概率值。 还可以将一个变量选入“选择变量”(B)框,根据该变量的值, 通过右侧的“规则”按钮,设置一个选择条件,而只对部分数 据进行分析。 (4)在图6-6-3 变量选择对话框单击分类(G)按钮,弹出定义 分类变量对话框,见图。选择职业变量进入右框。当变量不是连 续型变量时,而是分类变量时,采用此对话框,计算机可以自动 对这类变量进行变量类型化。单击继续按钮,回到图6-6-3 变量 选择对话框状态。 (5)保存(S)命令设置。单击保存按 钮,弹出如图保存对话框。在logistic回归分析中,有很多重要信 息可以通过该对话框保留下来,如预测 值、影响点的分析等。本案例选择概率、 组成员、标准化等选项。 (6)选项(O)设置。单击“选 项”按钮,弹出如图选项对话框。 选择分类图(C)、HosmerLemeshow拟合度(H)、个案的残 差列表(W)、exp(B)的CI(X) 等选项。 ? 实验结果分类变量编码 分类表 方程中的变量 单因变量分析结果 模型系数的全局性检验结果 模型摘要 Hosmer- Lemeshow 检验结果 最终观测量分类表 各变量的相关统计量
SPSS多元线性回归分析教程 9页 免费 SPSS多元回归分析...SPSS实验6-回归分析 统计专业实验SPSS的实验报告论文...分析:被解释变量和解释变量的复相关系数为 0.990,...应用回归分析,第5章课后习题参考答案_理学_高等教育...由定性分析知,所有自变 量都与 y 有较强的相关...解:后退法SPSS输出结果: Coefficients a Unstandard...spss教程第三章--相关分析与回归模型的建立与分析_数学_自然科学_专业资料。第三章 相关分析与回归模型的建立与分析相关分析和回归分析是统计分析方法中最重要内容之...、 《应用回归分析》部分课后习题答案 第一章 回归分析概述 1.1 变量间统计...10 第三章 多元线性回归 3.11 解: (1)用 SPSS 算出 y,x1,x2,x3 相关...统计分析与SPSS的应用学生复习题_经济学_高等教育_教育...常用的相关分析方 法:二元定距变量的相关分析、二元...6、 在线性回归分析中, SST 称为离差平方和, ...第八章 回归分析-SPSS_教育学/心理学_人文社科_专业资料。SPSS 统计分析
第六章 回归分析 一、基本概念 变量之间的联系可以分为两类: 1.一类是确...SPSS系列资料 多元回归分析在大多数的实际问题中,...回归方程的显著性检验: 从表 6-8 方差分析表中得知...作出预报,在统计预报中是一种应用较为普遍的方法。...SPSS17.0在生物统计学中的应用-实验五、方差分析 六、简单相关与回归分析_生物学_自然科学_专业资料。SPSS在生物统计学中的应用――实验指导手册 SPSS在生物统计...实验7 相关与回归分析 7.1 实验目的熟练掌握一元线性回归分析的 SPSS 应用技能...SPSS统计分析-第7章 回... 74页 1下载券
SPSS 16实用教程 第7章 ... ...SPSS 的多元回归分析模型选取的应用数学与统计学院 ...6 第三章 非线性回归模型案例:淘宝交易额模型的...11 3.2 调整后的变量的相关分析 ......
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 spss p值检验 的文章

 

随机推荐