SPSS的联合几项指标做logistics回归spss分析,其中两项P>0.05方程有意义吗?

二分类logistic回归,更新几个常见问题的解决方法二分类logistic回归,更新几个常见问题的解决方法淡定人生百家号医咖会之前推送过二分类logistic回归的SPSS教程,不过有些问题未详细阐述,例如,如何验证:连续自变量与因变量的logit转换值之间存在线性关系;自变量之间无多重共线性等。经常有伙伴问到这些问题,为此,我们对二分类logistic回归的教程做了更新,希望能对大家有所帮助。一、问题与数据某研究者想了解年龄、体重、性别和最大摄氧量(VO2max)预测患心脏病的能力,招募了100例研究对象完成最大摄氧量试验,登记年龄(age)、体重(weight)和性别(gender),并评估研究对象目前是否患有心脏病(heart_disease)。二、对问题的分析使用二分类Logistic模型前,需判断是否满足以下7项假设。假设1:因变量(结局)是二分类变量。假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。假设5:连续的自变量与因变量的logit转换值之间存在线性关系。假设6:自变量之间无多重共线性。假设7:没有明显的离群点、杠杆点和强影响点。假设1-4取决于研究设计和数据类型,本研究数据满足假设1-4。那么应该如何检验假设5-7,并进行Logistics回归呢?三、SPSS操作检验假设5:连续的自变量与因变量的logit转换值之间存在线性关系连续的自变量与因变量的logit转换值之间是否存在线性关系,可以通过多种方法检验。这里主要介绍Box-Tidwell方法,即将连续自变量与其自然对数值的交互项纳入回归方程。本研究中,连续的自变量包括年龄(age)、体重(weight)、最大摄氧量(VO2max)。使用Box-Tidwell方法时,需要先计算age、weight和VO2max的自然对数值,并命名为ln_age、ln_weight、ln_VO2max。(1)计算连续自变量的自然对数值以age为例,计算age的自然对数值ln_age的SPSS操作如下。在主界面点击 Transform→Compute Variable,出现Compute Variable对话框中。在Target Variable框中输入即将生成自然对数值的变量名称(如输入ln_age表示age的自然对数值)。选择Function group菜单下的Arithmetic,选择Functions and special variables菜单下的Ln,双击Ln将该公式选入Numeric Expression框中,最后双击age将该变量选入“LN”公式中。点击OK生成新变量ln_age(即age的自然对数值)。此时新变量会同时出现在Variable View和Data View窗口中。在Data View窗口中,新生成的ln_age变量如下图。重复以上过程,将本研究中的所有连续自变量的自然对数值全部生成。在Data View中,新生成的ln_age,ln_weight,ln_VO2max变量如下图。(2) Box-Tidwell法Box-Tidwell法检验连续的自变量与因变量的logit转换值之间是否存在线性关系的SPSS操作如下。在主界面中点击 Analyze→Regression→Binary Logistic。在LogisticRegression对话框中将变量heart_disease选入Dependent框中,将变量age、weight、gender和VO2max选入Covariates框中。Methods选项选择默认值,即Enter。如果目前未选择Enter,应修改为Enter。点击Categorical,在Logistic Regression:Define Categorical Variables对话框中,将gender选入Categorical Covariates框中。在Change Contrast区域,将ReferenceCategory从Last改为First后,点击Change→Continue。对于二分类变量(如本研究的gender),也可以不通过Categorical选项指定参照,SPSS将默认以赋值较低的变量为参照。Categorical选项可将多分类变量(包括有序多分类和无序多分类)变换成哑变量,指定某一分类为参照。比如,某研究中COPD是多分类变量(分为无COPD病史、轻/中度、中度),如果指定“无COPD病史”的研究对象为参照组,可以分别比较“轻/中度”和“重度”组相对于参照组发生结局的风险。Contrast右侧的下拉菜单中(该下拉菜单内的选项是几种与参照比较的方式),Indicator方式最常用,其比较方法为:第一类或最后一类为参照类,每一类与参照类比较。在ReferenceCategory的右侧选择First,表示本研究以女性为对照组(赋值为0)。回到Logistic Regression对话框后,可见gender已显示为gender(Cat)。分类变量后显示“(Cat)”说明已正确定义分类变量。设置好分类自变量后,开始生成交互项。以age和ln_age为例,同时选中age和ln_age(使用Ctrl键+鼠标点击),点击>a*b>键,将ln_age*age交互项选入Covariates框中。重复以上过程,将所有交互项都选入Covariates框中,点击OK。(3)假设5的检验结果查看Variables in the Equation表格中,有交互作用的行及行内“Sig”值,本研究中为age by ln_age、ln_weight by weight和VO2max by ln_VO2max”所在的行及行内“Sig”值。如果交互作用有统计学意义(P本研究中,共有8项纳入模型分析,包括三个连续自变量age、weight、VO2max,分类自变量gender,三个交互作用项age*ln_age、ln_weight*weight、VO2max*ln_VO2max和截距项(Constant)。因此本研究中,建议选择显著性水平应为α=0.00625(即0.05 ÷ 8)。根据该显著性水平,本研究所有交互项的P值均高于0.00625,因此所有连续自变量与因变量logit转换值之间存在线性关系。假设5检验完之后,有两种情况:①所有连续自变量与因变量的logit转换值间存在线性关系,则直接进行下一步;②如果一个及以上连续自变量与因变量的logit转换值间不存在线性关系,建议将该变量转换为有序分类变量。(关于Box-Tidwell法,我们主要参考了外文的一些资料,小咖手上有两个PDF,有需要的伙伴,请在下方留言。)检验假设6:自变量之间无多重共线性与线性回归一样,Logistic回归模型也需要检验自变量之间是否存在多重共线性。自变量之间的简单相关或多重相关都会产生多重共线性。容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。遗憾的是,SPSS的Binary Logistic模块并不能提供容忍度或方差膨胀因子,但是我们可以通过线性回归来获得。由于我们关心的是自变量之间的关系,因此容忍度或方差膨胀因子与模型中因变量的函数形式无关。也就是说,我们可以将Logistic回归的因变量(二分类变量)、自变量(二分类、多分类或连续变量)直接带入线性回归模型,从而获得容忍度或方差膨胀因子。在主界面点击Analyze→Regression→Linear,将heart_disease选入Dependent,将age、weight、gender和VO2max选入Independent(s)。点击Statistics,出现Linear Regression:Statistics对话框,点击Collinearity diagnostics→Continue→OK。结果如下图:如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在多重共线性。如果数据存在多重共线性,则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。检验假设7:没有明显的离群点、杠杆点和强影响点该假设的SPSS操作可见后面的“Logistic回归”部分,此处仅展示如何解读结果。结果中Casewise List表格显示学生化残差大于2倍标准差的观测。学生化残差大于2.5倍标准差的观测需要研究者进一步观察决定这些观测是否是离群点,如有必要甚至可以从分析中剔除这些观测。本例中,第70个观测(Case Number)的学生化残差为3.349,符合上述判断离群点的标准。需要注意的是:①如果所有观测的学生化残差小于2倍标准差,SPSS不会输出Casewise List表格。如果已经剔除离群点,则第一次分析得到的Casewise Diagnostics表格不会再显示。②观测数(Case Number)指SPSS系统内自动编码(Data View窗口中最左侧蓝色一列中的编码),而非研究者赋值的编码。③研究者需要查看该观测为离群点的原因,决定是否删除该观测并报告。本研究考虑不删除该观测,并在结果中报告“纳入分析的观测中有一项观测的学生化残差为3.349”。Logistic回归在主界面点击Analyze→Regression→Binary Logistic,在Logistic Regression对话框中,将heart_disease选入Dependent,将age、weight、gender和VO2max选入Covariates。并按照前述操作,通过Categorical将gender变换为哑变量。注意:如果是按本文中指导的步骤依次进行的分析,此时LogisticRegression对话框下为因变量heart_disease,Covariates框中为4个自变量age、weight、gender(Cat)、VO2max和3个交互项ln_age*age、ln_weight*weight、ln_VO2max* VO2max。此时仅需要将交互项ln_age*age、ln_weight*weight、ln_VO2max* VO2max从Covariates框中删除即可。对于自变量筛选的方法(Method对话框),SPSS提供了7种选择,使用各种方法的结果略有不同,读者可相互印证。各种方法之间的差别在于变量筛选方法不同,其中Forward: LR法(基于最大似然估计的向前逐步回归法)的结果相对可靠,但最终模型的选择还需要获得专业理论的支持。本文以Enter法为例进行展示(其它方法得到的结果,解释方法一样)。点击Options,在Logistic Regression:Options对话框中,选中Classification plots,Hosmer-Lemeshow goodness-of-fit,Casewise listing of residuals和CI for exp(B)这4个选项。在Display区域,选中At last step选项。点击Continue→OK。四、结果解释1.检查变量和数据首先检查是否存在缺失观测,纳入分析的观测数是否和数据库中观测数一致。Case Processing Summary表格如下图。确认因变量的编码是否正确。Dependent Variable Encoding表格如下图。观察分类自变量是否存在某一类观测数过少的情况,如果某项分类较少,可能不利于二项Logistic回归分析。本研究中,定义的分类自变量只有gender,因此Categorical Variables Codings表格只给出了gender的信息。2.基本分析此部分结果的标题为“Block 0:Beginning Block”,指的是所有自变量不纳入模型、只包括常数项时的结果。此部分可以跳过。3. Logistic回归此部分结果的标题为“Block 1:Method=Enter”(Enter指前述SPSS操作部分所述的自变量筛选方法)。(1)模型整体评价Omnibus Tests of Model Coefficients是模型系数的综合检验。其中Model一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果。PHosmer and Lemeshow Test是检验模型的拟合优度。当P值不小于检验水准时(即P>0.05),认为当前数据中的信息已经被充分提取,模型拟合优度较高。Model Summary表格中,提供了因变量的变异能够被拟合的模型解释的比例。该表格包含Cox & Snell RSquare和Nagelkerke RSquare,这两种R22,在Logistic回归中意义不大(与线性回归中的不同),可以不予关注。(2)模型预测能力拟合Logistic回归模型后,对于每一个自变量组合,均可以得到结局事件(本例中为患心脏病)发生的概率。如果事件发生的概率大于或等于0.5,Logistic回归判断为事件发生(患心脏病);如果可能性小于0.5,则判断为事件未发生(未患心脏病)。因此,与真实情况相比,就可以评价Logistic回归模型的预测效果。Logistic回归模型能够将71.0%的观测正确分类(Overall Percentage一行),该指标常被称作percentage accuracy in classification(正确分类百分比),即诊断试验中的一致率。预测为“是”的观测数占实际为“是”的观测数的比例即灵敏度。本研究中,45.7%患有心脏病的研究对象被模型预测患有心脏病。预测为“否”的观测数占实际为“否”的观测数的比例即特异度。本研究中,84.6%未患心脏病的研究对象被模型预测未患心脏病。同理,还可以计算得到阳性预测值(61.5%)和阴性预测值(74.3%)。(3)方程中的自变量由于本次统计过程中筛选变量的方式是Enter法,因此所有自变量均进入了模型,Variables in the Equation表格中也列出了所有自变量及其参数。其中Sig.一列表示相应变量在模型中的P值,Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。结果显示,age(P=0.003),gender(P=0.021)和VO2max(P=0.039)有统计学意义,但weight(P=0.799)没有统计学意义。对于分类变量,OR值的含义为:相对于赋值较低的研究对象(gender赋值为“0”的为女性),赋值较高的研究对象(男性)患心脏病的风险是多少(7.026倍)。对于连续变量,OR值的含义为:自变量每增加一个单位(年龄每增加1岁),发生结局的风险增加的倍数(1.089倍)。五、撰写结论本研究采用二分类Logistic回归评估年龄、体重、性别和最大摄氧量对研究对象患心脏病的影响。使用Box-Tidwell方法检验连续自变量与因变量logit转换值间是否为线性。线性检验模型时共纳入8项,Bonferroni校正后显著性水平为0.00625。线性检验结果得到所有连续自变量与因变量logit转换值间存在线性关系。一个观测的学生化残差为标准差的3.349倍,但保留在分析中。最终,得到的Logistic模型具有统计学意义,χ2=27.402,P模型纳入的五个自变量中,年龄、性别和最大摄氧量有统计学意义。男性患心脏病的风险是女性的7.026倍。年龄每增加1岁,患心脏病的风险增加8.9%。最大摄氧量每增加一个单位,患心脏病的风险降低9.4%。扩展阅读在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。经过单因素分析后,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。此外,对于连续变量,如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值),则可以直接将改变量纳入Logistic回归模型;如果关心该变量对因变量的影响程度(关心该变量的OR值),一般不直接将该连续变量纳入模型,而是建议将连续变量转化为有序多分类变量后纳入模型。这是因为,在Logistic回归中直接纳入连续变量,那么对于该变量的OR值的意义为:该变量每升高一个单位,发生结局事件的风险变化(比如年龄每增加1岁,患心脏病的风险增加1.089倍)。这种解释在临床上大多数是没有意义的。-ykh关注医咖会,轻松学习统计学~),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。淡定人生百家号最近更新:简介:人的一生是追求自由的一生作者最新文章相关文章SPSS 多因素非条件logistic回归分析 中的SE 、B 、R、 P是什么意思?_百度知道
SPSS 多因素非条件logistic回归分析 中的SE 、B 、R、 P是什么意思?
我已经知道OR 和95%CI是比值比和95%可信区间的意思,那么上面那几个是什么意思啊?求解释,包含不同的数值是什么意思,怎么解读
答题抽奖
首次认真答题后
即可获得3次抽奖机会,100%中奖。
SE标准误B 回归系数R拟合优度指标P和0.05比较只要看P和OR其他不用管统计专业P在0.05和0.01之间有统计意义,大于等于0.05就没有统计意义对吗?我看到说OR&1是危险因素OR&1保护因素OR=1该因素不起作用
采纳率:69%
SE标准误 、B 回归系数、R拟合优度指标、 P和0.05比较只要看P和OR其他不用管统计专业
谢谢!!P在0.05和0.01之间有统计意义,大于等于0.05就没有统计意义对吗?我看到说OR&1是危险因素OR&1保护因素OR=1该因素不起作用这里的危险因素和保护因素是什么意思?假如我研究和肥胖有关的几个因素,其中有一个是甜品,那么OR值&1是不是指甜品会对肥胖有消极影响?还是说它们之间的关系相关和不相关吗?
具体意义要看赋值情况,不好一概而论
本回答被提问者和网友采纳
SE标准误 、B 回归系数、R拟合优度指标、 P和0.05比较只要看P和OR其他不用管统计专业
为您推荐:
其他类似问题
logistic回归的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。spss二元logistic回归,当有变量进入方程后,不在方程中的变量计算score统计量,我想知道这个怎么计算
spss二元logistic回归,当有变量进入方程后,不在方程中的变量计算score统计量,我想知道这个怎么计算
一个模型是加入了那些不显著变量的,一个是没有加入不显著变量的,两个模型的残差做差,然后除以自由度,就可以算出来score了. 再问: 变量为x、y、z、m、n、q,m显著性p值最小,先进入方程,如图,然后对不在方程中的变量计算score统计量 再答: 对的呀,比如一个方程先把x强制放到模型里面,算出来它的估计值,如果不显著就剔除出来;其他变量也是一样的。通过强制纳入求的socre统计量。再问: 恩,当把x放到模型里后,对没有放进模型中的变量计算score统计量,我就是对没有放进模型中的score统计量不知道怎么计算,因为我要把score统计量的计算方法编写成C++代码,您能通过一个实例详细的指点我一下吗? 再答: 嗯,有可能。这个我们可以详细讨论。你加我QQ
我有更好的回答:
剩余:2000字
与《spss二元logistic回归,当有变量进入方程后,不在方程中的变量计算score统计量,我想知道这个怎么计算》相关的作业问题
因为你只在二元logistic回归主界面的Covariates(协变量)选入了变量,此时所有被选入的变量都被认为是(定量)协变量,只有再继续点击主界面的categorical按钮,然后再将属于分类变量的变量选入categorical Covariates框内,才能在结果表格里看到categorical variable
要大于等于三个水平的分类变量才有必要生成哑变量的,只有两个水平的话不用.logi回归的因变量就是只能俩水平:0和1的.我一般生成哑变量是直接conpute的.简单说分类指的是一个变量在测量中的属性,就像连续、等级(秩次)这些属性一样.虚拟变量时分析时候,因为分类变量无法进行量化的推断检验(而只能是0/1那种才可以被检验
在SPSS中将多分类变量设置为哑变量比较麻烦,其中的一种方法就是将该多分类变量转换成N-1列的哑变量,举例来说,原多分类变量有四个取值(A/B/C/D),这时需要设置三列哑变量,比如D2,D3,D4用如果变量值是B,则D2=1,否则取0,如果是C,则用D3=1,否则取0,如果是D,则D4=1,否则取0D2 D3 D41
p=0.06大于0.05说明这个自变量对因变量的影响不显著,而B的值则是回归系数,跟线性回归一样,如果你要写回归方程,则自变量的系数就是Bexp(B)则是根据B值计算得来的,可以理解为风险率,如果你的自变量为连续性变量,则表示自变量增加一个单位,比减少一个单位后的风险增加比为13.095,而置信区间同样表示为风险的区间
logit回归的结果一般不去太在意方程.数据发我,我看看 再问: 大哥(姐),做财务预警模型要有ST公司,我想问一下找得到30或35家2010年被首次ST 的公司吗?
(1)如果六大类分类变量“教育程度”,“文盲”,“小学”,“初中”,“高中”,“大学”,“大学及以上,很明显(6-1 )= 5个虚拟变量.(2),如果你认为太多的虚拟变量,可以结合分类,如“文盲”,“小学”组合成一个分类的“小学及以下”,“初中合并后的学校“,”高中“,”大学“合并为一类初中 - 大学,所以只有三类简单
逐步回归即可
没有这么麻烦,很容易的:在Logistic回归主界面中同时选择月收入与受教育程度这两个变量(按住Ctrl键不放,用鼠标分别点击月收入与受教育程度),然后点击>a*b>键就可以了. 再问: 你好,此外,我还有一个问题,就是不知道该如何解释交互作用。比如:所有制与中层以上家庭地位,其中因变量为职业晋升与否(否为0,是为1)
B 55.i=0; i 再问: 答案不是的,, 再答: 那答案错了。我用程序验证了一下没问题的。 您试一下: #include main() { int sum=0,i; for(i=0;i
&是否有统计学意义主要看sig 如果这个值小于0.05那么就是相关的,在此基础上看第一列B值,负号代表负相关.你的例子中性别不对因变量产生影响.另外logistic回归中Exp(B)值即为OR值也是非常有参考意义的值,你可以参考一下相关教科书,不同的案例解释内容不同.
就是系数加上变量这么来写啊,比如0.196VARVAR00003-.我替别人做这类的数据分析蛮多的
直接用logistic回归分析即可这些自变量是连续变量 再问: 多谢多谢,悬赏肯定给您了。我还想请教个小问题,我打算做独立样本t检验,一个样本很小,另一个很大。我可以从大的样本中随机抽出同等数目再做t检验吗?谢谢! 再答: 你参考的论文思路是怎么样再问: 我先做了一个回归分析,找出哪些心里因素会影响“是否消费”这一结果
Analyze->Regression->Multinomial logistic,自变量(Factors)、因变量放好,再设置一下就OK.logistic回归只是针对因变量是分类变量,对自变量是哪种类型并没有规定
你选择的因变量是不是只用一个值,要么都是1,要么都是0,你检查下
在回归分析模型 Y=β0+β1X+ε(一元线性回归模型)中,Y是被解释变量,就称为因变量.X是解释变量,称为自变量.表示为:因变量Y随自变量X的变化而变化.协变量是指那些人为很难控制的变量,通常在回归分析中要排除这些因素对结果的影响.“选择变量”即是条件变量,并且有个条件定义按钮(rule),通过这个按钮可以给定一个条
设置哑变量
如果你的分析方法是正确的话,这个结果是能够说明的变量3在该模型中是有贡献的,有意义的,而变量1并不显著,对Y影响不大.
额,本来看到这个问题很久,不想冒泡,因为做这种东西没有技术含量.但是出来冒泡的原因是:楼上的不要误导人,这么多变量还是线性回归?你是学统计的吗?何况不可能没有多重共线问题的.自己的建议:使用因子分析或者主成分分析,找出影响Y的关键因素,建立由主成分因分子构成的多元回归模型.想分别求出每种变量对Y的影响那是不可能也不现实
logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型.比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验.影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某

我要回帖

更多关于 logistics回归分析 的文章

 

随机推荐