spss如何spss怎么做交叉分析表 m

spss交叉表分析方法与步骤 + SPSS卡方检验结果的阅读
我的图书馆
spss交叉表分析方法与步骤 + SPSS卡方检验结果的阅读
&spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。在实际工作中,经常用交叉表来分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同。
spss交叉表分析方法与步骤:&
1、在spss中打开数据,然后依次打开:analyze--descriptive--crosstabs,打开交叉表对话框&
2、将性别放到行列表,将对读物的选择变量放到列,这样就构成了一个交叉表&&
3、设置输出的结果,点击statistics,打开一个新的对话框&
4、勾选chi-square(卡方检验),勾选phi&and&cramer's&V(衡量交互分析中两个变量关系强度的指标),点击continue,回到交叉表对话框&
5、点击cells,设置cell中要展示的数据&&
6、在这里勾选observed(各单元格的观测次数),勾选row(行单元格的百分比),点击continue,回到交叉表对话框&
7、点击ok按钮,输出检验结果& &
8、先看到的第一个表格就是交叉表,性别为行、选择的读物为列&
9、卡方检验结果:主要看pearson卡方检验,sig值小于0.05,因此认为不同的性别的人对周末读物的选择有显著的差别&
10、最后一个表格,输出的是phi值和V值,两个都代表两个变量之间的关系的紧密度,数值小于0.1说明关系不紧密,即性别与周末读物的选择没有明显的关系,这个结论和上面的卡方检验有出入,所以需要进一步进行两两比较。&
来源:百度文库
数据分析联盟:&
▼2、将性别放到行列表,将对读物的选择变量放到列,这样就构成了一个交叉表&&
▼4、勾选chi-square(卡方检验),勾选phi&and&cramer's&V(衡量交互分析中两个变量关系强度的指标),点击continue,回到交叉表对话框
▼6、在这里勾选observed(各单元格的观测次数),勾选row(行单元格的百分比),点击continue,回到交叉表对话框&
▼8、先看到的第一个表格就是交叉表,性别为行、选择的读物为列&&&
▼9、卡方检验结果:主要看pearson卡方检验,sig值小于0.05,因此认为不同的性别的人对周末读物的选择有显著的差别&&&
▼10、最后一个表格,输出的是phi值和V值,两个都代表两个变量之间的关系的紧密度,数值小于0.1说明关系不紧密,即性别与周末读物的选择没有明显的关系,这个结论和上面的卡方检验有出入,所以需要进一步进行两两比较。&
Value=卡方值;df=自由度;ASYMP.sig=P值=相伴性概率。p大于0.05(自己设定的显著性水平),接受原假设,否则拒绝,即P值小于0.05认为结果有显著性差异。注意表格下面的注解:b.
0 cells (.0%) have expected count less than 5. The minimum expected
count is 191.89,这句话很重要,关系到结果是否可靠!理论频数小于5的cells(格子)比例不超过20,即小于5的格值数不应超过25%,或四分之一(25%)的格子理论数小于5
。结果可靠,采用Pearson Chi-Square的P值-ASYMP.sig。当理论频数小于5的cells(格子)比例超过20%,应看Exact
Test(确切概率法-Fisher's&Exact
连续性校正的值(Continuity&Correction)。&需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可。
给出的Asymp. Sig
是通过卡方值算的。&
▼天数与死亡的关系
最常用的医学统计:
TTest - 独立样板T检验,推断两个总体的总体的独立样本均值是否存在显著差异。Analyze→Compare
mean→Paired-Samples T Test。T为负值表示前面一组样本的均值低于后面一组的均值。
交叉表 - 不同的性别对不同疾病的选择有什么不同用此分析法,即卡方检验,卡方检验
三组以上比较 - 比较均值 -》单因素anova&
Logist 回归 - 确定两种或两种以上变数间是否相关、相关方向与强度,即相互依赖的定量关系
喜欢该文的人也喜欢09-2509-2509-2509-2509-2509-25
也许你感兴趣【连载9】如何用spss做交叉表检验和对应分析
前边我们已经讲过很多内容了。回顾一下,主要有相关分析,假设检验,和各种回归。以及因子分析。我们知道,对于两组连续变量,我们可以通过假设检验来判断他们的分布是否相同,差异时候存在。不知道大家想过没有,如果我们想讨论两个分类变量的分布是否相同呢?这里我们首先来讨论这个问题。
首先举个例子,假设我们有两个不同季节的某种卫生的是否达标的记录。那么我们就是有两组二分类的变量(就是取值不是这个就是那个,只有两种取值的变量)。对于这两组变量,如果你还想用均值检验来看看分布是不是一样的话,那我真是被你蠢哭了。这个明显是不适合用均值检验或者非参数检验的。它适合的是我们正在介绍的卡方检验。
做分析首先需要做的第一步是输入数据。正常的输入方法是类似均值检验的:我们设一列达标与否,打一堆1或者2上去表示这个个案是达标或者不达标的。然后在设一列季节变量,在打一堆1或者2上去表示对应的这个个案是那个季节的。但是大部分时候,出于效率的考虑,我们都不会这么输数据。我们会设三个变量。达标与否,季节,权重。这样我们用四个个案就能表示了(1,1,第一个季节达标的数量)(1,2,第二个季节达标的数量)(2,1,第一个季节不达标的数量)(2,2,第二个季节不达标的数量)。这两种输入数据的方法都是正确的,但是明显,后一种要简洁一些是不是?
然后,首先用权重那个变量为我们的所有数据加权。然后打开菜单分析——描述统计——交叉表。行选季节,列选达标与否(或者行选达标与否,列选季节),勾选下边的显示复式条形图。点开统计量,全部勾选。点开单元格,全部勾选。然后确定。(为了后边的对应分析,我得节省点篇幅。)
第一个表是在概述你的数据情况,不用管它。第二个表是卡方检验表。这个表可要好好看。我相信到了现在大家已经认识到了p值是多么可爱,多么重要的一个指标了,可是这个表的问题在于,它的p值太多了。分别有:pearson卡方,连续矫正,似然比,fisher精确检验,线性和线性组合,mcnemar检验,哇,这么多,我到底要看哪一个呢?
首先你要看先你的最后一行的有效案例是多少个,其次还要看你最下边的标注,有几个单元格的期望计数小于2,最小期望计数是多少。有了这三个数据就能判断用哪个p值了。注意,下边这段判断方法很重要,你最好找张纸抄下来。
有效案例大于等于40,所有期望计数大于等于5的时候,用Pearson卡方。有效案例大于等于40,有期望计数小于5但最小的期望计数大于1时,用校正卡方。总频数小于40,或者,注意,是或者,有期望计数小于1的时候,用fisher精确。
P值小于0.05,则认为有差异。
现在把我们的例子在变一变,如果我们的卫生达标与否这个指标改为了一个三分类变量,不达标,合格,优秀。这三种类别呢?
操作过程和上边是一样的,但是结果只会告诉你这三组是否有差异,到底那组和那组有差异还要自己从新在做四格表才能判断。
另,在加一个变量,比如这个个案是公有性质或私有性质,三个指标放到一起来判断的时候,就把性质这个变量放到交叉表的主面板的层里边(就在行和列的框框下边。)
粗略的说完卡方以后,我们就来介绍一下对应分析。
卡方检验通常用来处理比较简单的问题,但是对于复杂一点的问题,它的效果会很糟糕哦。比如我的变量每个都有四五个分类,我想看看分类之间的分布是否有差别等等的,肯定不可能用卡方撒。所以这时候就用到了对应分析。
对应分析又叫做关联分析,因为它不仅能反映出来那个分类和那个分类的分布有没有差别,也能反映出来变量之间的分类谁和谁更容易接近。举个例子,假设我有一个变量分类为1,2,3,4,5,另一个变量分类为a,b,c,d,e,f。那么我不仅能观察知道1,2,3,4,5之间谁和谁更接近,我还能观察知道a是和1,2,3,4,5中的那个更亲近,b又是和谁更亲近,套用到实际问题里就是我会知道,哪一类人更容易有那种行为,所以也叫关联分析。(这个名是不是比对应分析响亮一些?想想啤酒与尿布的故事吧!注意,你已经开始涉及到一些机器学习的内容了。)
那么为什么对应分析算是降维分析的一种呢?主要是因为它的原理是主成分分析。粗糙的理解是这样的,它通过把两个多分类变量分别降维降到二维(就是用两个成分来表示这个多分类变量,类似因子分析里的成分图),然后把两张二维的图通过某些转换合到一块(你凑合着这么理解吧,不是简单的往一块和,在最一开始就是一块降得),然后你就可以在一张平面上观察了。因此它归到降维里的范畴。尽管它不像因子分析那样,把多个变量降成较少的变量那样好理解。
打开菜单分析——降维——对应分析,行和列各选择一个分类变量。比如一个变量是年龄段的分类,另一个变量是对某种商品的喜爱程度。在行和列的框框下边还有一个定义范围,点开那个对话框,选择你的最大值和最小值。定义好以后打开模型对话框,解得维数一般选2,处于一个好观察的角度,也出于准确性,一般选择2。然后在打开统计量,勾选对应表,行点概览,列点概览,列轮廓表。绘制对话框勾选双标图。然后就可以得到结果了。
对应表和简要表是不怎么重要的,可以忽略掉。注意看摘要表。首先要解释两个名词。&
奇异值。(这里忍不住插嘴,世界上优秀的智能推荐的算法都是用的奇异值分解。)我们知道一个大矩阵通过这么这么分解,那么那么分解,最后能分解成几个小矩阵。这些小矩阵就对应于我们的一个个的成分。所以奇异值的大小呢,就能反映这些小矩阵的重要程度。那么奇异值和因子分析里的特征值有什么区别呢?特征值是用在方阵里的,而奇异值是用在长方形的矩阵里的。而惯量它是奇异值的方,就类似于特征值了。这两个名词了解就可以了,不需要详细的知道。
在摘要表里第一要看总计里边的p值。这个p值不小于0.05的话,那对应分析完全就是没意义的。
第二要看惯量比例里边的解释。对应的百分比。这个类似于因子分析里解释的总方差。都是反映的某一个维能够解释模变量的百分比。通常来说,前两个维都要起码累积到百分之九十。有的数据很好的话,可能只能提取出两个维,两个维就能够累计到百分之百了。
在下边是概述点,如果你的摘要表表现很好的话,这个表就不怎么用看啦。
最后是最重要的散点图。
双击散点图,在图形编辑里边调整坐标的初始值,在行和列的0.0处加辅助线。然后这张图就会别分成四大块了。中心点就是(0,0)。那么在这张图上边就会有两类不同图形的点点,比如圆形表示年龄段的分类,三角表示喜爱程度。在小图形附近还会标注清楚每个小图形对应那个程度。那么这个图怎么看呢?
首先四个大块就直观的告诉我们那些点和那些点距离比较近了。比如代表20岁到40岁的点和非常喜爱的点靠的很近,那么就可以认为20岁到40岁的人会非常喜爱这个产品。这是最基本的一个信息。此外我们可以通过辅助线来进一步解释这张图。比如,我们找到代表非常喜爱的这个三角形,然后把这个点和(0,0)的中心点连线,连出一条直线来。然后把所有的小圆点向这条线做垂线。就是代表每个年龄段的小圆点都引一条垂线出来,垂点落到原来的那条直线上。假如我们分四个年龄段的话,那我们现在就有四个垂点啦。然后我们比较这四个垂点离代表非常喜爱的那个三角形的距离。注意,比较的是垂点哦。垂点离三角形越近,也就是说该年龄段的人越容易表达出非常喜爱哦。因为是垂点,所以从图上看离得比较远的两个点未必就关联程度比较低哦。
同样的道理,我们也可以做出同一年龄段的人更容易喜爱还是不喜爱这个产品的直线图。总之散点图可以很直观的解释信息哦。
简单对应分析大概就是这样了。注意,做简单分析的时候,我们只能观察两个变量啊。那怎么观察更多的变量呢?敬请期待下一讲:多重对应分析。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。spss进行判别分析步骤_图文_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
赠送免券下载特权
10W篇文档免费专享
部分付费文档8折起
每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
spss进行判别分析步骤
阅读已结束,下载本文需要
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,同时保存到云知识,更方便管理
加入VIP
还剩5页未读,
定制HR最喜欢的简历
你可能喜欢苹果/安卓/wp
积分 6836, 距离下一级还需 3344 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯, 显身卡, 匿名卡, 金钱卡, 抢沙发, 变色卡, 提升卡, 沉默卡, 千斤顶下一级可获得
权限: 签名中使用代码
购买后可立即获得
权限: 隐身
道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 187 天连续签到: 1 天[LV.7]常住居民III
前边我们已经讲过很多内容了。回顾一下,主要有相关分析,假设检验,和各种回归。以及因子分析。我们知道,对于两组连续变量,我们可以通过假设检验来判断他们的分布是否相同,差异时候存在。不知道大家想过没有,如果我们想讨论两个分类变量的分布是否相同呢?这里我们首先来讨论这个问题。首先举个例子,假设我们有两个不同季节的某种卫生的是否达标的记录。那么我们就是有两组二分类的变量(就是取值不是这个就是那个,只有两种取值的变量)。对于这两组变量,如果你还想用均值检验来看看分布是不是一样的话,那我真是被你蠢哭了。这个明显是不适合用均值检验或者非参数检验的。它适合的是我们正在介绍的卡方检验。做分析首先需要做的第一步是输入数据。正常的输入方法是类似均值检验的:我们设一列达标与否,打一堆1或者2上去表示这个个案是达标或者不达标的。然后在设一列季节变量,在打一堆1或者2上去表示对应的这个个案是那个季节的。但是大部分时候,出于效率的考虑,我们都不会这么输数据。我们会设三个变量。达标与否,季节,权重。这样我们用四个个案就能表示了(1,1,第一个季节达标的数量)(1,2,第二个季节达标的数量)(2,1,第一个季节不达标的数量)(2,2,第二个季节不达标的数量)。这两种输入数据的方法都是正确的,但是明显,后一种要简洁一些是不是?然后,首先用权重那个变量为我们的所有数据加权。然后打开菜单分析——描述统计——交叉表。行选季节,列选达标与否(或者行选达标与否,列选季节),勾选下边的显示复式条形图。点开统计量,全部勾选。点开单元格,全部勾选。然后确定。(为了后边的对应分析,我得节省点篇幅。)第一个表是在概述你的数据情况,不用管它。第二个表是卡方检验表。这个表可要好好看。我相信到了现在大家已经认识到了p值是多么可爱,多么重要的一个指标了,可是这个表的问题在于,它的p值太多了。分别有:pearson卡方,连续矫正,似然比,fisher精确检验,线性和线性组合,mcnemar检验,哇,这么多,我到底要看哪一个呢?首先你要看先你的最后一行的有效案例是多少个,其次还要看你最下边的标注,有几个单元格的期望计数小于2,最小期望计数是多少。有了这三个数据就能判断用哪个p值了。注意,下边这段判断方法很重要,你最好找张纸抄下来。有效案例大于等于40,所有期望计数大于等于5的时候,用Pearson卡方。有效案例大于等于40,有期望计数小于5但最小的期望计数大于1时,用校正卡方。总频数小于40,或者,注意,是或者,有期望计数小于1的时候,用fisher精确。P值小于0.05,则认为有差异。现在把我们的例子在变一变,如果我们的卫生达标与否这个指标改为了一个三分类变量,不达标,合格,优秀。这三种类别呢?操作过程和上边是一样的,但是结果只会告诉你这三组是否有差异,到底那组和那组有差异还要自己从新在做四格表才能判断。另,在加一个变量,比如这个个案是公有性质或私有性质,三个指标放到一起来判断的时候,就把性质这个变量放到交叉表的主面板的层里边(就在行和列的框框下边。)粗略的说完卡方以后,我们就来介绍一下对应分析。卡方检验通常用来处理比较简单的问题,但是对于复杂一点的问题,它的效果会很糟糕哦。比如我的变量每个都有四五个分类,我想看看分类之间的分布是否有差别等等的,肯定不可能用卡方撒。所以这时候就用到了对应分析。对应分析又叫做关联分析,因为它不仅能反映出来那个分类和那个分类的分布有没有差别,也能反映出来变量之间的分类谁和谁更容易接近。举个例子,假设我有一个变量分类为1,2,3,4,5,另一个变量分类为a,b,c,d,e,f。那么我不仅能观察知道1,2,3,4,5之间谁和谁更接近,我还能观察知道a是和1,2,3,4,5中的那个更亲近,b又是和谁更亲近,套用到实际问题里就是我会知道,哪一类人更容易有那种行为,所以也叫关联分析。(这个名是不是比对应分析响亮一些?想想啤酒与尿布的故事吧!注意,你已经开始涉及到一些机器学习的内容了。)那么为什么对应分析算是降维分析的一种呢?主要是因为它的原理是主成分分析。粗糙的理解是这样的,它通过把两个多分类变量分别降维降到二维(就是用两个成分来表示这个多分类变量,类似因子分析里的成分图),然后把两张二维的图通过某些转换合到一块(你凑合着这么理解吧,不是简单的往一块和,在最一开始就是一块降得),然后你就可以在一张平面上观察了。因此它归到降维里的范畴。尽管它不像因子分析那样,把多个变量降成较少的变量那样好理解。打开菜单分析——降维——对应分析,行和列各选择一个分类变量。比如一个变量是年龄段的分类,另一个变量是对某种商品的喜爱程度。在行和列的框框下边还有一个定义范围,点开那个对话框,选择你的最大值和最小值。定义好以后打开模型对话框,解得维数一般选2,处于一个好观察的角度,也出于准确性,一般选择2。然后在打开统计量,勾选对应表,行点概览,列点概览,列轮廓表。绘制对话框勾选双标图。然后就可以得到结果了。对应表和简要表是不怎么重要的,可以忽略掉。注意看摘要表。首先要解释两个名词。&&奇异值。(这里忍不住插嘴,世界上优秀的智能推荐的算法都是用的奇异值分解。)我们知道一个大矩阵通过这么这么分解,那么那么分解,最后能分解成几个小矩阵。这些小矩阵就对应于我们的一个个的成分。所以奇异值的大小呢,就能反映这些小矩阵的重要程度。那么奇异值和因子分析里的特征值有什么区别呢?特征值是用在方阵里的,而奇异值是用在长方形的矩阵里的。而惯量它是奇异值的方,就类似于特征值了。这两个名词了解就可以了,不需要详细的知道。在摘要表里第一要看总计里边的p值。这个p值不小于0.05的话,那对应分析完全就是没意义的。第二要看惯量比例里边的解释。对应的百分比。这个类似于因子分析里解释的总方差。都是反映的某一个维能够解释模变量的百分比。通常来说,前两个维都要起码累积到百分之九十。有的数据很好的话,可能只能提取出两个维,两个维就能够累计到百分之百了。在下边是概述点,如果你的摘要表表现很好的话,这个表就不怎么用看啦。最后是最重要的散点图。双击散点图,在图形编辑里边调整坐标的初始值,在行和列的0.0处加辅助线。然后这张图就会别分成四大块了。中心点就是(0,0)。那么在这张图上边就会有两类不同图形的点点,比如圆形表示年龄段的分类,三角表示喜爱程度。在小图形附近还会标注清楚每个小图形对应那个程度。那么这个图怎么看呢?首先四个大块就直观的告诉我们那些点和那些点距离比较近了。比如代表20岁到40岁的点和非常喜爱的点靠的很近,那么就可以认为20岁到40岁的人会非常喜爱这个产品。这是最基本的一个信息。此外我们可以通过辅助线来进一步解释这张图。比如,我们找到代表非常喜爱的这个三角形,然后把这个点和(0,0)的中心点连线,连出一条直线来。然后把所有的小圆点向这条线做垂线。就是代表每个年龄段的小圆点都引一条垂线出来,垂点落到原来的那条直线上。假如我们分四个年龄段的话,那我们现在就有四个垂点啦。然后我们比较这四个垂点离代表非常喜爱的那个三角形的距离。注意,比较的是垂点哦。垂点离三角形越近,也就是说该年龄段的人越容易表达出非常喜爱哦。因为是垂点,所以从图上看离得比较远的两个点未必就关联程度比较低哦。同样的道理,我们也可以做出同一年龄段的人更容易喜爱还是不喜爱这个产品的直线图。总之散点图可以很直观的解释信息哦。简单对应分析大概就是这样了。注意,做简单分析的时候,我们只能观察两个变量啊。那怎么观察更多的变量呢?敬请期待下一讲:多重对应分析。
总评分:&经验 + 60&
学术水平 + 5&
只想做一个勤勤恳恳的搬运工
连载一贯好东西& & 顶
littledog.. 发表于
连载一贯好东西& & 顶连载的都是不错的,经常来看看,学点知识。谢谢支持
Mirror.. 发表于
连载的都是不错的,经常来看看,学点知识。谢谢支持嗯嗯&&谢谢
真的非常好,简单易懂,感谢楼主
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
中级学术勋章
中级学术勋章
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师

我要回帖

更多关于 spss交叉表分析 的文章

 

随机推荐