数据文件比较独特一份数据有數据视图和spss变量类型视图两个界面,准备数据时需要在spss变量类型视图下定义具体的spss变量类型属性分不清spss变量类型类型,也不知道选用哪種测量方式不知道spss变量类型标签值是什么概念,这些往往让许多初学者感到迷茫
今天给大家分享一下小兵的经验。
类别型字符串数据建议优先定义为数字类型+名义测度,并添加相应的标签值
先不着急解释这里面的概念,我们先来看一组大名鼎鼎数据由统计学家Fisher收集整理的鸢尾花卉数据集,包含150个记录分为3类,每类50个数据每个数据包含4个属性。可通过花萼长度花萼宽度,花瓣长度花瓣宽度4個属性预测鸢尾花卉属于(Setosa,VersicolourVirginica)三个种类中的哪一类。如下:
花萼长度花萼宽度,花瓣长度花瓣宽度4个spss变量类型呢,是具体的数字可比较大小,可加减乘除这类数据我们通常喜欢称之为连续型数值spss变量类型。定义为数字类型标度测量方式,比较好理解
重点是【种类】spss变量类型,它首先是类别型的有3个分类水平,分别是SetosaVersicolour,Virginica比如Setosa这属于字符串类型的数据,我把这类数据称作是类别型字符串數据
比如我们我们有一个spss变量类型是省份,那全国有31个省份它的具体取值是具体的省份名称,比如陕西省河南省,我把这类数据称莋是名义型的字符串数据
现在的问题是,iris数据集中的种类spss变量类型如何定义才合适呢?
一部分读者会说看菜下单,它取值有三SetosaVersicolour,Virginica均是字符串,那我们就把它定义为【字符串】类型【名义】测量方式,试一下
假设我们进行判别分析。看看会发生什么事故
你会發现,被你定义为【字符串】类型的【种类】spss变量类型根本就没有出现在待分析的spss变量类型列表中,判别分析需要【种类】这个spss变量类型可是它现在完全找不到了。判别分析失败
为什么会这样呢?问题就出在字符类型上它不符合统计方法分析的需要。
那怎么办呢萣义为数字类型+名义测度,同时定义标签值属性用数字1代表Setosa,用数字2代表Versicolour用数字3代表Virginica。
再用判别分析测试一下ok,完全没毛病这就昰准确属性的重要性。
此案例也可以提示大家,尽可能地定义和使用spss变量类型标签值在软件中,这一操作十分方便而且好处多多
由【SPSS统计训练营】本号出品的《SPSS统计分析:从入门到案例实践》视频课程,将于11月6日起参加网易云课堂的双11优惠活动届时将由网易云课堂系统调价优惠减免20元,学习和使用SPSS统计方法的读者不妨多关注欢迎选购。
优惠活动期间我还会为大家送上心动优惠券,2018年最后一次优惠仅此一次。
这门课最大的特点其实不是课程本身而是与小兵微信一对一交流互动,您在学习和实践当中遇到问题了可以随时发起微信聊天讨论,小兵微信随时恭候大家
课程+作业+微信一对一,小兵水平有限诚挚服务,欢迎来访