excel 进位如何实现所有数位都不进位,比如128+333=451 类似 999+111=000

管理培训之逆向思维与统计研究-共享资料网
管理培训之逆向思维与统计研究
本课内容包含? ? ? ? ? ? ? ? ? ? ? ? 统计回顾 方差分析 主成分分析和因子分析 聚类分析 判别分析 典型相关分析 对应分析 列联表 Logistic回归 Poisson对数线性模型 时间序列分析 。。。。 统计基本概念回顾 规随 律机 性性 和 现实中的随机性和规律性? 从中学起,我们就知道自然科学的许多定律,例 如物理中的牛顿三定律,物质不灭定律以及化学 中的各种定律等等。 ? 但是在许多领域,很难用如此确定的公式或论述 来描述一些现象。比如,人的寿命是很难预先确 定的。一个吸烟、喝酒、不锻炼、而且一口长荤 的人可能比一个很少得病、生活习惯良好的人活 得长。 ? 因此,可以说,活得长短是有一定随机性的 (randomness)。这种随机性可能和人的经历、基 因、习惯等无数说不清的因素都有关系。 现实中的随机性和规律性 ? 但是从总体来说,我国公民的平均 年龄却是非常稳定的。而且女性的 平均年龄也稳定地比男性高几年。 这就是规律性。 ? 一个人可能活过这个平均年龄,也 可能活不到这个年龄,这是随机的。 ? 但是总体来说,平均年龄的稳定性, 却说明了随机之中有规律性。这种 规律就是统计规律。 ? 你可能经常听到概率(probability)这个 名词。例如在天气预报中会提到降水概 率。大家都明白,如果降水概率是百分 之九十,那就很可能下雨;但如果是百 分之十,就不大可能下雨。 ? 因此,从某种意义说来,概率描述了某 件事情发生的机会。 ? 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。换言之,概率 是在0和1之间的一个数,说明某事件发 生的机会有多大。概率和机会 有些概率是无法精确推断的? 比如你对别人说你下一个周末去公园 的概率是百分之八十。但你无法精确 说出为什么是百分之八十而不是百分 之八十四或百分之七十八。 ? 其实你想说的是你很可能去,但又没 有完全肯定。 ? 实际上,到了周末,你或者去,或者 不去;不可能有分身术把百分之八十 的你放到公园,而其余的放在别处。 有些概率是可以估计的 ? 比如掷骰子。只要没有人在骰子上做 手脚,你得到6点的概率应该是六分之 一。得到其他点的概率也是一样。 ? 得到6的概率或者机会是可以知道的, 但掷骰子的结果还只可能是六个数目 之一。 ? 这个已知的规律就反映了规律性,而 得到哪个结果则反映了随机性。 ? 如果你掷1000次骰子,那么,大约有 六分之一的可能会得到6;这也是随机 性呈现有规律的一个体现。 变量? 做任何事情都要有对象。比如一个班上注册 的学生有200人,这是一个固定的数目,称为 常数(constant)或者常量。 ? 但是,如果猜测今天这个班有多少人会来上 课,那就没准了。这有随机性。可能有请病 假或事假的,也可能有逃课的。这样,就要 来上课的人数是个变量(variable)。 ? 另外对于某项政策同意与否的回答,也有 “同意”、“不同意”或者“不知道”三种 可能值;这也是变量,只不过不是数量而已。 变量? 当变量按照随机规律所取的值是数量时该变量称 为定量变量或数量变量(quantitative variable); 因为是随机的,也称为随机变量(random variable)。 ? 象性别,观点之类的取非数量值的变量就称为定 性变量或属性变量或分类变量(qualitative variable,categorical variable)。 ? 这些定性变量也可以由随机变量来描述,比如男 性和女性的数目,同意某政策人数的比例等等。 只有当变量用数量来描述时,才有可能建立数学 模型,才可能使用计算机来分析。 数据? 有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰 子会得到什么值,是个随机变量;而每次取得1至6点中 任意点数的概率它在理论上都是六分之一(如果骰子公 平)。这依赖于在掷骰子背后的理论或假定;而在实际 掷骰子过程中,如果掷100次,会得到100个由1至6点组 成的数字串;再掷100次,又得到一个数字串,和前一 次的结果多半不一样。这些试验结果就是数据。所以说, 数据是关于变量的观测值. ? 通过数据可以验证有关的理论或假定(比如每一次得到 每个点的概率是不是1/6等等)。对于顾客是否喜欢某 种饮品的调查也类似,但这里不象掷骰子那样事先可以 大致猜测顾客喜欢与否的概率。在问了1000人之后,可 能有364人说喜欢,而480人说不喜欢,其余的人可能不 回答,或说不知道,或从来没有喝过这种饮料。这些数 目就是数据。当然,它仅仅反映了1000个被问到的人的 观点;但这对于估计整个消费群体的观点还是有用的。 统计和计算机? 现代生活越来越离不开计算机了。最早使 用计算机的统计当然更离不开计算机了。 ? 事实上,最初的计算机仅仅是为科学计算 而建造的。大型计算机的最早一批用户就 包含统计。而现在统计仍然是进行数字计 算最多的用户。 ? 计算机现在早已脱离了仅有计算功能的单 一模式,而成为百姓生活的一部分。 ? 计算机的使用,也从过去必须学会计算机 语言到只需要“傻瓜式”地点击鼠标。结 果也从单纯的数字输出到包括漂亮的表格 和图形的各种形式。 统计软件? 统计软件的发展,也使得统计从统计 学家的圈内游戏变成了大众的游戏。 只要你输入你的数据,点几下鼠标, 做一些选项,马上就得到令人惊叹的 漂亮结果了。 ? 你可能会问,是否傻瓜式的统计软件 使用可以代替统计课程了? ? 当然不是。数据的整理和识别,方法 的选用,计算机输出结果的理解都不 象使用傻瓜相机那样简单可靠。 统计软件? 有些诸如法律和医学方面的软件都有不少警告, 不时提醒你去咨询专家。 ? 但统计软件则不那么负责。只要数据格式无误、 方法不矛盾而且不用零作为除数就一定给你结果, 而且没有任何警告。 ? 另外,统计软件输出的结果太多;即使是同样的 方法,不同软件输出的内容还不一样;有时同样 的内容名称也不一样。这就使得使用者大伤脑筋。 即使是统计学家也不一定能解释所有的输出。因 此,就应该特别留神,明白自己是在干什么。不 要在得到一堆毫无意义的垃圾之后还沾沾自喜。 统计软件 ? 统计软件的种类很多。有些功能齐 全,有些价格便宜;有些容易操作, 有些需要更多的实践才能掌握。还 有些是专门的软件,只处理某一类 统计问题。面对太多的选择往往给 决策带来困难。这里介绍最常见的 几种。 统计软件? SPSS:这是一个很受欢迎的统计软件;它容易操作, 输出漂亮,功能齐全,价格合理。对于非统计工作者是 很好的选择。 ? Excel:它严格说来并不是统计软件,但作为数据表格 软件,必然有一定统计计算功能。而且凡是有 Microsoft Office的计算机,基本上都装有Excel。但要 注意,有时在装Office时没有装数据分析的功能,那就 必须装了才行。当然,画图功能是都具备的。对于简单 分析,Excel还算方便,但随着问题的深入,Excel就不 那么“傻瓜”,需要使用函数,甚至根本没有相应的方 法了。多数专门一些的统计推断问题还需要其他专门的 统计软件来处理。 ? SAS:这是功能非常齐全的软件;尽管价格不菲,许多 公司还是因为其功能众多和某些美国政府机构认可而使 用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训 练才可以进入。对于基本统计课程则不那么方便。 统计软件? S-plus:这是统计学家喜爱的软件。不仅由于其 功能齐全,而且由于其强大的编程功能,使得研 究人员可以编制自己的程序来实现自己的理论和 方法。它也在进行“傻瓜化”以争取顾客。但仍 然以编程方便为顾客所青睐。 ? R软件:这是一个免费的,由志愿者管理的软件。 其编程语言与S-plus所基于的S语言一样,很方 便。还有不断加入的各个方向统计学家编写的统 计软件包。同时从网上可以不断更新和增加有关 的软件包和程序。这是发展最快的软件,受到世 界上统计师生的欢迎。是用户量增加最快的统计 软件。对于一般非统计工作者来说,主要问题是 它没有“傻瓜化”。 统计软件? Minitab:这个软件是很方便的功能强大而又齐全的软 件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那 么普遍。 ? Statistica:也是功能强大而齐全的“傻瓜化”的软件, 在我国用的也不如SAS与SPSS那么普遍。 ? Eviews:这是一个主要处理回归和时间序列的软件。 ? GAUSS:这是一个很好用的统计软件,许多搞经济的 喜欢它。主要也是编程功能强大。目前在我国使用的人 不多。 ? FORTRAN:这是应用于各个领域的历史很长的非常优 秀的编程软件,功能强大,也有一定的统计软件包。计 算速度比这里介绍的都快得多。但需要编程和编译。操 作不那么容易。 ? MATLAB:这也是应用于各个领域的以编程为主的软 件,在工程上应用广泛。编程类似于S和R。但是统计 方法不多。 统计软件? 当然,还有其他的软件,没有必 要一一罗列。其实,聪明的读者 只要学会使用一种“傻瓜式”软 件,使用其他的仅仅是举一反三 之劳;最多看看帮助和说明即可。 如果只有英文帮助,那还可以顺 便提高你的英文阅读能力。 想想看 ? 举出你所知道的统计应用例子。 ? 举出日常生活中随机性和规律性的 例子。 ? 你使用过统计软件或者利用过其他 软件中的统计功能吗?你有什么经 验和体会? 数据的收集 二手数据? 每天翻开报纸或打开电视,就可以看 到各种数据。比如高速公路通车里程、 物价指数、股票行情、外汇牌价、犯 罪率、房价、流行病的有关数据(确 诊病例、疑似病例、死亡人数和出院 人数等等);当然还有国家统计局定 期发布的各种国家经济数据、海关发 布的进出口贸易数据等等。从中可以 选取对自己有用的信息。 ? 这些间接得到的数据都是二手数据。 ? 获得第一手数据并不象得到二手数据那么轻松。 ? 某些在华的外资企业每年至少要花三四千万元来 收集和分析数据。 ? 他们调查其产品目前在市场中的状况和地位并确 定其竞争对手的态势; ? 他们调查不同地区,不同阶层的民众对其产品的 认知程度和购买意愿以改进产品或推出新品种争 取新顾客; ? 他们还收集各地方的经济交通等信息以决定如何 保住现有市场和开发新市场。市场信息数据对企 业是至关重要的。 ? 他们很舍得在这方面花钱。因为这是企业生存所 必需的,绝不是可有可无的。第一手数据 观测数据和试验数据? 上面所说的数据是在自然的未被控制的 条件下观测到的,称为观测数据 (observational data)。 ? 而对于有些问题,比如在不同的医疗手 段下某疾病的治疗结果有什么不同、不 同的肥料和土壤条件下某农作物的产量 有没有区别、用什么成分可以提高某物 质变成超导体的温度等等。这种在人工 干预和操作情况下收集的数据就称为试 验数据(experimental data)。 总体和样本? 要想了解北京市民对建设北京交通设 施是以包括轨道运输在内的公共交通 工具为主还是以小汽车为主的观点, 需要进行调查; ? 调查对象是所有北京市民,调查目的 是希望知道市民中对这个问题的不同 看法各自占有的比例。 ? 显然,不可能去问所有的北京市民, 而只能够问一部分;并且根据这一部 分的观点来理解整个北京市民的总体 观点。 总体和样本? 这种情况下,称所有(每个)北京市 民对这个问题的观点为一个总体 (population),而调查时问到的那部分 市民的观点为该总体的一个样本 (sample)。 ? 当然,也有可能调查所有的人(比如 人口普查),那叫做普查(census)。 ? 总体是包含所有要研究的个体(element) 的集合。而样本是总体中选中的一部 分。 随机样本? 在抽取样本时,如果总体中的每 一个体都有同等机会被选到样本 中,这种抽样称为简单随机抽样 (simple random sampling), ? 而这样得到的样本则称为随机样 本(random sample)。 随机样本? 就北京交通问题的调查为例,在随 机抽样的情况下,如果样本量( sample size,也就是样本中个体的 数目)在总体中的比例为1/5000, 那么,无论在东城区或者在延庆县 ,无论在白领阶层还是蓝领阶层被 问到的人的比例都应该大体是 1/5000。 ? 也就是说,这种比例在总体的任何 部分是大体不变的。 方便样本? 在实践中,得到随机样本不容易。很多搞调查的 人就采取简单的办法。 ? 还以北京的交通问题的调查为例。假定按照随机 选出的电话号码进行调查。这样肯定节省时间和 资源,但这样得到的就不是一个随机样本了。 ? 如果按照随机选择的数字(无论号码本上有没有) 打电话,那很多电话是空号或单位电话;显然这 种样本也不是随机样本,它称为方便样本 (convenience sample)。 ? 在调查中,即使选择对象的确是随机的,最理想 的情况所得到的样本也只代表那些愿意回答问题 人的观点所组成的总体;没有回答问题的人的观 点永远不会被这种调查的样本所代表。 方便样本? 这种不回答的问题是抽样调查特有的问 题。 ? 在其他问题中,也有使用方便样本的情 况。比如在肺癌研究中,人们往往看到 吸烟和肺癌的关系的数据;这些数据并 不是整个人群中采集的随机样本;它们 可能只是医院中的病人记录中得到的。 ? 在杂志和报纸上也有问卷,但得到的只 是拥有这份报刊,而且愿意回答的人的 观点。 误差? 假定在某一职业人群中女性占的比例为60%。如果在这 个人群中抽取一些随机样本,这些随机样本中女性的比 例并不一定是刚好60%,可能稍微多些或稍微少些。这 是很正常的,因为样本的特征不一定和总体完全一样。 这种差异不是错误,而是必然会出现的抽样误差 (sampling error)。 ? 刚才提到在抽样调查中,一些人因为种种原因没有对调 查作出反映(或回答),这种误差称为未响应误差 (nonresponse error)。 ? 而另有一些人因为各种原因回答时并没有真实反映他们 的观点,这称为响应误差(response error)。 ? 和抽样误差不一样,未响应误差和响应误差都会影响对 真实世界的了解;应该在设计调查方案时尽量避免。 抽样调查的一些常用方法? 在抽样调查时,最理想的样本是前面提到 的随机样本。 ? 但是由于实践起来不方便,在大规模调查 时一般不用这种全部随机抽样的方式,而 只是在局部采用随机抽样的方法。 ? 下面介绍几种抽样方法。这里没有深奥的 理论;读者完全可以根据常识判断在什么 情况下简单的随机样本不方便以及下面的 每个方法有什么好处和缺陷。对于它们具 体的设计、实施与数据分析,有许多专门 的书籍,就不在这里赘述了。 一些抽样方法? 1. 分层抽样(stratified sampling)。这是 先把要研究的总体按照某些性质分类 (stratum),再在各类中分别抽取样本。 在每类中调查的人数通常是按照这该类人 的比例,但出于各种考虑,也可能不按照 比例,也可能需要加权(加权就是在求若 干项的和时,对各项乘以不同的系数,这 些系数的和通常为1)。比如可以按照教育 程度把要访问的人群分成几类;再在每一 类中调查和该类成比例数目的人。这样就 确保了每一类都有成比例的代表。 一些抽样方法? 2.整群抽样(cluster sampling)。这是 先把总体划分成若干群(cluster),再 (通常是随机地)从这些群中抽取几 群;然后再在这些抽取的群中对个体 进行抽样。比如,在某县进行调查, 首先在所有村中选取若干村子,然后 只对这些村子的人进行调查。显然, 如果各村情况差异不大,这种抽样还 是方便的。否则就会增大误差了。 一些抽样方法? 3.多级抽样(multistage sampling)。在 群体很大时,往往在抽取若干群之后,再 在其中抽取若干子群,甚至再在子群中抽 取子群,等等。最后只对最后选定的最下 面一级进行调查。比如在全国调查时,先 抽取省,再抽取市地,再抽取县区,再抽 取乡、村直到户。在多级抽样中的每一级 都可能采取各种抽样方法。因此,整个抽 样计划可能比较复杂,也称为多级混和型 抽样。 一些抽样方法? 4.系统抽样(systematic sampling)。 这是先把总体中的每个单元编号,然 后随机选取其中之一作为抽样的开始 点进行抽样。如果编号是随机选取的, 则这和简单随机抽样是等价的。在选 取开始点之后,通常从开始点开始按 照编号进行所谓等距抽样;也就是说, 如果开始点为5号,“距离”为10,则 下面的调查对象为15号、25号等等。 抽样方法的选择不能一概而论?实际上每个抽样通常都可 能是各种抽样方法的组合。 既要考虑精确度,还要根 据客观情况考虑方便性、 可行性和经济性。不能一 概而论。 计算机中常用的数据形式? 数据是由一些变量和它们的观测值所组成。下面 就是调查人们对某个问题观点的一个数据的方阵 形式。其中有6个变量:观点(观测值为支持、 反对和不知道三种)、教育程度(有高中低三种 取值,用H、M、L表示)、月收入(取值为实际 数字)、性别(取值有男女两个,用M和F表示) 以及地区号(用数字1,2,3,4表示)等。该表 一共有1364个观测值(问卷回答)。可以看出这 些变量有定性(属性)变量,也有定量(数值) 变量。按照这个数据的格式,每一列为一个变量 的不同观测值;而每一行则称为一个观测值,它 是个由数量值和属性值组成的向量,每一个值相 应于一个变量。 思考? 1. 举出一些观测数据和试验数据的例子。 ? 2. 举出简单随机样本的例子。 ? 3. 根据你的经验,举出总体和样本的一些具 体例子。 ? 4. 举出调查抽样时可能发生的各种影响调查 结果的问题,并且提出你认为可以减少或避免这 些问题的建议。 ? 5. 根据你的直觉,本章提到的几种抽样方法 的优缺点是什么?原因何在? ? 6. 举出一些书报上发表的数据例子,并指出 那些是变量,哪些是观测值。 如 同 给 人 画 像 一 样数 据 的 描 述 直方图? 比如某个地区(地区1)学校高三男生 的身高;有163个度量如何用图形来表 示这个数据,使人们能够看出这个数 据的大体分布或“形状”呢?一个办 法就是画一个直方图(histogram)。 40302010 Std. D ev = 10.91 M ean = 170.9 0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0 N = 163.00地 区 1高 三 男 生 高 度 盒型图?比 直 方 图 简 单 一 些 的 是 盒 形 图 (boxplot,又称箱图、箱线图、盒子 图)。后面图的左边一个是根据地区1 高三男生的身高数据所绘的盒形图; 其右边的图代表另一个地区(地区2) 的高三学生的身高 210200158 96 5190248 250 259 323180高三男生身高170160150140N= 163 175地区1地区2地区 茎叶图 ?地区1高三男生身高 数据的茎叶图 HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . .00 15 .
16 . .00 16 .
25.00 17 . 4 24.00 17 .
13.00 18 . 3 11.00 18 .
19 . 56 3.00 Extremes (&=198) Stem width: 10.00 Each leaf: 1 case(s) 散点图? 往往人们得到的数据有两个变量的,比如美国男士 和女士初婚年限的数据。该数据描述了自1900年到 1998年男女第一次结婚延续的时间的中位数。当然, 不可能将所有人的婚姻年限都给出来。所以,每年 就取了一个中间的值(中位数)作为代表。自1900到 1960年是每十年一个值,以后到1990是每五年取一 个数,1995年以后是每年一个数。这里的一个变量 为记录年份,另一个是结婚时间长短。由于分男士 和女士,因此有两二维数据。这时可以以一个变量 为横坐标(如年份),另一个为纵坐标(这里是结 婚年限)来点图。这种图称为散点图(scatter plot)。还可以看出在二十世纪六十年代婚姻年限 降低,而后来又升高。而男子的年限平均比女性长。 这个图是用SPSS画的。 2827262524232221 女 20 40 00 男 定性变量的点图? 定性变量(或属性变量,分类变量) 不能点出直方图、散点图或茎叶图, 但可以描绘出它们各类的比例。下面 用SPSS绘的图表示了说世界各种主要 语言的人数的比例 饼图中国北方 17.93% 英语 8.57%阿拉伯语 德语 4.27% 2.13% 俄语 4.59% 法语 2.15% 马来-印 2.94% 孟加拉语 3.59% 葡萄牙语 3.24%印地语8.27%33.14%西班牙语 7.09% 日语 2.10%其他 日常使用母语中 英 印 西 日 其 葡 孟 马 法 俄 德 语 他 萄 加 来 语 语 语 阿 拉 伯 语 牙 拉 - 语 语 印 班 牙 地 语 语 语国北方条形图3000200010000语种Mean 汇总统计量或概括统计量(summary statistic) 汇总统计量(位置)? 均值(mean) ? 中位数(median) ? (第一,第三)四分位数(点)(first quantile, third quantile ) ? k-百分位数(k-percentile) ? 众数(mode) 汇总统计量(尺度) (scale statistic)? 极差(range) ? 四分位间距(四分位极差) (interquantile range) ? 标准差(standard deviation) ? 方差(variance) 806040200-3-2-10 x1230-320406080-2-10 y123两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半 数据的标准得分 (standard score)? 两个水平类似的班级(一班和二班)上同一门课,但是 由于两个任课老师的评分标准不同,使得两个班成绩的 均值和标准差都不一样(数据:grade.sav)。一班分数的 均值和标准差分别为78.53和9.43,而二班的均值和标准 差分别为70.19和7.00。那么得到90分的一班的张颖是不 是比得到82分的二班的刘疏成绩更好呢?怎么比较才能 合理呢?虽然这种均值和标准差不同的数据不能够直接 比较,但是可以把它们进行标准化,然后再比较标准化 后的数据。一个标准化的方法是把原始观测值(亦称得 分,score)和均值之差除以标准差;得到的度量称为 标准得分(standard score)。 11010090807060250得分1340N= 97 100一班二班2班级10-1-22标准得分-31-4N= 97 100一班二班班级 思考? 1. 根据你的经验,给出定性和定量变量的例 子。 ? 2. 对于问题1中你的例子,试图画出各种描述 性图形并计算汇总统计量。 ? 3. 举例说明众数、中位数和均值的优缺点。 ? 4. 举例说明尺度统计量说明了数据的什么特 性。 ? 5. 标准得分实际上是对原始数据的一种标准化。 试举出标准得分的用处。 结从 论数 的据 过得 程到 对 现 实 世 界 的统 计 推 断 估计? 总体它代表我们所关心的那部分现实世界。 而在利用样本中的信息来对总体进行推断 之前人们一般对代表总体的变量假定了分 布族。比如假定人们的身高属于正态分布 族;对抽样调查假定了二项分布族等等。 这些模型基本上是根据经验来假定的,所 以仅仅是对现实世界的一个近似。在假定 了总体分布族之后,进一步对总体的认识 就是要在这个分布族中选择一个适合于我 们问题的分布;由于分布族成员是由参数 确定的,如果参数能够估计,对总体的具 体分布就知道得差不多了。 估计? 一种是点估计(point estimation),也就是用 估计量的实现值来近似相应的总体参数。 ? 另一种是区间估计(interval estimation);它 是包括估计量在内(有时是以估计量为中 心)的一个区间;该区间被认为很可能包 含总体参数。 ? 点估计给出一个数字,用起来很方便;而 区间估计给出一个区间,说起来留有余地; 不象点估计那么绝对。 ? 无偏估计(大样本性质) ? 区间估计的置信度(大样本性质) 估计? 注意置信区间的论述是由区间和置信 度两部分组成。有些新闻媒体报道一 些调查结果只给出百分比和误差(即 置信区间),并不说明置信度,也不 给出被调查的人数,这是不负责的表 现。因为降低置信度可以使置信区间 变窄(显得“精确”),有误导读者 之嫌。如果给出被调查的人数,则内 行可以由推算出置信度(由后面给出 的公式),反之亦然。 一个描述性例子? 一个有10000个人回答的调查显示,同意某 种 观 点 的 人 的 比 例 为 70% ( 有 7000 人 同 意),可以算出总体中同意该观点的比例 的95%置信区间为(0.691,0.709);另一 个调查声称有70%的比例反对该种观点, 还说总体中反对该观点的置信区间也是 (0.691,0.709)。到底相信谁呢?实际上, 第二个调查隐瞒了置信度(等价于隐瞒了 样本量)。如果第二个调查仅仅调查了50 个人,有35个人反对该观点。根据后面的 公式可以算出,第二个调查的置信区间的 置信度仅有11%。 假设检验? 在假设检验中,一般要设立一个原假设; 而设立该假设的动机主要是企图利用人们 掌握的反映现实世界的数据来找出假设和 现实的矛盾,从而否定这个假设。在多数 统计教科书中(除了理论探讨之外)的假 设检验都是以否定原假设为目标。 ? 如果否定不了,那就说明证据不足,无法 否定原假设。但这不能说明原假设正确。 很多教科书在这个问题上不适当地用“接 受原假设”的说法,犯了明显的低级逻辑 假设检验的过程和逻辑? 首先要提出一个原假设,比如某正态 总体的均值等于5(m=5)。这种原假 设也称为零假设(null hypothesis), 记为H0。 ? 与此同时必须提出对立假设,比如总 体均值大于5(m&5)。对立假设又称 为备选假设或备择假设(alternative hypothesis)记为记为H1或Ha。 假设检验的过程和逻辑? 根据零假设(不是备选假设!),我 们可以得到该检验统计量的分布; ? 然后再看这个统计量的数据实现值 (realization)属不属于小概率事件。 也就是说把数据代入检验统计量,看 其值是否落入零假设下的小概率范畴; ? 如果的确是小概率事件,那么我们就 有可能拒绝零假设,否则我们说没有 足够证据拒绝零假设。 假设检验的过程和逻辑? 注意:零假设和备选假设在假设检验 中并不对称。因检验统计量的分布是 从零假设导出的,因此,如果发生矛 盾,当然就对零假设不利了。 ? 不发生矛盾也不说明备选假设有问题 (因为和备选假设无关)。 假设检验的过程和逻辑? 检验统计量在零假设下等于这个样本的数 据实现值或更加极端值的概率称为p-值(pvalue)。 ? 显然得到很小p-值意味着小概率事件发生 了。如果小概率事件发生,是相信零假设, 还是相信数据呢? ? 当然是相信数据。于是就拒绝零假设。但 小概率并不能说明不会发生,仅仅发生的 概率很小罢了。 ? 拒绝正确零假设的错误常被称为第一类错 误(type I error)。 假设检验的过程和逻辑? 有第一类错误,就有第二类错误;那是备 选零假设正确时反而说零假设正确的错误, 称为第二类错误(type II error)。 ? 零假设和备选假设哪一个正确,这是确定 性的,没有概率可言。 ? 而可能犯错误的是人。涉及假设检验的犯 错误的概率就是犯第一类错误的概率和犯 第二类错误的概率。 ? 负责的态度是无论做出什么决策,都应该 给出犯错误的概率。 假设检验的过程和逻辑? 到底p-值是多小才能够拒绝零假设呢?也就是说, 需要有什么是小概率的标准。这要看具体应用的 需要。但在一般的统计书和软件中,使用最多的 标准是在零假设下(或零假设正确时)抽样所得 的数据拒绝零假设的概率应小于0.05(也可能是 0.01,0.005,0.001等等)。这种事先规定的概 率称为显著性水平(significance level),用字母a 来表示。当p-值小于或等于a时,就拒绝零假设。 所以,a是所允许的犯第一类错误概率的最大值。 当p-值小于或等于a时,我们说这个检验是显著 的(significant)。 假设检验的过程和逻辑? 归纳起来,假设检验的逻辑步骤为: ? 第一,写出零假设和备选假设; ? 第二,确定检验统计量; ? 第三,确定显著性水平a; ? 第四,根据数据计算检验统计量的实现值; ? 第五,根据这个实现值计算p?值; ? 第六,进行判断:如果p?值小于或等于a, 就拒绝零假设,这时犯错误的概率最多为a; 如果p?值大于a,就不拒绝零假设,因为证 据不足。 假设检验的过程和逻辑? 实际上,计算机软件仅仅给出p-值,而不 给出a。这有很多方便之处。比如a=0.05, 而假定我们得到的p-值等于0.001。这时我 们如果如果采用p-值作为新的显著性水平, 即a=0.001,于是可以说,我们拒绝零假设, 显著性水平为0.001。拒绝零假设时犯错误 的概率实际只是千分之一而不是百分之五。 在这个意义上,p-值又称为观测的显著性 水平(observed significant level)。在统计 软件输出p-值的位置,有的用“p-value”, 有的用significant的缩写“Sig”就是这个道 理。 假设检验的过程和逻辑? 展示结果的精确性(根据数据减少a的 值)总是没有害处的。这好比一个身 高180厘米的男生,可能愿意被认为高 于或等于180厘米,而不愿意说他高于 或等于155厘米,虽然这第二种说法数 学上没有丝毫错误。 假设检验的过程和逻辑? 关于“临界值”的注:作为概率的显著性水平a实际上 相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概 率等于a。也就是说,“统计量的实现值比临界值更极 端”等价于“p-值小于a”。使用临界值的概念进行的检 验不计算p-值。只比较统计量的取值和临界值的大小。 ? 使用临界值而不是p-值来判断拒绝与否是前计算机时代 的产物。当时计算p-值不易,只有采用临界值的概念。 但从给定的a求临界值同样也不容易,好在习惯上仅仅 在教科书中列出相应于特定分布的几个有限的a临界值 (比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001 等等),或者根据分布表反过来查临界值(很不方便也 很粗糙)。 ? 现在计算机软件都不给出a和临界值,但都给出p-值和 统计量实现值,让用户自己决定显著性水平是多少。 假设检验的例子? 汽车厂商声称其发动机排放标准的一个指标平均 低于20个单位。在抽查了10台发动机之后,得到 下面的排放数据:17.0、21.7、17.9、22.9、20.7、 22.4、17.3、21.8、24.2、25.4。该样本均值为 21.13。究竟能否由此认为该指标均值超过20? 这次我们的假设检验问题就是H 0 : m ? 20 ? H1 : m ? 20 假设检验的例子? 检验统计量为t?x ? m0 s/ n? 1.234? 我们可以发现p-值为0.1243,因此,我们没有证 据否定零假设。 Tail Probability for t(9) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 p-value=0. t=1.234 0 -5 -4 -3 -2 -1 0 t value 1 2 3 4 5Density of t(9) 结从 论数 的据 过得 程到 对 现 实 世 界 的统 计 推 断 估计? 总体它代表我们所关心的那部分现实世界。 而在利用样本中的信息来对总体进行推断 之前人们一般对代表总体的变量假定了分 布族。比如假定人们的身高属于正态分布 族;对抽样调查假定了二项分布族等等。 这些模型基本上是根据经验来假定的,所 以仅仅是对现实世界的一个近似。在假定 了总体分布族之后,进一步对总体的认识 就是要在这个分布族中选择一个适合于我 们问题的分布;由于分布族成员是由参数 确定的,如果参数能够估计,对总体的具 体分布就知道得差不多了。 估计? 一种是点估计(point estimation),也就是用 估计量的实现值来近似相应的总体参数。 ? 另一种是区间估计(interval estimation);它 是包括估计量在内(有时是以估计量为中 心)的一个区间;该区间被认为很可能包 含总体参数。 ? 点估计给出一个数字,用起来很方便;而 区间估计给出一个区间,说起来留有余地; 不象点估计那么绝对。 ? 无偏估计(大样本性质) ? 区间估计的置信度(大样本性质) 估计? 注意置信区间的论述是由区间和置信 度两部分组成。有些新闻媒体报道一 些调查结果只给出百分比和误差(即 置信区间),并不说明置信度,也不 给出被调查的人数,这是不负责的表 现。因为降低置信度可以使置信区间 变窄(显得“精确”),有误导读者 之嫌。如果给出被调查的人数,则内 行可以由推算出置信度(由后面给出 的公式),反之亦然。 一个描述性例子? 一个有10000个人回答的调查显示,同意某 种 观 点 的 人 的 比 例 为 70% ( 有 7000 人 同 意),可以算出总体中同意该观点的比例 的95%置信区间为(0.691,0.709);另一 个调查声称有70%的比例反对该种观点, 还说总体中反对该观点的置信区间也是 (0.691,0.709)。到底相信谁呢?实际上, 第二个调查隐瞒了置信度(等价于隐瞒了 样本量)。如果第二个调查仅仅调查了50 个人,有35个人反对该观点。根据后面的 公式可以算出,第二个调查的置信区间的 置信度仅有11%。 假设检验? 在假设检验中,一般要设立一个原假设; 而设立该假设的动机主要是企图利用人们 掌握的反映现实世界的数据来找出假设和 现实的矛盾,从而否定这个假设。在多数 统计教科书中(除了理论探讨之外)的假 设检验都是以否定原假设为目标。 ? 如果否定不了,那就说明证据不足,无法 否定原假设。但这不能说明原假设正确。 很多教科书在这个问题上不适当地用“接 受原假设”的说法,犯了明显的低级逻辑 假设检验的过程和逻辑? 首先要提出一个原假设,比如某正态 总体的均值等于5(m=5)。这种原假 设也称为零假设(null hypothesis), 记为H0。 ? 与此同时必须提出对立假设,比如总 体均值大于5(m&5)。对立假设又称 为备选假设或备择假设(alternative hypothesis)记为记为H1或Ha。 假设检验的过程和逻辑? 根据零假设(不是备选假设!),我 们可以得到该检验统计量的分布; ? 然后再看这个统计量的数据实现值 (realization)属不属于小概率事件。 也就是说把数据代入检验统计量,看 其值是否落入零假设下的小概率范畴; ? 如果的确是小概率事件,那么我们就 有可能拒绝零假设,否则我们说没有 足够证据拒绝零假设。 假设检验的过程和逻辑? 注意:零假设和备选假设在假设检验 中并不对称。因检验统计量的分布是 从零假设导出的,因此,如果发生矛 盾,当然就对零假设不利了。 ? 不发生矛盾也不说明备选假设有问题 (因为和备选假设无关)。 假设检验的过程和逻辑? 检验统计量在零假设下等于这个样本的数 据实现值或更加极端值的概率称为p-值(pvalue)。 ? 显然得到很小p-值意味着小概率事件发生 了。如果小概率事件发生,是相信零假设, 还是相信数据呢? ? 当然是相信数据。于是就拒绝零假设。但 小概率并不能说明不会发生,仅仅发生的 概率很小罢了。 ? 拒绝正确零假设的错误常被称为第一类错 误(type I error)。 假设检验的过程和逻辑? 有第一类错误,就有第二类错误;那是备 选零假设正确时反而说零假设正确的错误, 称为第二类错误(type II error)。 ? 零假设和备选假设哪一个正确,这是确定 性的,没有概率可言。 ? 而可能犯错误的是人。涉及假设检验的犯 错误的概率就是犯第一类错误的概率和犯 第二类错误的概率。 ? 负责的态度是无论做出什么决策,都应该 给出犯错误的概率。 假设检验的过程和逻辑? 到底p-值是多小才能够拒绝零假设呢?也 就是说,需要有什么是小概率的标准。这 要看具体应用的需要。但在一般的统计书 和软件中,使用最多的标准是在零假设下 (或零假设正确时)抽样所得的数据拒绝 零假设的概率应小于0.05(也可能是0.01, 0.005,0.001等等)。这种事先规定的概率 称为显著性水平(significant level),用字母 a来表示。当p-值小于或等于a时,就拒绝 零假设。所以,a是所允许的犯第一类错误 概率的最大值。当p-值小于或等于a时,我 们说这个检验是显著的(significant)。 假设检验的过程和逻辑? 归纳起来,假设检验的逻辑步骤为: ? 第一,写出零假设和备选假设; ? 第二,确定检验统计量; ? 第三,确定显著性水平a; ? 第四,根据数据计算检验统计量的实现值; ? 第五,根据这个实现值计算p?值; ? 第六,进行判断:如果p?值小于或等于a, 就拒绝零假设,这时犯错误的概率最多为a; 如果p?值大于a,就不拒绝零假设,因为证 据不足。 假设检验的过程和逻辑? 实际上,计算机软件仅仅给出p-值,而不 给出a。这有很多方便之处。比如a=0.05, 而假定我们得到的p-值等于0.001。这时我 们如果如果采用p-值作为新的显著性水平, 即a=0.001,于是可以说,我们拒绝零假设, 显著性水平为0.001。拒绝零假设时犯错误 的概率实际只是千分之一而不是百分之五。 在这个意义上,p-值又称为观测的显著性 水平(observed significant level)。在统计 软件输出p-值的位置,有的用“p-value”, 有的用significant的缩写“Sig”就是这个道 理。 假设检验的过程和逻辑? 展示结果的精确性(根据数据减少a的 值)总是没有害处的。这好比一个身 高180厘米的男生,可能愿意被认为高 于或等于180厘米,而不愿意说他高于 或等于155厘米,虽然这第二种说法数 学上没有丝毫错误。 假设检验的过程和逻辑? 关于“临界值”的注:作为概率的显著性水平a实际上 相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概 率等于a。也就是说,“统计量的实现值比临界值更极 端”等价于“p-值小于a”。使用临界值的概念进行的检 验不计算p-值。只比较统计量的取值和临界值的大小。 ? 使用临界值而不是p-值来判断拒绝与否是前计算机时代 的产物。当时计算p-值不易,只有采用临界值的概念。 但从给定的a求临界值同样也不容易,好在习惯上仅仅 在教科书中列出相应于特定分布的几个有限的a临界值 (比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001 等等),或者根据分布表反过来查临界值(很不方便也 很粗糙)。 ? 现在计算机软件都不给出a和临界值,但都给出p-值和 统计量实现值,让用户自己决定显著性水平是多少。 假设检验的例子? 汽车厂商声称其发动机排放标准的一个指标平均 低于20个单位。在抽查了10台发动机之后,得到 下面的排放数据:17.0、21.7、17.9、22.9、20.7、 22.4、17.3、21.8、24.2、25.4。该样本均值为 21.13。究竟能否由此认为该指标均值超过20? 这次我们的假设检验问题就是H 0 : m ? 20 ? H1 : m ? 20 假设检验的例子? 检验统计量为t?x ? m0 s/ n? 1.234? 我们可以发现p-值为0.1243,因此,我们没有证 据否定零假设。 Tail Probability for t(9) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 p-value=0. t=1.234 0 -5 -4 -3 -2 -1 0 t value 1 2 3 4 5Density of t(9) 变 量 间 的 关 系 直到现在我们所涉及的仅仅是 对一些互相没有关系的变量的 描述。但是现实世界的问题都 是相互联系的。不讨论变量之 间的关系,就无从谈起任何有 深度的应用;而没有应用,前 面讲过的那些基本概念就仅仅 是摆设而已。 变量间的关系? 人们每时每刻都在关心事物之间的关系。 ? 比如,职业种类和收入之间的关系、政府 投入和经济增长之间的关系、广告投入和 经济效益之间的关系、治疗手段和治愈率 之间的关系等等。 ? 这些都是二元的关系。 ? 还有更加复杂的诸多变量之间的相互关系 , ? 比如企业的固定资产、流动资产、预算分 配、管理模式、生产率、债务和利润等诸 因素的关系是不能用简单的一些二元关系 所描述的。 例1广告投入和销售之间的关系(数据ads.sav)70 605040302010SALE0 0 2 4 6 8 10 12 14AD ? 这两个变量是否有关系?显然,它们有关系 ;这从散点图就很容易看出。基本上销售额 是随着广告投入的递增而递增。 ? 如果有关系,它们的关系是否显著?这也可 以从散点图得到。当广告投入在6万元以下, 销售额增长很快;但大于这个投入时,销售 额增长就不明显了。因此,这两个变量的关 系是由强变弱。 ? 这些关系是什么关系,是否可以用数学模型 来描述?本例看上去是可以拟合一个回归模 型(后面会介绍),但绝不是线性的(用一 条直线可以描述的)。具体细节需要进一步 的分析这是什么关系? 这是什么关系?? 这个关系是否带有普遍性?也就是说,仅仅 这一个样本有这样的关系,还是对于其他企 业也有类似的规律。这里的数据还不足以回 答这个问题。可能需要考虑更多的变量和收 集更多的数据。一般来说,人们希望能够从 一些特殊的样本,得到普遍的结论,以利于 预测。 ? 这个关系是不是因果关系?在本问题中,看 来有因果关系。这类似于一种试验;而试验 时是容易找到因果关系的。但是,一般来说 ,变量之间有关系但绝不意味着存在因果关 系。 定性变量间的关系(关于某项政策调查所得结果:table7.sav)观点:赞成低收 入男 女观点:不赞成低收 入 中等收 入 高收 入中等收 入高收 入20 2510 155 75 28 710 9大致可以看出女性赞成的多, 低收入赞成的多 定性和定量变量间的混和关系假想关于高等学校的数据的一些指标包括:在校生人数(S), 研究生比例(G), 教师人数(F), 职工人数(ST),SCI和SSCI文 章数目(P), SCI和SSCI文章引用数目(Q), 科研项目数(PR), 科研经费(B),总经费及招生范围(N)等从这个数据很难马上看到任何关系。但是从这个 数据可以得到许多有用的关系和结论。比如,可 以得到任何一个变量和其余变量之间的定量关系 或者多个变量之间的定量关系(因而可以建立模 型,进行预测和各种推断);也可以利用其中一 些变量把各个高等学校分类;还可以把众多的变 量用少数几个变量代替以利于分析和理解;此外 这个数据可以作为高校排名的根据之一。所有这 些都是未来章节的内容。 相关和回归分析 相关和回归分析? 顾客对商品和服务的反映对于商家是至关重 要的,但是仅仅有满意顾客的比例是不够的, 商家希望了解什么是影响顾客观点的因素以 及这些因素是如何起作用的。 ? 一般来说,统计可以根据目前所拥有的信息 (数据)建立人们所关心的变量和其他有关 变量的关系(称为模型)。 ? 假如用Y表示感兴趣的变量,用X表示其他可 能有关的变量(可能是若干变量组成的向量 )。则所需要的是建立一个函数关系Y=f(X) 。这里Y称为因变量或响应变量,而X称为自 变量或解释变量或协变量。 ? 建立这种关系的过程就叫做回归。 相关和回归分析 ? 一旦建立了回归模型 ? 可以对各种变量的关系有了进一步的 定量理解 ? 还可以利用该模型(函数)通过自变 量对因变量做预测。 ? 这里所说的预测,是用已知的自变量 的值通过模型对未知的因变量值进行 估计;它并不一定涉及时间先后的概 念。 例1 有50个从初中升到高中的学生.为了比较初三的成绩是 否和高中的成绩相关,得到了他们在初三和高一的各科平 均成绩(数据:highschool.sav)50名同学初三和高一成绩的散点图10090807060高一成绩5040 40 50从这张图可以看出什么呢?60 70 80 90 100 110初三成绩 问题是 ? 怎么判断这两个变量是否相关? ? 如何相关? ? 相关的度量是什么? ? 进一步的问题是能否以初三成绩为 自变量,高一成绩为因变量来建立 一个回归模型以描述这样的关系, 或用于预测。 还有定性变量 ? 该数据中,除了初三和高一的成绩 之外,还有一个定性变量 ? 它是学生在高一时的家庭收入状况 ;它有三个水平:低、中、高,分 别在数据中用1、2、3表示。 还有定性变量下面是对三种收入对高一成绩和高一与初 三成绩差的盒形图1103010020高一成绩与初三成绩之差90 80 7010060-10高一成绩50 40 30N= 11 27 12 39 25-20-30N= 11 27 12123123家庭收入家庭收入 例2 这是200个不同年龄和性别的人对某项服务产品的认 可的数据(logi.sav). 年龄是连续变量,性别是有男和女( 分别用1和0表示)两个水平的定性变量,而(定性)变量“观 点”则为包含认可(用1表示)和不认可(用0表示)两个水平 的定性变量。120年龄和观点的散点图1.2100-.2 10 20 30 40 50 60 70Count观点(0为认可,1为不认可)1.080.8.660.440.20.0OPINION20 .00 0 .00 1.00 1.0080年龄性 别 ( 0:女 , 1:男 )从这两张图又可以看出什么呢? 两个定量变量的相关?如果两个定量变量没有关 系,就谈不上建立模型或 进行回归。 ?但怎样才能确定两个变量 有没有关系呢? ?最简单的办法就是画出它 们的散点图。 四组数据(每个有两个变量的样本)的散点图(a)2 2(b)10y-1y -2-3 -2 -1 x 0 1 2-2-101-2-1 x012(c)2(d)1y0y-2 -1 0 x 1 2-1-20-32468-2-10 x123 几种相关的度量? Pearson相关系数,又叫相关系数或线性相关系数 。它一般用字母r表示. ? Kendall t 相关系数(Kendall’s t)这里的度量原理 是把所有的样本点配对,看每一对中的x和y是否 都增加来判断总体模式. ? Spearman 秩相关系数,它和Pearson相关系数定 义有些类似,只不过在定义中把点的坐标换成各 自样本的秩. ? 它们各自都有以不相关为零假设的检验,即p-值 小则相关.但各自的相关含义不尽相同. ? 现在再来看例1的数据(highschool.sav).关于初三 和高一成绩的相关系数的结果是Pearson相关系 数,Kendall t 和Spearman 秩相关系数分别为 0.795, 0.595和0.758。 定量变量的线性回归分析? 对例1中的两个变量的数据进行线性回归,就是 要找到一条直线来最好地代表散点图中的那些点 。y ? ? 0 ? ?1 x ? eS1 60 70 80 90100y ? 26.44 ? 0.65x40 50 60 70 J3 80 90 1004050 检验问题等? 对于系数?1=0的检验 ? 对于拟合的F检验 2(决定系数)及修正的R2. ?R 多个自变量的回归y ? ? 0 ? ?1 x1 ? ? 2 x2 ? ? ? ? k xk ? e如何解释拟合直线?什么是逐步回归方法? 自变量中有定性变量的回归? 例1的数据中,还有一个自变量是定性变量“ 收 入 ” , 以 虚 拟 变 量 或 哑 元 (dummy variable)的方式出现;这里收入的“低”,“ 中”,“高”,用1,2,3来代表.所以,如果要用 这种哑元进行前面回归就没有道理了. ? 以例1数据为例,可以用下面的模型来描述:y ? ? 0 ? ?1 x ? a1 ? e , 代表家庭收入的哑元=1 时,=? 0 ? ?1 x ? a 2 ? e , 代表家庭收入的哑元=2 时,=? 0 ? ?1 x ? a 3 ? e , 代表家庭收入的哑元=3 时。 自变量中有定性变量的回归? 现在只要估计?0, ?1,和a1, a2, a3即可。 ? 哑元的各个参数a1, a2, a3本身只有相对意义,无法三个 都估计,只能够在有约束条件下才能够得到估计。 ? 约束条件可以有很多选择,一种默认的条件是把一个参 数设为0,比如a3=0,这样和它有相对意义的a1 和a2 就 可以估计出来了。 ? 对于例1,对?0, ?1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条,对三种家 庭收入各有一条:y ? 28.708 ? 0.688 x ? 11.066, (低收入家庭), y ? 28.708 ? 0.688 x ? 4. 679, (中等收入家庭), y ? 28.708 ? 0.688 x, (高收入家庭)。 SPSSS实现(hischool.sav)? Analize-General linear model-Univariate , ? 在Options中选择Parameter Estimates, ? 再 在 主 对 话 框 中 把 因 变 量 ( s1 ) 选 入 Dependent Variable,把定量自变量(j3)选 入Covariate,把定量因变量(income)选 入Factor中。 ? 然后再点击Model,在Specify Model中选 Custom, ? 再把两个有关的自变量选入右边,再在下 面Building Term中选Main effect。 ? Continue-OK,就得到结果了。输出的结 SPSS Syntax: UNIANOVA s1 BY income WITH j3 /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = income j3 . 注意 ? 这里进行的线性回归,仅仅是回归 的一种,也是历史最悠久的一种。 ? 但是,任何模型都是某种近似; ? 线性回归当然也不另外。 ? 它被长期广泛深入地研究主要是因 为数学上相对简单。 ? 它已经成为其他回归的一个基础。 ? 总应该用批判的眼光看这些模型。 Logistic 回归? 例2是关于200个不同年龄,性别的人对某项 服务产品的观点(二元定性变量)的数据 (logi.sav). ? 这里观点是因变量, 只有两个值;所以可以把 它看作成功概率为p的Bernoulli试验的结果. ? 但是和单纯的Bernoulli试验不同,这里的概 率p为年龄和性别的函数. ? 可以假定下面的(logistic回归)模型? p ? ln ? ? ? ? 0 ? ?1 x ? a i , 这里i ? 0,1 代表女性和男性 ? 1? p ? Logistic 回归? 为了循序渐近,先拟合没有性别作为 自变量(只有年龄x)的模型? p ? ln ? ? ? ? 0 ? ?1 x 或者等价地 ? 1? p ? e p? ? 0 ? ?1 x 1? e? 0 ? ?1 x Logistic模型拟合结果? 依靠计算机,很容易得到?0和?1的估计 分别为0.520和-0.069。拟合的模型为? p ? ln ? ? ? 0.520 ? 0.069x ? 1? p ?p 0.2 0.0 0.1 0.3203040 age506070 Logistic模型拟合结果再加上性别变量进行拟合,得到的?0, ?1和a0, a1的 估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0.可以看出年龄影响对男女混和时(0.069) 差不多,而女性相对于男性认可的可能性大(a0a1=1.778)。? p ? ln ? ? ? 1.722 ? 0.072 x ? 1.778 ? 1? p ? ? p ? ln ? ? ? 1.722 ? 0.072 x ? 1? p ? 拟合的年龄-概率图0.8 p 0.0 0.2 0.4 0.6203040 age506070 ? Analize-Regression-Binary Logistic, ? 再 把 因 变 量 (opinion) 选 入 Dependent Variable , 把 自 变 量 ( age 和 sex ) 选 入 Covariates, ? Categorical , 再 把 定 性 变 量 sex 选 入 Categorical Covariate, ? 回到主对话框,点击OK即可得到结果。 ? 注:SPSS的syntax:LOGISTIC REGRESSION VAR=opinion /METHOD=ENTER age sex /CONTRAST (sex)=Indicator /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .SPSSS实现(logi.sav) 实事求是(三个真实数据) 对数据的理解(昌都数据例)图1. 总人口变化情况60 58561990年人口减少了吗?5452总人口(万)5048 46 84 90 96 02年份 对数据的理解(昌都数据例)图5. 固定资产投资情况16 14 12 10 8 6 4 2 0 84 90 96 021993,94年投资为什么波动?固定资产投资(亿元)年份 对数据的理解(昌都数据例)图8. 公路客运总量增长情况301993,94年总运量怎么搞的那么高?20客运总量(万人)100 84 90 96 02年份 SPSS的数据输入? 数据的键入(T01.sav) ? 数据从其他文本读入:File-Open-Data-文件 类型(Sav,Excel,SAS,dBase,TXT等等) (T02.txt);散点图 ? 定性变量的加权(每一行的权数等于该行被 观测到的次数)(T03.sav)和不加权(T04.sav); 条形图,饼图 ? 数据的变换(T01.sav)(多重散点图,图的编辑 ) SPSS的相关分析? 相关分析(hischool.sav) ? 利 用 SPSS 选 项 : Analize - Correlate - Bivariate ? 再把两个有关的变量(这里为j3和s1)选入, 选择Pearson,Spearman和Kendall就可以 得出这三个相关系数和有关的检验结果了( 零假设均为不相关)。 SPSS的回归分析? 自变量和因变量都是定量变量时的线性回 归分析(hischool.sav) ? 利 用 SPSS 选 项 : Analize - Regression - Linear ? 再把有关的自变量选入Independent,把因 变量选入Dependent,然后OK即可。如果 自变量有多个(多元回归模型),只要都 选入就行。 SPSS的回归分析? 自变量中有定性变量(哑元)和定量变量而因变 量为定量变量时的线性回归分析 (hischool.sav) ? 利用SPSS选项:Analize-General linear model -Univariate, ? 在Options中选择Parameter Estimates, ? 再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把 定性因变量(income)选入Factor中。 ? 点击Model,在Specify Model中选Custom,再把 两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue-OK。 SPSS的Logistic回归(logi.sav)? 自变量为定量变量时:利用SPSS选项:Analize -Regression-Binary Logistic, ? 再 把 因 变 量 (opinion) 选 入 DependentVariable , 把自变量(age)选入Covariates,OK即可得到 结果。 ? 自变量为定量变量及定量变量时:利用SPSS选 项:Analize-Regression-Binary Logistic, ? 再 把 因 变 量 (opinion) 选 入 DependentVariable , 把自变量(age和sex)选入Covariates,然后点 Categorical,再把定性变量sex选入Categorical Covariate,回到主对话框,点击OK即可得到结 果。 2检验和对数线性模型 列联表、c 三维列联表(关于某项政策调查所得结果:table7.sav)观点:赞成低收 入男 女观点:不赞成低收 入 中等收 入 高收 入中等收 入高收 入20 2510 155 75 28 710 9 列联表? 前面就是一个所谓的三维列联表 (contingency table). ? 这些变量中每个都有两个或更多的可能取 值。这些取值也称为水平;比如收入有三 个水平,观点有两个水平,性别有两个水 平等。该表为3?2?2列联表 ? 在SPSS数据中,表就不和课本印的一样, 收入的“低”、“中”、“高”用代码1、 2、3代表;性别的“女”、“男”用代码0 、1代表;观点“赞成”和“不赞成”用1 、0代表。有些计算机数据对于这些代码的 形式不限(可以是数字,也可以是字符串 列联表? 列联表的中间各个变量不同水平的交 汇处,就是这种水平组合出现的频数 或计数(count)。 ? 二维的列联表又称为交叉表(cross table)。 ? 列联表可以有很多维。维数多的叫做 高维列联表。 ? 注意前面这个列联表的变量都是定性 变量;但列联表也会带有定量变量作为 协变量。 二维列联表的检验?研究列联表的一个主 要目的是看这些变量 是否相关。比如前面 例子中的收入和观点 是否相关。 ?这需要形式上的检验 二维列联表的检验? 下面表是把该例的三维表简化成只有收入 和观点的二维表(这是SPSS自动转化的 :Analyze-Descriptive Statistics-Crosstabs…..).OPINION * INCOME Cr osstabulation Co unt 1 O PINIO N 0 1 Total 7 45 52 INCO ME 2 15 25 40 3 19 12 31 Total 41 82 123 ? 对于上面那样的二维表。我们检验的零假设 和备选假设为? H0:观点和收入这两个变量不相关;H1:这两个变量相关。二维列联表的检验? 这里的检验统计量在零假设下有(大样本时 )近似的c2分布。 ? 当该统计量很大时或p-值很小时,就可以拒 绝零假设,认为两个变量相关。 ? 实际上有不止一个c2检验统计量。包括 Pearson c2统计量和似然比(likelihood ratio )c2统计量;它们都有渐近的c2分布。 ? 根据计算可以得到(对于这两个统计量均有 )p-值小于0.001。因此可以说,收入高低的 确影响观点。 Pearson c2统计量Q??i ?1n? Oi ? Ei ?Ei2似然比c2统计量Oi T ? 2? Oi ln Ei i ?1n ? 刚才说,这些c2统计量是近似的,那么有没有 精确的统计量呢? ? 当然有。这个检验称为Fisher精确检验;它 不是c2分布,而是超几何分布。 ? 对本问题,计算Fisher统计量得到的p-值也小 于0.001。 ? 聪明的同学必然会问,既然有精确检验为什 么还要用近似的c2检验呢? ? 这是因为当数目很大时,超几何分布计算相 当缓慢(比近似计算会差很多倍的时间); 而且在计算机速度不快时,根本无法计算。 因此人们多用大样本近似的c2统计量。而列联 表的有关检验也和c2检验联系起来了。二维列联表的检验 Fisher精确检验 SPSS: Weight-Describ-crosstab-exact…Chi-S quare Tes ts Value 10.288 b 9.107 10.496 df Asymp. Sig. (2-sided) .001 .003 .001 Exact Sig. (2-sided) .002 Exact Sig. (1-sided) .001Pearson Chi-Square 1 a Continuity Correction 1 Likelihood Ratio 1 .002 .001 Fisher's Exact Test .002 .001 N of Valid Cases 113 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 23.45. [table7.sav] 其中有变量性别(sex)、观点(opinion) 和收入(income);每一列相应于其代表的变量的 水平;每一行为一种水平的组合(共有2?3?2=12 种组合(12行), 而每种组合的数目(也就是列联表中的频数)在 number那一列上面,这就是每种组合的权重 (weight),需要把这个数目考虑进去,称为加权 (weight).如果不加权,最后结果按照所有组合只 出现一次来算(也就是说,按照列联表每一格的频 数为1).由于在后面的选项中没有加权的机会,因 此在一开始就要加权.方法是点击图标中的小天平 (“权”就是天平的意思),出现对话框之后点击 Weught cases,然后把“number”选入即可。 加权之后,按照次序选Analyze-Descriptive Statistics-Crosstabs。 在打开的对话框中,把opinion和income分别选入 Row(行)和Column(列);至于哪个放入行或 哪个放入列是没有关系的。 如果要Fisher精确检验则可以点Exact,另外在 Statistics中选择Chi-square,以得到c2检验结果。 最后点击OK之后,就得到有关Pearson c2统计量、 似然比c2统计量以及Fisher统计量的输出了(这里 的Sig就是p-值)。 下面就是SPSS计算机对于这个问题的输出Chi-Square Tests Value 20.456a 21.190 20.713 20.290bdf 2 2 1Pearso n Chi- Square Lik elihood Ratio Fisher 's Exact Test Lin ear -by -Linear Associatio n N of Valid C asesAsy mp. Sig. (2-sided) .000 .000 .000Exact Sig . (2-sided) .000 .000 .000 .000Exact Sig . (1-sided)Point Pr obability.000.000123a. 0 cells (.0%) hav e expected cou nt less than 5. The minimu m expected co unt is 10.33. b. The stand ar dized statistic is -4.504. 高维列联表和(多项分布)对数线性模型? 前面例子原始数据是个三维列联表 ,对三维列联表的检验和对两维类 似。 ? 但高维列联表在计算机软件的选项 上有所不同,而且可以构造一个所 谓(多项分布)对数线性模型 (loglinear model)来进行分析。 ? 利用对数线性模型的好处是不仅可 以直接进行预测,而且可以增加定 对数线性模型? 现在简单直观地通过二维表介绍一下对数线性模 型,假定不同的行代表第一个变量的不同水平, 而不同的列代表第二个变量的不同水平。用mij 代表二维列联表第i行,第j列的频数。人们常假 定这个频数可以用下面的公式来确定:ln(mij ) ? a i ? ? j ? e ij这就是所谓的对数线性模型。这里ai为行变量的 第i个水平对ln(mij)的影响,而?j为列变量的第j 个水平对ln(mij)的影响,这两个影响称为主效应 (main effect);eij代表随机误差。 (多项分布)对数线性模型? 这个模型看上去和回归模型很象,但由于对于分布的假 设不同,不能简单地用线性回归的方法来套用(和 Logistic回归类似);计算过程也很不一样。当然我们 把这个留给计算机去操心了。只要利用数据来拟合这个 模型就可以得到对于参数m的估计(没有意义),以及 ai和?j的“估计”。 ? 有了估计的参数,就可以预测出任何i,j水平组合的频 数mij了(通过其对数)。 ? 注意,这里的估计之所以打引号是因为一个变量的各个 水平的影响是相对的,因此,只有事先固定一个参数值( 比如a1=0),或者设定类似于Sai=0这样的约束,才可能 估计出各个的值。没有约束,则这些参数是估计不出来 的。 (多项分布)对数线性模型? 二维列联表的更完全的对数线性模型为ln(mij ) ? ai ? ? j ? (a? )ij ? e ij? 这里的(a??ij代表第一个变量的第i个水平 和第二个变量的第j个水平对ln(mij)的共同 影响,称为交叉效应。也就是说,当单独 作用时,每个变量的一个水平对ln(mij)的 影响只有ai(或?j)大,但如果这两个变量 一同影响就不仅是ai+?j,而且还多出一项。 ? 这里的交叉项的诸参数的大小也是相对的, 也需要约束条件来得到其“估计”;涉及 的变量和水平越多,约束也越多。 注意,无论你对模型假定了多少种效应, 并不见得都有意义;有些可能是多余的。 本来没有交叉影响,但如果写入,也没 有关系,在分析过程中一般可以知道哪 些影响是显著的,而那些是不显著的。 对数线性模型? 常用的对数线性模型主要是两种 ? 一类为Poisson对数线性模型.它假定每个格子里面的频 数满足一个Poisson分布(后面再介绍). ? 一种是多项分布对数线性模型,假定所有的可能格子里 面的频数满足多项分布。 ? 在统计软件的选项中会有关于分布的选项的。 ? 高维表的检验统计量和二维表一样也包含了Pearson c2 统计量和似然比c2统计量, 检验对数线性模型拟合的好 坏程度的。 ? 就我们这里的三维列联表问题,如果只考虑各个变量单 独的影响,而不考虑变量组合的综合影响,其SPSS输 出的Pearson c2 统计量和似然比c2 统计量得到的p-值分 别为0.1。 用table7.sav数据拟合对数线性模型? 假定(多项分布)对数线性模型为ln(mijk ) ? ai ? ? j ? g k ? e ijk? 这里ai为收入(i?1?2?3代表收入的低、中、高三 个水平),?j为观点(j?1?2代表不赞成和赞成两 个水平),gk为性别(k?1?2代表女性和男性两 个水平)? mij代表二维列联表对于三个变量的第 ijk水平组合的出现次数,eijk为残差 ? 而从相应的参数估计输出结果,可以得到对ai的 三个值的估计为0.9,0.0000,对?j的 两个值的估计为-0.0,对gk的两个值 的估计为 0.0。(多项对数线性模型 无常数项) Poison对数线性模型? 有的时候,类似的高维表并不一定满足多项分布对数线 性模型。下面看一个例子。这是关于哮喘病人个数和空 气污染程度,年龄和性别的数据(asthma.sav) ? 下面表格表示了某地在一段时间记录下来的60组在不同 空气污染状态的不同年龄及不同性别的人的发生哮喘的 人数。 ? 其中性别为定性变量S(sex, 1代表女性,2代表男性) , ? 空气污染程度P也是定性变量(polut, 1、2、3分别代表 轻度、中度和严重污染), ? 年龄A (age)为定量变量,为那一组人的平均年龄; ? 还有一列数目C (count)为这一组的哮喘人数。 ? 这个表格和前面的列联表的不同点在于每一格的计数并 不简单是前面三个变量的组合的数目(某个年龄段,某 种性别及某种污染下的人数),而是代表了某个年龄段 ,某种性别及某种污染下发生哮喘的人数。 SPSS的实现? [数据table7.sav] 假定已经加权 (加权一次并存盘了既可) ? 这时的选项为Analyze-Loglinear-General, ? 首先选择格子中频数的分布,这里是多项分布 (其默认值 是Poisson对数线性模型). ? 然后把三个变量(sex,opinion,income)选入Factors(因子); ? 再选Model(模型),如果选Saturated(饱和模型),那就是 所有交叉效应都要放入模型;但如果不想这样,可以选 Custom(自定义),在Building Terms(构造模型的项)选 Main effect(主效应),再把三个变量一个一个地选进来(如 果两个或三个一同选入,等于选入交叉效应). ? 如果想要知道模型参数,在Options中选择Estimates。 ? 最后Continue-OK即可得出结果. ? 在结果中可以找到有关的结果。 ? 如果SPSS的Viewer输出不完全,可以选中不完全的输 出,利用Edit-Copy Objects来复制到例如记事本那样的 文件中,就可以看到完整输出了
Poisson 对数线性模型简介 :在某些固定的条件下, 人们认为某些 事件出现的次数服从Poisson分布, 比 如在某一个时间段内某种疾病的发 生病数, 显微镜下的微生物数, 血球 数, 门诊病人数, 投保数, 商店的顾客 数, 公共汽车到达数, 电话接通数等 等. 然而, 条件是不断变化的. 因此, 所涉及的Poisson分布的参数也随着 Poisson对数线性模型? 假定哮喘发生服从Poisson分布;但是由于条件 不同,Poisson分布的参数l也应该随着条件的变 化而改变。这里的条件就是给出的性别、空气污 染程度与年龄。当然,如何影响以及这些条件影 响是否显著则是我们所关心的。这个模型可以写 成ln(l ) ? m ? ai ? ? j ? g x ? e ij? 这里m为常数项,ai为性别(i=1,2分别代 表女性和男性两个水平),?j为空气污染 程度(j=1,2,3代表低、中高三个污染水 平),x为连续变量年龄,而g为年龄前面 的系数,eij为残差项。 Poisson对数线性模型? 从对于数据(asthma.sav)的Poisson对数线性模型 的相应SPSS输出,可以得到对m的估计为4?9820,对 ai 的两个值的“估计”为-0.0608、 0.0000,对?j 的三个值的“估计”为-0.3、0.0000 ,对g的估计为 0.0126。 ? 注意,这里的对主效应aI 和?j 的估计只有相对意义 ;它们在一个参数为0的约束条件下得到的。 ? 从模型看上去,年龄和性别对哮喘影响都不那么重 要。轻度污染显然比中度污染和严重污染哮喘要好 。但是似乎严重污染时哮喘稍微比中度污染少些(差 别不显著)。 ? 通过更进一步的分析(这里不进行),可以发现, 中度和严重空气污染(无论单独还是一起)和轻度 空气污染比较都显著增加哮喘人数,而中度及严重 污染时的哮喘人数并没有显著区别。 SPSS的实现? ? ? ? [数据asthma.sav] 假定已经加权 这时的选项为Analyze-Loglinear-General, 首先选择格子中频数的分布,这里是Poisson分布。 然后把两个变量(sex,polut)选入Factors(因子), 把age选入Cell Covariate(s)。 ? 再选Model(模型),这里以选Custom(自定义),在 Building Terms(构造模型的项)选Main effect(主效 应),再把三个变量一个一个地选进来。 ? 如果想要知道模型参数,在Options中选择Estimates。 最后Continue-OK即可得出结果。 ? 在结果中可以找到有关Pearson c2统计量和似然比c2统 计量的检验结果及参数的估计(如果SPSS的Viewer输 出不完 全 ,可 以选中 不完全 的输出 ,利用Edit-Copy Objects来复制到例如记事本那样的文件中,就可以看 到完整输出了)。 思考:列联表与Poisson 对数线性模型,以及后 面要介绍的试验设计的 数据表有什么区别? 因主 子成 分分 析分 析 和 汇报什么?? 假定你是一个公司的财务经理,掌握了公司的所 有数据,比如固定资产、流动资金、每一笔借贷 的数额和期限、各种税费、工资支出、原料消耗 、产值、利润、折旧、职工人数、职工的分工和 教育程度等等。 ? 如果让你向上面介绍公司状况,你能够把这些指 标和数字都原封不动地摆出去吗? ? 当然不能。 ? 你必须要把各个方面作出高度概括,用一两个指 标简单明了地把情况说清楚。 ? 每个人都会遇到有很多变量的数据。 ? 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 ? 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 ? 本章就介绍两种把变量维数降低以便于描述、理 解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分 析的一个特例。在引进主成分分析之前,先看下 面的例子。主成分分析 成绩数据(student.sav)? 100个学生的数学、物理、化学、语文、历史、 英语的成绩如下表(部分)。 从本例可能提出的问题? 目前的问题是,能不能把这个数据 的6个变量用一两个综合变量来表 示呢? ? 这一两个综合变量包含有多少原来 的信息呢? ? 能不能利用找到的综合变量来对学 生排序呢?这一类数据所涉及的问 题可以推广到对企业,对学校进行 分析、排序、判别和分类等问题。 主成分分析? 例中的的数据点是六维的;也就是说,每个观测 值是6维空间中的一个点。我们希望把6维空间用 低维空间表示。 ? 先假定只有二维,即只有两个变量,它们由横坐 标和纵坐标所代表;因此每个观测值都有相应于 这两个坐标轴的两个坐标值;如果这些数据形成 一个椭圆形状的点阵(这在变量的二维正态的假 定下是可能的) ? 那么这个椭圆有一个长轴和一个短轴。在短轴方 向上,数据变化很少;在极端的情况,短轴如果 退化成一点,那只有在长轴的方向才能够解释这 些点的变化了;这样,由二维到一维的降维就自 然完成了。 主成分分析? 当坐标轴和椭圆的长短轴平行,那么代表长轴的 变量就描述了数据的主要变化,而代表短轴的变 量就描述了数据的次要变化。 ? 但是,坐标轴通常并不和椭圆的长短轴平行。因 此,需要寻找椭圆的长短轴,并进行变换,使得 新变量和椭圆的长短轴平行。 ? 如果长轴变量代表了数据包含的大部分信息,就 用该变量代替原先的两个变量(舍去次要的一维 ),降维就完成了。 ? 椭圆(球)的长短轴相差得越大,降维也越有道 理。 -4-2024-4-2024 主成分分析 ? 对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。 ? 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。 ? 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。 主成分分析 ? 正如二维椭圆有两个主轴,三维椭球 有三个主轴一样,有几个变量,就有 几个主成分。 ? 选择越少的主成分,降维就越好。什 么是标准呢?那就是这些被选的主成 分所代表的主轴的长度之和占了主轴 长度总和的大部分。有些文献建议, 所选的主轴总长度占所有主轴长度之 和的大约85%即可,其实,这只是一 个大体的说法;具体选几个,要看实 际情况而定。 ? 对于我们的数据,SPSS输出为Total Varianc e Explai ned Initial Eigenvalues Component Total % of Variance Cumulative % 1 3.735 62.254 62.254 2 1.133 18.887 81.142 3 .457 7.619 88.761 4 .323 5.376 94.137 5 .199 3.320 97.457 6 .153 2.543 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3.735 62.254 62.254 1.133 18.887 81.142? 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。 ? 特征值的贡献还可以从SPSS的所谓碎石图看出Scree Plot43210 1 2 3 4 5 6Component Number ? 怎么解释这两个主成分。前面说过主成分 是原始六个变量的线性组合。是怎么样的 组合呢?SPSS可以输出下面的表。a Compo nent Mat rixComponent 1 2 3 4 MATH -.806 .353 -.040 .468 PHYS -.674 .531 -.454 -.240 CHEM -.675 .513 .499 -.181 LITERAT .893 .306 -.004 -.037 HISTORY .825 .435 .002 .079 ENGLISH .836 .425 .000 .074 Extraction Method: Principal Component Analysis. a. 6 components extracted. 5 .021 -.001 .002 .077 -.342 .276 6 .068 -.006 .003 .320 -.083 -.197? 这里每一列代表一个主成分作为原来变量线性组 合的系数(比例)。比如第一主成分为数学、物 理、化学、语文、历史、英语这六个变量的线性 组 合 , 系 数 ( 比 例 ) 为 -0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 ? 如用x1,x2,x3,x4,x5,x6分别表示原先的六个 变量,而用y1,y2,y3,y4,y5,y6表示新的主成 分,那么,第一和第二主成分为y1 ? -0.806 x1 - 0.674 x2 - 0.675 x3 ? 0.893x4 ? 0.825 x5 ? 0.836 xy2 ? 0.353x1 ? 0.531x2 ? 0.513x3 ? 0.306 x4 ? 0.435 x5 ? 0.425 x? 这些系数称为主成分载荷(loading),它表示 主成分和相应的原先变量的相关系数。 ? 比如y1 表示式中x1 的系数为-0.806,这就是说第 一主成分和数学变量的相关系数为-0.806。 ? 相关系数越大,主成分对该变量的代表性也越大。 可以看得出,第一主成分对各个变量解释得都很 充分。而最后的几个主成分和原先的变量就不那 么相关了。 ?可以把第一和第二主成 分的载荷点出一个二维图 以直观地显示它们如何解 释原来的变量的。这个图 叫做载荷图。 Component Plot1.0.5phy s chem mathhistory english literat0.0该图左面三个点是数学、物理、化学三科,右边三个点 是语文、历史、外语三科。图中的六个点由于比较挤, -.5 不易分清,但只要认识到这些点的坐标是前面的第一二 主成分载荷,坐标是前面表中第一二列中的数目,还是 可以识别的。-1.0 -1.0 -.5 0.0 .5 1.0Component 1 因子分析? 主成分分析从原理上是寻找椭球的所有主轴。因此,原 先有几个变量,就有几个主成分。 ? 而因子分析是事先确定要找几个成分,这里叫因子( factor)(比如两个),那就找两个。 ? 这使得在数学模型上,因子分析和主成分分析有不少区 别。而且因子分析的计算也复杂得多。根据因子分析模 型 的 特 点 , 它 还 多 一 道 工 序 : 因 子 旋 转 ( factor rotation);这个步骤可以使结果更好。 ? 当然,对于计算机来说,因子分析并不比主成分分析多 费多少时间。 ? 从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数 。但是在输出中的因子和原来变量相关系数的公式中的 系数不是因子载荷,也给出了二维图;该图虽然不是载 荷图,但解释和主成分分析的载荷图类似。 ? 主成分分析与因子分析的公式上的区别y1 ? a11 x1 ? a12 x2 ? ? ? a1 p x p y2 ? a21 x1 ? a22 x2 ? ? ? a2 p x p ?? y p ? a p1 x1 ? a p 2 x2 ? ? ? a pp x p主成分分析x1 ? m ? a11 f1 ? a12 f 2 ? ? ? a1m f m ? e1 x2 ? m ? a21 f1 ? a22 f 2 ? ? ? a2 m f m ? e 2 ?? x p ? m ? a p1 f1 ? a p 2 f 2 ? ? ? a pm f m ? e p因子分析(m&p)f1 ? ?11 x1 ? ?12 x2 ? ? ? ?1 p x p f 2 ? ? 21 x1 ? ? 22 x2 ? ? ? ? 2 p x p ?? f m ? ? m1 x1 ? ? m 2 x2 ? ? ? ? mp x p因子得分 ? 对于我们的数据,SPSS因子分析输出为R o t a t e d C o m p o n e n t M a t r ia x Component 1 2 MATH -.387 .790 PHYS -.172 .841 CHEM -.184 .827 LITERAT .879 -.343 HISTORY .911 -.201 ENGLISH .913 -.216 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. ? 该输出说明第一和第二主因子为(习惯上 用字母f来表示因子)可以按照如下公式计 算,该函数称为因子得分(factor score)。f1 ? -0.387 x1 - 0.172 x2 - 0.184 x3 ? 0.879 x4 ? 0.911x5 ? 0.913x6 f 2 ? 0.790 x1 ? 0.841x2 ? 0.827 x3 ? 0.343x4 ? 0.201x5 ? 0.216 x6这里,第一个因子主要和语文、历史、英语 三科有很强的正相关;而第二个因子主要和 数学、物理、化学三科有很强的正相关。因 此可以给第一个因子起名为“理科因子”, 而给第二个因子起名为“文科因子”。从这 个例子可以看出,因子分析的结果比主成分 分析解释性更强。 ? 这两个因子得分函数的系数所形成的散点 图(虽然不是载荷,在SPSS中也称载荷图,Component Plot in Rotated Spacemath phys chem 1.0.50.0 history english literat -.5-1.0 -1.0 -.5 0.0 .5 1.0Component 1 可以直观看出每个因子代表了一类学科 计算因子得分? 于是可以根据前面的公式, 算出每个学生的第一个因子 和第二个因子的大小,即算 出每个学生的因子得分f1和f2 。 ? 人们可以根据这两套因子得 分对学生分别按照文科和理 科排序。当然得到因子得分 因子分析和主成分分析的一些注意事项? 可以看出,因子分析和主成分分析都依赖于原 始变量,也只能反映原始变量的信息。所以原始 变量的选择很重要。 ? 另外,如果原始变量都本质上独立,那么降维就 可能失败,这是因为很难把很多独立变量用少数 综合的变量概括。数据越相关,降维效果就越好 。 ? 在得到分析的结果时,并不一定会都得到如我们 例子那样清楚的结果。这与问题的性质,选取的 原始变量以及数据的质量等都有关系 ? 在用因子得分进行排序时要特别小心,特别是对 于敏感问题。由于原始变量不同,因子的选取不 SPSS实现(因子分析与主成分分析)? 拿student.sav为例,选Analyze-Data Reduction-Factor进入主 对话框; ? 把math、phys、chem、literat、history、english选入Variables, 然后点击Extraction, ? 在Method选择一个方法(如果是主成分分析,则选Principal Components), ? 下面的选项可以随意,比如要画碎石图就选Scree plot,另外在 Extract选项可以按照特征值的大小选主成分(或因子),也可 以选定因子的数目; ? 之后回到主对话框(用Continue)。然后点击Rotation,再在该 对话框中的Method选择一个旋转方法(如果是主成分分析就选 None), ? 在Display选Rotated solution(以输出和旋转有关的结果)和 Loading plot(以输出载荷图);之后回到主对话框(用 Continue)。 ? 如果要计算因子得分就要点击Scores,再选择Save as variables( 因子得分就会作为变量存在数据中的附加列上)和计算因子得分 的方法(比如Regression);之后回到主对话框(用Continue) 。这时点OK即可。 主成分分析(Principal Components Analysis) 洛衫矶对12个人口调查区的数据编号 总人口 总雇员数 中等校 专业服务 中等房价 平均校龄 项目数 1 2 3 4 00
10.9 8.8 13.6 0
56 7400012.88.3 11.4160014060 102500089 10 11 12910000 940011.512.5 13.7 9.6 11.4330000 400060180 390 80 10014000
动机? 对于具有许多变量的一个现象, 人们往 往希望能够用较少的几个综合变量来描 述. 这是一种简化. ? 显然, 如果这些变量互相独立, 则每一 个都必须在综合后的变量中有同等份额 ; 这时无简化可言. ? 当这些变量很相关时,则有可能用综合 变量来大大简化. 一些可以被其它变量 代表的变量甚至能省略掉. 主成分分析 就是这样一种简化方法. ? 如果有变量x1,...,xp,数学上可以把它们 变换成一组新的变量(称为成分) y1,...,yp,使得: ? (1)每一个y是那些x的线性组合,即 yi=ai1x1+…+ ? (2)系数aij的平方和为1,即ai= (ai1,...,aip)T是单位向量; ? (3)y1是这样的线性组合中方差最大的, y2为和y1不相关的线性组合中使方差最大 的,如此下去,一般地, yj为与 y1,y2,…,yj-1都不相关的方差最大的线性 组合. 头几个变量(主成分)由 于其方差最大,往往包含了 绝大部分信息,人们就可以 用它们来描述原来用p个变 量所代表的现象. 简化也 就完成了. 矩阵情况? 上面这种理论上的变换仅仅在一些 关于x变量的假设下才能实现.在实 际应用中,如果每个变量有n个观察 值,人们得到的是n×p数据阵. ? 这时就要用代数的办法来解出这些 系数ai来.这时主分量的方差相当于 (或成比例于)样本相关阵(或协方差 阵)的特征值, 而相应的系数为和这 些特征值对应的特征向量. 关于特征值和特征向量 特征方程|B-lI|=0的解为特征值l, 这 里B为一个p维正定方阵. l通常有p个 根l1≥ l2≥… ≥ lp. 满足(B-liI)xi=0的 向量xi为li的特征向量. 对任意向量x 有性质x ' Bx lp ? ? l1 x'x ? 为了我们简化的目的,通常选取特征 值最大的几个特征向量作为代表. ? 利用计算机软件就自动地得到这些 特征值和特征向量. ? 由于变量不同的尺度会影响结果, 因此, 在各变量尺度差别大时, 一 般可以用样本相关阵而不是协方差 阵来做(这通常在软件的选项之中). 步骤? 按照矩阵记号, 求A使得y=Ax , 这里 y为主成分向量, A为主成分变换矩 阵, x为原始变换向量. ? 我们需要求出x的相关阵, 但是通常 不知道, 但是有了观测值矩阵X之后, 可用样本相关阵R来近似x的相关阵. ? 步骤: 取R最大的几个特征根所相应 的特征向量作为A的行即可. X=(X1,…, Xp)的相关阵为第(ij)-元素为 Cov( xi , x j )Var ( xi ) Var ( x j )的p×p矩阵. 而对于观测值X=(x1,…, xp), 其中 xi =(x1i,…, xni), i=1,…,p, 的相关阵第(ij)-元素 sij 为rij ?sii s jj的p×p矩阵,其中sij为第i和第j观测的样本 相关系数 n1 sij ? ? (xki ? xi )( xkj ? x j ) n k ?1 相关阵R的特征值 l1≥ l2≥… ≥ lp,而相应 的特征向量为下面矩阵的列向量: ? a11 a21 ? a p1 ? ? ? a12 a22 ? a p 2 ? ? ? ? ? ? ? ? ? ? ?a a2 p ? a pp ? ? 1p ?取上面几个行向量组成所需的主成 分变换矩阵. 主成分i为: yi=ai1x1+…+aipxp (yi贡献率为li/∑j lj ) 第一主成分:使Var(a1’X)最大的单位 向量a1 (a1’a1=1);而l1=a1’Ra1 =Var(a1’X); 这里R为X的相关阵. 第二主成分:满足Cov(a1’X,a2’X)=0 而且使Var(a2’X)最大的单位向量a2 (a2’a2=1);而l2=a2’Ra2=Var(a2’X) …………………………………………. 第k主成分:满足Cov(ai’X, ak’X)=0 (i=1,…,k-1), 而且使Var(ak’X)最 大的单位向量ak(ak’ak=1);而 lk=ak’Rak =Var(ak’X). 头m个主成分的累积贡献率:? l ? a ' Ra ? l ? a ' Rai ?1 i i ?1 i i ?1 p imm?i ?1 piii这里R为X的样本相关阵,第i个特征值 li=ai’Rai=V(ai’x); ai为第i个特征 向量. Cov(ai’x,aj’x)=0. 主成分负荷(载荷,loading):Yi与Xj的相关系数:r (Yi , X j ) ? li aij这里aij为第i个特征向量的第j个分量; 第i个主成分的载荷平方和为该主成分的 方差,等于其特征值li.所选的m个主成分 对变量xj的总方差贡献为?ri ?1m2(Yi , X j ) ? ? l ai ?1m2 i ij 洛衫矶对12个人口调查区的数据(data15-01)编号 总人口 总雇员数 中等校 专业服务 中等房价 平均校龄 项目数 1 2 3 4 00
10.9 8.8 13.6 0
56 7400012.88.3 11.4160014060 102500089 10 11 12910000 940011.512.5 13.7 9.6 11.4330000 400060180 390 80 10014000
相关阵的特征值: (S-plus输出) 2.7 0.9 0.0153 特征向量矩阵(列向量) A (S-plus输出)0.343 -0.5 -0.4970.453 0.8 0.8610.397 -0.0 -0.014 0.550 0.1 0.1240.467 0.6 -0.425 Eigen Value 0.01 2 3 4 50.51.01.52.02.53.0LA dataIndexCumulative Eigen Values 0.01 2 3 4 50.20.40.60.81.0LA dataIndex (SAS输出)The SAS System 11:15 Sunday, September 22, 2002Eigenvalues of the Correlation Matrix Eigenvalue PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 2.66 0.93 0.01526 Difference 1.82 0.68 . Eigenvectors PRIN1 X1 X2 X3 0...396695 PRIN2 0.601629 -..541665 PRIN3 0...247958 PRIN4 0.204033 -..022937 PRIN5 0..174861 -.698014 Proportion 0.....003051 Cumulative 0.99 0.95 1.00000X4X50.5500570.466738-.077817-.416429-.664076-.139649-.5003860.763182-.000124-.082425 Statistics→Data Reduction →Factor: Variables:pop,school,employ,service,houseDescriptive: Extraction: correlation, Eigenvalue&1 (默认) Rotation: (我加入loading plot) Options: 特征值、累积贡献率Total Variance Explained Initial Eigenvalues % of Cumulative Component Total Variance % 1 2.873 57.466 57.466 2 1.797 35.933 93.399 3 .215 4.297 97.696 4 9.993E-02 1.999 99.695 5 1.526E-02 .305 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of S quared Loadings % of Cumulative Total Variance % 2.873 57.466 57.466 1.797 35.933 93.399 Scree Plot3.5 3.02.5特征值图2.01.51.0.5 0.0 1 2 3 4 5Component Number Component Plot1.0.5二主成分因 子负荷图总人口 总雇员数0.0专业服务项目数-.5r (Yi , X j ) ? li aij中等校平均校龄 中等房价-1.0 -1.0 -.5 0.0 .5 1.0Component 1 主成分的因子负荷(每列平方和为相应特征值, 而每 列除以相应特征值的平方根为相应的特征向量)这 是主成分与各个变量的相关系数a Component Matrixr (Yi , X j ) ? li aij专 业服 务项 目 数 中 等房 价 中 等校 平均 校 龄 总 人口 总 雇员 数Component 1 2 .932 -.104 .791 -.558 .767 -.545 .581 .806 .672 .726有的书把它当成特征向量了? SPSS没有给出特征向量(?!)Extraction Method: Principal Component Analysis. a. 2 components extracted. 销售人员数据(salesmen.sav)(50个观测值)销售增长 销售利润 新客户销售额 创造力93.00 88.80 95.00 101.30 102.00 95.80 95.50 110.80 102.80 106.80 103.30 99.50 96.00 91.80 100.30 103.80 107.80 97.50 99.50 122.00 108.30 120.50 109.80 111.80 97.80 96.80 99.00 106.80 103.00 99.30 99.00 115.30 103.80 102.00 104.00 100.30 9.00 7.00 8.00 13.00 10.00 10.00 9.00 18.00 10.00 14.00 12.00 10.00机械推理12.00 10.00 12.00 14.00 15.00 14.00 12.00 20.00 17.00 18.00 17.00 18.00抽象推理9.00 10.00 9.00 12.00 12.00 11.00 9.00 15.00 13.00 11.00 12.00 8.00数学推理20.00 15.00 26.00 29.00 32.00 21.00 25.00 51.00 31.00 39.00 32.00 31.00103.5099.50112.50105.50107.00102.3016.008.0017.0010.0011.0011.0034.0034.00 特征值、累积贡献率Total Variance Explained Initial Eigenvalues % of Cumulative Co

我要回帖

更多关于 999 222 333 334 的文章

 

随机推荐