Factor analysisamos验证性因子分析析

没有更多推荐了,
不良信息举报
举报内容:
斯坦福大学机器学习——因子分析(Factor analysis)
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!豆丁微信公众号
君,已阅读到文档的结尾了呢~~
行为形成因子分析方法评述
review of performance shaping factor analysis methods
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
行为形成因子分析方法评述
review of performance shaping factor analysis methods
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口应用统计学与R语言实现学习笔记(十三)——因子分析 - 简书
应用统计学与R语言实现学习笔记(十三)——因子分析
Chapter 13 Factor Analysis
本篇是第十三章,内容是因子分析。
这篇博客的完整内容包含各类数学表达。可以见我CSDN和hexo搭的个人博客。
1 因子分析概念
因子分析是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
即一种用来在众多变量中辨别、分析和归结出变量间的相互关系并用简单的变量(因子)来描述这种关系的数据分析方法。
寻求基本结构
通过因子分析,找出几个较少的有实际意义的因子,反映出原来数据的基本结构。
通常找出的这组观察不到的因子概括了原始的变量的大多数信息。
强相关问题会对分析带来困难。
通过因子分析,可以用所找出的少数几个因子代替原来的变量做回归分析、聚类分析、判别分析等。
因子分析的用途
产生新的、更少的变量以便为后续的回归和其他分析做基础。
识别概念或产品的基本感知和特性。
改善市场研究领域多元测量的结构与方法。
2 因子分析模型
因子分析模型的性质
1、原始变量X的协方差矩阵的分解
A是因子模型的系数
D的主对角线上的元素值越小,则公共因子共享的成分越多。
2、模型不受计量单位的影响。
3、因子载荷不是惟一的:设T为一个p×p的正交矩阵,令A=AT, F=T'F也是一个满足因子模型条件的因子载荷。
因子载荷矩阵中的统计特征
因子载荷是第i个变量与第j个公共因子的相关系数。
变量的共同度是因子载荷矩阵的第i行的元素的平方和。
所有的公共因子和特殊因子对变量的贡献为1。
因子载荷矩阵中各列元素的平方和对所有的的方差贡献和。衡量的相对重要性。
3 因子载荷矩阵的估计方法
主成分分析法
上式给出的Σ表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献。
上式有一个假定:模型中的特殊因子是不重要的,因而从Σ的分解中忽略了特殊因子的方差。
确定因子个数(特征根大于1所对应的特征向量;碎石原则:把特征根从大到小排列,把特征根减小速度变缓的特征根都删掉)。
主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则
在实际的应用中,个性方差矩阵一般都是未知的,可以通过一组样本来估计。估计的方法有如下多种:
极大似然估计法
如果假定公共因子F和特殊因子服从正态分布,那么可以得到因子载荷和特殊因子方差的极大似然估计。用数值极大化的方法可以得到极大似然估计。
4 因子旋转(正交变换)
旋转因子的目的
因子分析的目的不仅仅是要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便进行进一步的分析。如果每个公共因子的含义不清,则不便于进行实际背景的解释。
初始因子的综合性太强,难以找出因子的实际意义。由于因子载荷阵是不唯一的,所以可以对因子载荷阵进行旋转,使因子载荷阵的结构简化,使其每列或行的元素平方值向0和1两极分化。
变换后各变量的共同度不会发生变化。
变换后各因子的贡献会发生变化。
三种主要的正交旋转法
方差最大法
方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单。 方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于±1,另一部分趋于0。
四次方最大法
四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上有较高的载荷,而在其它的因子上尽可能低的载荷。 如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。
等量最大法
等量最大法把四次方最大法和方差最大法结合起来求Q和V的加权平均最大。
5 因子得分
当解决了用一组公共因子的线性组合来表示一组观测变量后,有时我们需要使用这些因子做其他的研究。比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。
因子分析的数学模型:
原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。
因子得分函数。
可见,要求得每个因子的得分,必须求得分函数的系数,而由于p&m,所以不能得到精确的得分,只能通过估计。
巴特莱特因子得分(加权最小二乘法)
注:共需要解m次才能解出所有的得分函数的系数。
6 因子分析步骤
选择分析的变量
用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。
计算所选原始变量的相关系数矩阵
相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。
提取公共因子
这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小,只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小。或者按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求。
通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子的实际意义更容易解释,也更容易为每个潜在因子赋予有实际意义的名字。
计算因子得分
求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。
因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可命名因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个“哇!”准则如果在仔细检查因子分析的时候,研究人员能够喊出“哇,我明白这些因子”的时候,就可认为是成功地运用了因子分析方法。
主成分分析与因子分析
主成分分析与因子分析有所不同,主成分分析仅仅是变量变换。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分。
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子模型除了公共因子外还有特殊因子。公共因子只解释了原来变量的部分方差,而全部主成分解释了原来变量的全部方差。
主成分和公共因子的位置不同。因子分析也有因子载荷( factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。
在数学模型上,因子分析和主成分分析也有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道程序:因子旋转( factor rotation);这个步骤可以使结果更好。
旋转后的公共因子一般没有主成分那么综合,公共因子往往可以找到实际意义,而主成分常找不到实际的含义。
可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。如果原始变量本质上独立,就很难把很多独立变量用少数综合的变量概括,降维就可能失败。数据越相关,降维效果就越好。可用如下方法进行变量间的相关性检验:
KMO样本测度: KMO在0.9以上,非常适合; 0.8-0.9,很适合; 0.7-0.8,适合; 0.6-0.7,不太适合;
0.5-0.6;很勉强; 0.5以下,不适合;
巴特莱特球体检验: H0:相关系数矩阵R为单位阵I。拒绝时H0可作因子分析
7 因子分析的R语言实现
R语言做因子分析这里主要介绍三个函数,一个是自带的factanal函数。
factanal(x,factors,data=NULL,covmat=NUL,n.obs=NA,subset,na.action,start=NULL,score=c("none","regression","Bartlett"),rotation="varimax",control=NULL,…)
x是公式或者用于因子分析的数据,可以是矩阵(每一行为一个样本)或数据框;factors表示要生成的因子个数;data指定数据集,当x为公式的时候使用;covmat是样本的协方差矩阵或者相关系数矩阵,使用这个参数的时候x可以忽略;scores表示计算因子得分的方法;rotation表示因子旋转的方法,默认为"varimax",最大方差旋转。这里近介绍几个常用的几个参数,其他参数说明可查询R语言官方帮助。另外,这个函数事实上仅支持用极大似然估计方法做因子分析。
第二个函数就是自编函数实现的主成分分析方法做因子分析(具体函数代码后面给出)。
factor.analysis(x,m)
x为相关系数矩阵,m为因子个数。
第三个函数是psych包里的fa函数。
fa(r,nfactors=,n.obs=,rotate=,scores=,fm)
r是相关系数矩阵或原始数据矩阵;nfactors设定提取的因子数(默认为1);n.obs是观测数(输入相关系数矩阵时需要填写);rotate设定放置的方法(默认互变异数最小法);scores设定是否计算因子得分(默认不计算);fm设定因子化方法(默认极小残差法)。
用上一章提供的数据再进行因子分析。比较不同函数结果的差异。
基于factnal函数,3个因子。
基于自编函数,3个因子。
基于fa函数,3个因子。
城市与生态路上的一个GISer。
主页与博客(hexo):
https://giserdaishaoqing.github.io/
Chapter 12 Priciple Component Analysis 本篇是第十二章,内容是主成分分析。这篇博客的完整内容包含各类数学表达。可以见我CSDN和hexo搭的个人博客。CSDN博客 hexo的个人博客 1 主成分分析基本思想 依旧从问题开始本篇的介绍。地...
Chapter 11 Discriminant Analysis 笔者最近任务繁重,断更了一顿时间,最近会开始慢慢把这个系列写完。本篇是第十一章,内容是判别分析。这篇博客的完整内容包含各类数学表达。可以见我CSDN和hexo搭的个人博客。CSDN博客 hexo的个人博客 1...
Chapter 8 ANOVA 本篇是第八章,内容是方差分析。前一段考试,汇报,作业。忙不过来,停更了一段时间,现在重新开始更这一部分内容。方差分析是很多实验的基础以及很重要的分析手段,这一章内容相比较而言比较多。 1.方差分析的引论 方差分析其实对我们来说并不陌生,因为大...
Chapter 10 Cluster Analysis 本篇是第十章,内容是聚类分析。由于之后的几章是典型的分析方法。而且在14章的案例里面可能不会体现,所以内容里会渗透较多的R语言操作。由于简书不支持Latex公式,这篇彻头彻尾又是各种数学公式,为防整篇博客都变成截图,我...
主成分分析 基本思想: 实质上是将多个指标综合成少数几个指标的方法。 主成分分析是利用降维的方法,在确保数据信息损失最小的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法。 主成分是原始变量之间的线性组合,且主成分之间互不相关。 主成...
距离上次写点东西依然不知多少时日了,依稀记得当是的我也只是在QQ空间发发日志,感慨下时光易逝,岁月静好,却又总觉无病呻吟,自添烦恼。 曾经的我仿佛闭上眼就可以看到10年后的日子,日复一日,即算是会有惊喜也大抵是那样的轨迹。而我又是个不安分的人,偏偏不喜欢一眼就能看到尽头的人...
受中国式众筹首席架构师杨振民师兄相邀,就中国白酒消费者联盟发表一下自己的想法和思考: 杨振民师兄等同仁们的观点和想法如下: 1.315消费者联盟是由广大消费者特别是消费时间较长的高端消费者(单位或个人)自愿结成的行业性、全国性、非营利性社会组织,代表消费者利益,为消费者代言...
相思久已弃,空余虚无心。 西山雪渐残,东麓芽欲青。 斯时交汇际,人生叹悲吟。 倏忽几何时,转瞬白头翁。
分手后的第二十天,我还是会间歇性的想你。和你并肩走过的小路,呆过的自习室,吃过饭的餐厅,当时的场景竟也变得那么清晰起来,像歌里唱的:仿佛还是昨天,可是昨天,已非常遥远。
可惜不是你,陪我到最后。
爱一个人卑微到尘埃里真的会开出花吗?
难道说过话,许过的承诺都是...
柏拉图 文 现在我们已经看到由自身推动的东西是不朽的。我们可以毫不犹豫地肯定,这就是灵魂的本质和定义,也就是说,灵魂的本质是自动。任何物体的运动如果来源于外部,那么这个事物是没有灵魂的;但若一个物体的运动源于自身,那么这个物体是有生命的,或有灵魂的,“有灵魂的”这个词就包含...数据降维之因子分析(上)前言探索性因子分析(Exploratory Factor Analysis,EFA) 是一项用于找出多元观测变量的本质结构、并进行数据降维处理的多元统计分析方法。之前我们已经学过主成分分析(PCA),同样是数据降维,PCA与EFA的区别在于:PCA中的主成分是原始变量的线性组合,且各个主成分之间互不相关,这使得主成分比原始变量具有某些更优越的性能(一般来讲,主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。EFA中的原始变量是公共因子的线性组合,根据相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量综合为数量较少的几个因子。通过不同因子来分析决定某些变量的本质及其分类。简单地说,就是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为因子。因子分析可以说是主成分分析的推广,相对于主成分分析,它在变量变换的基础上还需要构建因子模型,并描述原始变量之间的相关关系。一、因子分析基本理论因子分析模型的表达形式为:其中,是第个可观测变量(),是公共因子(),并且。为因子载荷,是每个因子对复合而成的可观测变量的贡献值。是变量无法被公共因子解释的部分,并且满足:,即与不相关。首先,我们导入数据,进行相关系数矩阵的计算& library(sas7bdat)
& data &- read.sas7bdat('exec85.sas7bdat')
# 截取所需列
& data &- data[1:15]
& head(data,3)
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15
这份数据是某公司对48名应聘者进行面试,并给出他们各自在15个方面所得的分数,这15个指标分别是:# 计算相关系数矩阵
& head(cor(data),3)
x1 1......
x2 0......
x3 0......
x1 -0.......3674529
0.......5073769
x3 -0.......2900322
0..5859182
0..3842084
x3 -0..1400174
二、公共因子提取与主成分分析相同的是,我们使用psych包中fa.parallel()函数绘制碎石图:& library(psych)
& cor_data &- cor(data)
# fa="both":同时展示主成分分析和因子分析的结果
& fa.parallel(cor_data, n.obs=112, fa="both", n.iter=100)
Parallel analysis suggests that the number of factors =
and the number of components =
结合上图和函数给出的信息得到以下结论:如果使用PCA,我们需要选择三个主成分;如果使用EFA,我们需要选择4个因子。使用fa()函数进行因子提取,调用公式如下:& fa(r, nfactors=, n.obs=, rotate=, scores=, fm=)
# r:相关系数矩阵或原始数据矩阵,
# nfactors:设定主提取的因子数(默认为1)
# n.obs:观测数(输入相关系数矩阵时需要填写)
# rotate:设定旋转的方法(默认互变异数最小法)
# scores:设定是否需要计算因子得分(默认不需要)
# fm:设定因子化方法(默认极小残差法)
与主成分分析不同的是,在因子分析中我们需要指定提取公因子的方法(fm),方法包括:ml:最大似然法pa:主轴迭代法wls:加权最小二乘法gls:广义加权最小二乘法minres:最小残差法这里我们选用主轴迭代法进行未旋转因子的提取。& fa_model &- fa(cor_data,nfactors = 4,rotate = 'none',fm='pa')
& fa_model
Factor Analysis using method =
Call: fa(r = cor_data, nfactors = 4, rotate = "none", fm = "pa")
Standardized loadings (pattern matrix) based upon correlation matrix
0.28 -0.13 0.55 0.446 2.6
0.54 -0.03
0.16 0.31 0.687 1.2
0.28 -0.29
0.58 0.51 0.490 2.1
SS loadings
7.31 1.74 1.25 0.88
Proportion Var
0.49 0.12 0.08 0.06
Cumulative Var
0.49 0.60 0.69 0.75
Proportion Explained
0.65 0.16 0.11 0.08
Cumulative Proportion 0.65 0.81 0.92 1.00
结果显示,四个因子解释了原始15个变量的75%的方差(其他参数的解释具体可见:)。接下来我们进行因子旋转,目的在于使因子载荷更容易被解释。未完待续538 条评论分享收藏文章被以下专栏收录因子分析法(Factor Analysis Method)
用圣才电子书APP或微信扫一扫,在手机上阅读本文,也可分享给你的朋友。
  因子分析法(Factor Analysis Method)
  什么是因子分析
  因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
  因子分析法的步骤
  应用因子分析法的主要步骤如下:
  (1)对数据样本进行标准化处理。
  (2)计算样本的相关矩阵R。
  (3)求相关矩阵R的特征根和特征向量。
  (4)根据系统要求的累积贡献率确定主因子的个数。
  (5)计算因子载荷矩阵A。
  (6)确定因子模型。
  (7)根据上述计算结果,对系统进行分析。
  因子分析法的实例[1]
  【例:1】
  假设某一社会经济系统问题,其主要特性可用4个指标表示,它们分别是生产、技术、交通和环境。其相关矩阵为:
  相应的特征值、占总体百分比和累计百分比如下表:
  对应特征值的特征向量矩阵为:
  假如要求所取特征值反映的信息量占总体信息量的90%以上,则从累计特征值所占百分比看,只需取前两项即可。也就是说,只需取两个主要因子。对应于前两列特征值的特征向量,
  可求的其因子载荷矩阵A为:
  于是,该问题的因子模型为:
  Xl= 0.60f1 + 0.71f2
  X2= 0.85f1 + 0.38f2
  X3= 0.93f1 & 0.32f2
  X4= 0.74f1 & 0.40f2
  由以上可以看出,两个因子中,f1是全面反映生产、技术、交通和环境的因子,而f2却不同,它反映了对生产和技术这两项增长有利,而对交通和环境增长不利的因子。也就是说,按照原有统计资料得出的相关矩阵分析的结果是如果生产和技术都随f2增长了,将有可能出现交通紧张和环境恶化的问题,f2反映了这两方面的相互制约状况。
  因子分析与主成分分析的区别[2]
  因子分析法与主成分分析法都属于因素分析法,都基于统计分析方法,但两者有较大的区别:主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合;而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。通过对上述内容的学习,可以看出因子分析法和主成分分析法的主要区别为:
  (1)主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合,原始观察变量在两种情况下所处的位置不同。
  (2)主成分分析中,新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同,它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量,再按总方差误差的允许值大小,来选定q个(q&p)主成分;而因子分析法是要构造一个模型,将问题的为数众多的变量减少为几个新因子,新因子变量数m小于原始变量数P,从而构造成一个结构简单的模型。可以认为,因子分析法是主成分分析法的发展。
  (3)主成分分析中,经正交变换的变量系数是相关矩阵R的特征向量的相应元素;而因子分析模型的变量系数取自因子负荷量,即。因子负荷量矩阵A与相关矩阵R满足以下关系:
  其中,U为R的特征向量。
  在考虑有残余项&时,可设包含&i的矩阵&为误差项,则有R & AAT = &。
  在因子分析中,残余项应只在&的对角元素项中,因特殊项只属于原变量项,因此,的选择应以&的非对角元素的方差最小为原则。而在主成分分析中,选择原则是使舍弃成分所对应的方差项累积值不超过规定值,或者说被舍弃项各对角要素的自乘和为最小,这两者是不痛的。
  参考文献
  1.&白思俊等编著.系统工程.电子工业出版社,2006年7月.
  2.&郁滨.系统工程理论.中国科学技术大学出版社,2009.02.
小编工资已与此赏挂钩!一赏一分钱!求打赏↓ ↓ ↓
如果你喜欢本文章,请赐赏:
已赐赏的人
我的电子书

我要回帖

更多关于 因子分析法 的文章

 

随机推荐