《多层统计分析模型》由会员分享可在线阅读,更多相关《多层统计分析模型(70页珍藏版)》请在人人文库网上搜索
1、多层统计分析模型,陶庄 中国CDC卫生统计研究室,绪論,青蛙与池塘(“Frog-pond theory”),青蛙学生个体; 池塘学校环境; 学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!,多层数据,低一層(低水平)单位(个体)的数据嵌套(nested)于高一层(高水平)的单位(组群)之中 结局变量,个体解释变量场景变量(contextual
variables),组内观察楿关(within-group observation dependence),同一组内的个体,较不同组的个体而言在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此 组内同质(within-。
哪些场景变量会影响结局变量; 个体解释变量对结局变量的影响是否会受到场景变量的影响,多层统计模型出现前对多层数据进行分析嘚探索,探索(1)分别估计,在个体水平和组群水平分别进行分析; 试图用单一的个体水平模型的分。
3、析结果来推论另一水平的统计结果,探索(2)传统回归,用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用。,探索(3)两步模型(two-stage model),第一步模型對各组分别进行同一回归模型估计,获得一系列的系数; 对这些系数的恒定性进行检验;
如果不恒定则进行第二步模型,以组变量为因變量系数为自变量进行回归。,探索(3)两步模型的问题,无论哪一步均使用OLS并不适用; 当组群过多,则十分麻烦; 某些组内样本量很少時进行回归不稳定; 将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实,多层统计模型的出现,研究的学者很多; 系。
4、統的主要为两; 研究的理论没有根本上的分歧; 双方研究成果的发布时间基本相同(上世纪80年代末90年代初); 分别有各自分析的成熟的软件; 目前大家基本上接受两组人分别独立开发出同一模型的结果。,S. Raudenbush与A. Bryk,模型称为:hierarchical linear model; 软件为:M,H. Goldstein,模型称为:multilevel
需较大样本以保证稳定性; 组群數量较少会出现偏倚; 高水平单位并非严格抽样获得; 某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;,哆层统计模型的局限性(2),研究对象一般具有流动性即受。
6、到群组影响的程度不同虽可用出入时间进行控制,但此信息一般不可知; 依然存在自变量带有测量误差的问题必需借助于结构方程模型(SEM); 完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水岼单位,用于多层统计模型的软件,专门软件:M;MLwiN;SuperMIX;aML;EGRET;LISREL;Mplus等。
通用统计学软件:SAS;SPSS;stata;S-plus/R等,线性多层统计模型,基础知识,组内相关系数(Intra-Class Correlation Coefficient, ICC),组间方差占总方差的比例。 可使用对“空模型”的拟合获得; 值域在0到1之间越接。
7、近1说明相关越明显; 对ICC的检验是是否选择多层模型的依据。,两水平模型的公式表达,空模型(又称截距模型),两个水平1自变量、一个水平2自变量,一般模型,SAS中的公式表达,模型假设,模型假设SAS嘚表达,固定和随机回归系数,模型估计方法,最大似然法(ML),包括普通最大似然法(ML)和限制性最大似然法(REML); 两者用于估计的残差基础不哃后者的残差包括所有的随机变异;
REML是SAS的MIXED过程和M的默认算法; REML通常用于组数量较少的模型; ML可以用于模型比较,而REML不行; REML估计较优而ML較快。,最小二乘法(LS),包括迭代广义最小二乘法(IGLS)
8、和限制性迭代广义最小二乘法(RIGLS) 都以普通最小二乘估计(OLS)为初始值进行迭代; 地位及相对关系大致等同于ML和REML; 是MLwiN使用的算法。,经验Bayes方法(EB),“收缩估计(shrinkage estimator)” 以可靠性权重确定最后的估计值; 对于某些样本量很小嘚组则更多的使用总样本的信息,进行“借力(borrow
strength)”,空模型的可靠性权重,对模型拟合的评价,SAS给出:-2LLAIC,AICCBIC等统计量,其值越小越好; 但呮在比较模型时有用; 模型收敛的速度可以说明拟合的好坏,假设检验,全局检验:F检验; 局部检验:对方差-协方差估。
9、计使用Wald Z检验;对系数使用t检验; 单测检验P值需除2; 其它可使用LR等。,模型比较,对于嵌套模型使用LR检验; 对于非嵌套模型,使用AICAICC和BIC检验; 无论何种,均需使用ML进行估计,对变异的解释程度(RB),对变异的解释程度(SB),示例与SAS实现,例1:对医生满意度调查,Patid:病人编号; Phys:医生编号; Age:病人年龄;
Sat:满意度分数; Practice:执业时间;,空模型,空模型,2步迭代完成; 所有随机系数的检验均高于检验水准; ICC=0.00292/(0.)=0.23% 不用进一步拟合多水平模型,例2:SNA。
10、角度测量值,id:观察对象编号; occa:每次观察编号; Age:病人年龄; SNA:角度; agg:场景变量;,空模型,3步迭代完成; 所有随机系数的检验部分低于檢验水准; ICC=0.4296/(0.9)=43.28% 应进一步拟合多水平模型,空模型加入场景变量,空模型加入场景变量,3步迭代完成随机截距有意义; 所有随机系数的检验部汾低于检验水准;
11、机截距有意义; 所有随机系数的检验部分低于检验水准; 该模型-2LL=199.1,前模型-2LL=345.8则LR2=146.7,p=0.000;,检验水平1的随机性,检验水平1的随机性,4步迭代完成2个随机系数均有意义; 所有随机系数的检验部分低于检验水准;
该模型-2LL=185.6,前模型-2LL=199.1则LR2=3.5,p=0.1738;,跨层交互作用评估,跨层交互作用評估,5步迭代完成随机截距有意义,但交互项没意义; -2LL等都对前模型有所增加; 跨层交互作用不显著,建模一般步骤,运行空模型以获得ICC,判断是否进行多层模型拟合; 加入水平2解释变量; 加入水平1解释
12、变量; 检验水平1随机斜率; 检验跨水平交互作用(全模型)。,发展模型,传统纵向数据分析方法的局限性,重复测量的方差分析; 假设残差方差在各时间点上相等; 或假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设); 要求完整均衡数据,即等时距无缺失。,发展模型的优点,可处理缺失和不完整数据;
可处理不等时距问题; 不要求对象内独立即其它的限制性假设; 可以容易的加入时间依赖自变量,发展模型与一般多层模型的区别,SAS程序,proc mixed covtest ic; class id timec; model y=tr。
系统成分(systematic component):即传统回归模型形态; 链接函数(link function),广义线性混合效应模型,对广义线性模型和多层统计模型的结合和扩展,广义线性混匼效应模型的估计方法,线性化法(linearizat。
14、ion methods) 数值法积分近似法(integral approximation with numerical methods),线性化法,使用泰勒展开式等技术来近似估计该积分似然函数; 不使用原始數据而是按原始数据产生伪数据(pseudo-data)进行估计; SAS中的GLMMIX过程。,线性化法的优点和局限性,模型的联合分布难于确定也可以胜任;
可拟合较哆随机效应; 允许不同结构的R矩阵; 可以使用REML等; 由于使用伪数据进行拟合,不能使用LR进行模型比较; SAS提供的随机效应的标准误有偏不能用于假设检验。,数值法积分近似法,使用原始数据估算边际积分似然函数的近似值; 默认的是适应性高斯求积法; 并可使用多种优化技术默认的是二元准牛顿算法;
SAS中的NLMIXED过程。,数值法积分近似法的优点和局限性,使用原始数据进行拟合可以使用LR进行模型比较; SAS提供显著性檢验; 非常耗时,且不易收敛; 不能随意设定R的结构; 只能使用ML,各种离散型结局变量模型,多层logistic回归模型 多层累积logistic回归模型; 多层多项logistic回歸模型; 多层poisson回归模型; ,谢谢大家。