求助回归分析中样本容量的选取多少为佳

孔夫子旧书网该图书已经找不到了, 还有其他店铺销售此图书。Copyright(C)
孔夫子旧书网
京ICP证041501号
海淀分局备案编号  作者:徐英 骆福添
  【摘要】
  目前生存分析中COX回归模型到底需要多少样本量往往靠经验法来估计。旨在介绍并推广生存分析中COX回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。
  【关键词】
  生存分析; COX回归模型; 样本量; 统计软件
  COX回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。
  1 公式介绍
  以往,对于COX回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10~15倍的阳性结局事件。1983年,Schoenfeld在Biometrics杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]:
  D=(Z1-&+Z&)2[P(1-P)log&D)2]-1
  这里,D是指发生阳性结局的总人数,P是指分配到第一治疗组人数所占的比例。log&D是指风险比的对数。该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。
  然而,在实际的工作当中,变量之间有时并不能满足独立性。因此,2000年,Hsieh和Lavori在Controlled Clinical Trials上将Schoenfeld的计算公式进行了扩展[3],现介绍如下:
  N=(Z1-&/2+Z1-&)2P(1-R2)&2B2
  等号左边,N表示所需要的样本含量。
  等号右边Z1-&/2,Z&表示给定检验水准和检验功效时的z界值;P表示整个研究期间阳性结局事件的发生率;B表示对数风险比,即log&D;&2表示感兴趣的研究因素X1的方差,这里假定X1服从正态分布,对于非正态分布的X1,如二项分布,可通过p(1-p)进行估计,这里,p表示X1取&0&或&1&的比例。与Schoenfeld的计算公式不同的是,该公式引入了&方差膨胀因子&(VIF),即1/(1-R2)。R2表示X1对其他协变量作回归分析时的确定系数,取值范围0~1,当取值为&0&时,一般表示只考虑一个自变量X1的情形。亦即当变量间不满足独立性时,需要通过VIF来增加参数估计值的方差。
  上述各指标可通过查阅相关文献或进行预试验确定。
  2 软件实现
  目前,有许多统计软件可以用来计算生存分析所需的样本量,但是大部分软件都是针对log?rank检验的,或是要求生存时间服从指数分布,比如S?plus、PS、NQuery Advisor、STATA、PASS等。然而,逐渐地也有不少软件开始引入针对COX回归分析所需样本量的计算程序,比如STATA和PASS。现介绍如下:
  2.1 STATA软件的应用
  程序如下:stpower COX [coef] [, options]
  [coef]:用来设定感兴趣的研究因素X1的对数风险比,即log&D;
  [, options]:选择项,常用的有:
  * alpha(numlist):检验水准,默认0.05;
  * power(numlist):检验效能,默认0.8;
  * onesided:单侧检验,默认双侧检验;
  * sd(#) :感兴趣的研究因素X1的标准差,默认0.5;
  * r2(#) :确定系数,默认0;
  * failprob(#):阳性结局事件发生率,默认100%。
  PASS软件的应用
  PASS是NCSS软件中执行检验功效分析和计算样本量大小的一个功能模块。操作步骤如下:
  ① 打开NCSS软件,进入类似SPSS的操作界面;
  ② 点击PASS下拉菜单,选择&survival and reliability&子菜单,选择&COX regression&,进入相关参数设置对话框;
  ③ 设置相关参数,点击工具栏&play&,完成操作。
  3 实例应用
  Krall, Uthoff and Harley (1975)研究了65例多发性骨髓瘤患者预后的影响因素,一共9个变量(具体数据参见sas phreg过程中的数据集Myeloma)。如研究者主要感兴趣的变量为X1(logBUN),预估计其对数风险比log&D=1,研究结束时死亡率P=48/65=73.8%,按照单侧0.05的检验水准和预期80%的检验效能,估计所需的样本量的计算过程如下:
  ① 估计X1的标准差,得&=0.3126;
  ② 对X1和其他协变量作多重线性回归分析,得R2=0.1839;
  ③ 利用STATA或PASS软件,将上述参数带入计算,得样本含量N=107。
  按照Hsieh和Lavori所提供的公式,若要达到80%的检验效能,估计所需的样本量为107例。故对于该项研究而言,若只研究65例患者,则需慎重对待所得结论。
  4 讨论
  本研究中提到的公式,有效地解决了在生存分析中广泛应用的COX回归模型的样本含量的计算问题,为医学科研工作者在今后的研究中提高研究效率、节省人力物力财力提供了一定的科学依据。
  该公式适用于任何分布的生存时间,只要满足COX比例风险假定即可。另外,该公式不仅适用正态分布的自变量,也适用非正态分布的自变量,比如二分类的自变量,此时,可以计算出近似所需的样本量。
  该公式不仅仅局限于对单个影响因素的研究,还可以综合考虑其他协变量的影响。这一点在公式中主要体现在R2的取值上。对于单个自变量的研究,R2取&0&即可;对于多个自变量的研究,则需要通过回归分析估计R2。
  由于STATA软件被广大研究者所熟悉,而PASS界面又非常友好,操作简单,只需要输入相应的参数既可以得到所需的结果。此外,该公式相对较简单,亦可以直接计算。因此,期待能在今后的生存分析中得到广泛的应用,以提高研究的工作效率。另外,当已知样本含量时,也可以利用该公式和上述两个软件估计检验功效,以判断当阴性结果出现时,是否由于样本含量不足导致。
  【参考文献】
  1 Schoenfeld, David A. Sample?Size Formula for the Proportional?Hazards Regression Model. Biometrics, 1983, 39: 499~503.
  2 赵耐青.生存分析的最小样本含量计算.上海医科大学学报,) :333~337.
  3 Hsieh, F.Y. and Lavori, P.W. Sample?Size Calculations for the COX Proportional Hazards Regression Model with Nonbinary Covariates. Controlled Clinical Trials, 2000, 21: 552~560.
小编工资已与此赏挂钩!一赏一分钱!求打赏↓ ↓ ↓
如果你喜欢本文章,请赐赏:
已赐赏的人
我的电子书苹果/安卓/wp
积分 7, 距离下一级还需 3 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯下一级可获得
道具: 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
请教各位朋友,在做典型相关分析中样本容量该如何确定?多少为合适?谢谢!
载入中......
同问啊 样本容量只有10年的数据,可以做典型相关分析么&&谢谢大侠
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
论坛法律顾问:王进律师要窄;其次样本容量n越大,则残差的方差越小,预测;【例9.6】根据例9.1的资料,若2004年的人;y0?t?/2?syx;1(x0?x)2;??;?(xi?x)2;i?1;1(.6667)2;?.365?70.4833?;?;Y的个别值的95%的置信区间:;y0?t?/2
要窄;其次样本容量n越大,则残差的方差越小,预测精度越高;最后在n一定时,当预测点x0?x时,残差的方差最小,预测区间最窄,离x越远,残差的方差越大,预测区间越宽,预测可信度下降。
【例9.6】根据例9.1的资料,若2004年的人均GDP为10000元,求人均消费95%的置信区间。 【解】将x0?10000代入回归方程得y0=181.4×.5830(元) 查表得t?/2(7)?2.365,其它数据参见图9.7,代入公式(9.18)和(9.19): Y的平均值的95%的置信区间:
y0?t?/2?syx
?.365?70.4833??
?.987?6.570(元)
Y的个别值的95%的置信区间:
y0?t?/2?syx
?.365?70.4833???
?.908?0.491(元)
第三节 多元线性回归分析
上一节主要介绍了涉及一个自变量和一个因变量的简单线性回归模型。实际生活中,客观现象非常复杂,现象之间的联系方式和性质各不相同。影响因变量变化的自变量往往不止一个,而是多个,因此有必要对一个因变量与多个自变量联系起来进行分析。本节将重点介绍多元线性回归模型及其基本假设、回归模型未知参数的估计及其性质、回归方程及回归系数的显著性检验等。
一、多元线性回归模型
(一)多元线性回归(multiple liner regression)模型的一般形式
Y??0??1x1??2x2?......??pxp??
,而?0,?1,......,?p是p+1个未知参数,称为回归系数。Y称为被解释变量(因变量)
。p=1时,(9.20)x1,x2,......,xp是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)
式即为上一节分析的一元线性回归模型,p?2时,我们就称(9.20)式为多元线性回归模型,这里ε
是随机误差。与一元线性回归模型一样,对随机误差项我们常假定其期望值为零、方差为?2的正态分布
对一个实际问题,如果我们获得n组观测数据xi1,xi2,?,yi,i=1,2,...,n,把这些观测值代入(9.20)式可得样本(形式的)多元线性回归模型:
y1??0??1x11??2x12????px1p??1y2??0??1x21??2x22????px2p??2????????yn??0??1xn1??2xn2????pxnp??n
写成矩阵形式为:
Y?X?其中:??????;
?x1p???0???1?
x22?x2p???1???2?
??;???;ε= ??? ???????????????xn2?xnp??n???p?x12
(二)多元线性回归模型的基本假定
为了对模型参数进行估计和推断,常常要对回归模型(9.22)做如下基本假定:
1. 解释变量x1,x2,?,xp是确定性变量,不是随机变量,且要求矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。
2. 随机误差项具有零均值和同方差,即
E(?i)?0,i?1,2,?,n
cov(?i,?j)??
i,j?1,2,?,n
3. 正态分布的假设条件:
?i~N(0,?2)
i,?1,2,......,n
由上述假定和多元正态分布的性质可知:Y服从n维正态分布,且Y~N(X?,?I)
我们以二元线性回归模型为例,在建立彩电销售量的预测模型时,把彩电的销售量有y表示,用x1表示彩电的平均价格,x2表示消费者可支配收入,则可建立二元线性回归模型:
Y??0??1x1??2x2??E(Y)??0??1x1??2x2
(9.23)式的第二式对x2求偏导得,
??2 ,即?2可解释为彩电的价格x1保持不变时,消费者收?x2
入x2每变动(增加或减少)一个单位,对彩电的平均销售量E(Y)的影响程度。一般来说,随着消费者收入的增加,彩电的需求是增加的,因此?2应该是正的。
二、多元回归模型的参数估计
多元线性回归方程未知参数?0,?1,.....,?p的估计与一元线性回归方程的参数估计原理一样,所选择
?与观测值y之间的残差在所有样本点上达到最小,即使Q达到最小。所以求的估计方法应该使得估计值y
?0,?1,.....,?p,使得Q(?0,?1,?,?p)??(yi??0??1xi1??pxip)2?min,即
?yi)??e?e’e=(Y?XB)'(Y?XB)
??0??1xi1??pxip)2
由多元函数求极值点的方法可求得回归系数的最小二乘估计值为:
??(X'X)?1X'Y
??另外,未知参数?2的一个无偏估计为?
三、对多元线性回归方程的评价
(一)拟合优度检验
,实际就是残差均方和(MSE)。
在多元线性回归分析中,总离差平方和的分解公式依然成立:总偏差(SST)= 回归偏差(SSR)+剩余偏差(SSE),我们可以用判定系数,或称可决系数,来评价多元线性回归模型的拟合程度。即:
(9.26) SST?yi?y
由判定系数的定义可知,R的大小取决于残差平方和SSE在总离差平方和SSE中的比重。在样本量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着方程中自变量个数的增加而减小。因此r是自变量个数的非递减函数。在一元线性回归方程中,由于所有方程中包含的变量个数都相同,
判定系数便可以直接作为评价一元线性回归方程拟合程度的尺度,而在多元线性回归方程申,各回归方程所包含的变量个数未必相同,以厂的大小作为衡量拟合程度的尺度是不合适的,因此,在多元线性回归分析中,通常采用“修正自由度判定系数”来判定现行多元回归方程的拟合优度:
ra2?1?(1?r2)?
其中p是解释变量的个数,n为样本容量。可以看出:对于给定的r值和n值,k值越大ra2越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。ra2作为综合评价这方面情况的一个指标显然比更为r合适。但要注意:当n为小样本,解释变量数很大时,ra2为负。
同样我们可以导出多元回归模型标准误的计算公式:
Sy(x1x2...xp)=
这里的n-p-1是自由度,因为p元回归模型有p+1个参数,求解该回归方程时将失去p+1个自由度。后面在构建预测区间,要用到这个指标。
(二)多元线性回归模型的显著性检验
多元线性回归模型的显著性检验包括两个方面的内容:一是对整个回归方程的显著性检验(F检验),另一个是对各回归系数的显著性检验(t检验)。在一元线性回归方程的检验时,这两个检验是等价的,但在多元线性回归模型的检验时两者却不同。
1. 整个回归模型的显著性检验步骤:
(1)提出假设:H0:?1??2????p;H1:?i,i=1,2,……,p,不全为0; (2)根据表9.3构建F统计量,见表9.3;
多元线性回归模型的方差分析表
(3)给定显著性水平α,查F分布表,得临界值F?(p,n?p?1);
(4)若F?F?(p,n?p?1),则拒绝H0,接受备择假设,说明总体回归系数?i不全为零,即
回归方程是显著的;反之,则认为回归方程不显著。
2. 回归系数的显著性检验步骤:
(1)提出假设:H0:?i?0;H1:?i?0
(i=1,2,……,p);
t?i?(2)t检验的计算公式为:
)?,其中Si?(?i
?是回归系数标准差,ciicii是(XTX)?1
中第i?1个主对角线元素。t值应该有p个对每一个i?1,?,p可以计算一个t值;
(3)给定显著性水平α,确定临界值t?/2(n?p?1);
(4)若t?i?t?/2(n?p?1),则拒绝H0,接受备择假设,即总体回归系数?i?0。 有多少个回归系数,就要做多少次t检验。
类似于一元线性回归方程,通过检验后的多元线性模型也可以用来进行预测。下面我们举例说明。 【例9.7】十个地区某种商品的需求量与其价格以及消费者收入的资料,见表9.4,推算若价格在40百元、消费者收入为1700万元时,该商品的需求量。
十个地区某商品的需求量与相关资料
【解】借助Excel中的回归分析工具,完成计算任务,操作步骤见例9.7,分析结果见图9.11。
包含各类专业文献、各类资格考试、应用写作文书、生活休闲娱乐、幼儿教育、小学教育、行业资料、专业论文、第九章 相关与回归分析65等内容。 
 第九章 第一节 一、变量间的相互关系 相关与简单线性回归分析 相关与回归的基本概念 现象之间存在的依存关系包括两种: 确定性的函数关系和不确定性的统计关 系,...  第九章 相关与回归分析 补充作业 参考答案_理学_高等教育_教育专区。第九章 相关与回归分析 补充作业 参考答案 三、计算分析题: 1、解: (1) 、绘制相关图如下...  第九章 相关与回归分析答案张芳_教育学_高等教育_教育专区。相关分析与回归分析一、填空题 1.单复 2.正正 3.相关方向 相关程度 4.程度 方向 5.函数关系 1 ...  第九章 方差分析和回归分析_数学_自然科学_专业资料。第九章 方差分析和回归分析...? T j2 j ?1 r 2、回归分析(1)基本概念 回归分析:利用样本数据建立起相关...  第九章 相关与回归分析答案张芳_教育学_高等教育_教育专区。统计学 相关分析与回归分析一、 填空题 1.单复 2.正正 3.相关方向 相关程度 4.程度 方向 5.函数...  第九章 线性回归和相关分析 9.1 什么叫做回归分析?直线回归方程和回归截距、回归系数的统计意义是什么,如何计 算?如何对直线回归进行假设测验和区间估计? 9.2 sa 、...  第九章一、填空题: 相关与回归分析 补充作业。 。。 两类。 。。, 1、相关关系按相关方向不同分为 和。 2、当变量 x 与 y 之间存在正相关关系时,随着...  第九章 相关分析_理学_高等教育_教育专区。第九章 一、 1. 进行相关分析,要求...某校经济管理类的学生学习统计学的时间( x )与考试成绩( y )之间建立回归...  如何将非线性回归模型转换成线性模型 第2页 统计学 第九章 相关与回归分析 相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有...

我要回帖

更多关于 总体个体样本样本容量 的文章

 

随机推荐