抗甲状腺抗氧化酶抗体过氧化物酶抗体182.86什么意思

第1章绪论思考与练习参考答案一、最佳选择题1. 研究中的基本单位是指 ( D )。 A.样本 D. 个体 B. 全部对象 E. 总体 ) 。 C.影响因素2. 从总体中抽取样本的目的是( B A.研究样本统计量 C.研究典型案例 3. 参数是指( B ) 。 A.参与个体数 C.描述样本特征的统计指标B. 由样本统计量推断总体参数 D. 研究总体统计量 E. 计算统计指标B. 描述总体特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是( E ) 。 A.白细胞计数 C.门急诊就诊人数 B.住院天数 D.患者的病情分级 E. ABO 血型5.关于随机误差下列不正确的是( C ) 。 A.受测量精密度限制 D.不可避免 B.无方向性 C. 也称为偏倚E. 增加样本含量可降低其大小二、名称解释(答案略)1. 变量与随机变量 4. 参数与统计量 7. 频率与概率 2. 同质与变异 5. 误差 3. 总体与样本 6. 随机事件三、思考题1. 生物统计学与其他统计学有什么区别和联系? 答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学 等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是 统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其 不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法, 而卫生统计学更侧重 于介绍社会、人群健康研究中的统计学原理与方法。 2. 某年级甲班、乙班各有男生 50 人。从两个班各抽取 10 人测量身高,并求其平均身高。 如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么? 答:不能。因为,从甲、乙两班分别抽取的 10 人,测量其身高,得到的分别是甲、乙 两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使 是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因 此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进 行统计推断,才能作出判断。 3. 某地区有 10 万个 7 岁发育正常的男孩,为了研究这些 7 岁发育正常男孩的身高和体重, 在该人群中随机抽取 200 个 7 岁发育正常的男孩, 测量他们的身高和体重, 请回答下列问题。 (1) 该研究中的总体是什么? 答:某地区 10 万个 7 岁发育正常的男孩。 (2) 该研究中的身高总体均数的意义是什么? 答:身高总体均数的意义是: 10 万个 7 岁发育正常的男孩的平均身高。 (3) 该研究中的体重总体均数的意义是什么? 答:体重总体均数的意义是: 10 万个 7 岁发育正常的男孩的平均体重 (4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。 (5)该研究中的样本是什么? 答:该研究中的样本是:随机抽取的 200 个 7 岁发育正常的男孩。 (宇传华 方积乾)第2章统计描述思考与练习参考答案一、最佳选择题1. 编制频数表时错误的作法是( E A. 用最大值减去最小值求全距 C. 第一个组段须包括最小值 ) 。 B. 组距常取等组距,一般分为10~15组 D. 最后一个组段须包括最大值 E. 写组段,如“1.5~3,3~5, 5~6.5,?” 2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是( A ) 。 A. 中位数 B. 几何均数 C. 调和均数 D. 算术均数 E. 众数3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用( A ) 。 A. 变异系数 D. 四分位数间距 B. 全距 E. 百分位数P2.5与P97.5的间距 C. 标准差4. 均数 X 和标准差S的关系是( A ) 。 A. S越小, X 对样本中其他个体的代表性越好 B. S越大, X 对样本中其他个体的代表性越好 C. X 越小,S越大 D. X 越大,S越小 E. S 必小于 X 5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为( B ) 。 A. 阳转人数 D. 乙肝病毒携带者数 B. 疫苗接种人数 E. 易感人数 C. 乙肝患者数6. 某医院的院内感染率为5.2人/千人日,则这个相对数指标属于( C ) 。 A. 频率 B. 频率分布 C. 强度 D. 相对比 E. 算术均数7. 纵坐标可以不从0开始的图形为( D ) 。 A. 直方图 B. 单式条图 C. 复式条图 D. 箱式图 E. 以上均不可二、简答题 1. 对定量资料进行统计描述时,如何选择适宜的指标?答:详见教材表2-18。 教材表2-18 定量资料统计描述常用的统计指标及其适用场合 描述内容 平均水平 指 标 意 个体的平均值 平均倍数 位次居中的观察值 频数最多的观察值 基于倒数变换的平均值 义 适 用 场 合 对称分布 取对数后对称分布 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 不拘分布形式,概略分析 正偏峰分布资料 均 数 几何均数 中 位 数 众 数 调和均数 变 异 度全 距 观察值取值范围 标 准 差 观察值平均离开均数的 (方 差) 程度 四分位数 居中半数观察值的全距 间距 变异系数 标准差与均数的相对比不拘分布形式,概略分析 对称分布,特别是正态分布资料 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 ①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较2. 举例说明频率和频率分布的区别和联系。 答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人, 分别有30人病情稳定,66人处于进展状态,54人死亡。 当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。 当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、 36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。 两者均为“阳性率” ,都是基于样本信息对总体特征进行估计的指标。不同的是:频率 只是一种结局发生的频率, 计算公式的分子是某一具体结局的发生数; 频率分布则由诸结局 发生的频率组合而成, 计算公式的分子分别是各种可能结局的发生数, 而分母则与频率的计 算公式中分母相同,是样本中被观察的单位数之和。 3. 应用相对数时应注意哪些问题? 答: (1)防止概念混淆 相对数的计算是两部分观察结果的比值,根据这两部分观察结 果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小 样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 4. 常用统计图有哪些?分别适用于什么分析目的? 答:详见教材表2-20。 教材表2-20 常用统计图的适用资料及实施方法 图 形 适 用 资 料 组间数量对比 定量资料的分布 构成比 构成比 定量资料数值变动 定量资料发展速度 双变量间的关联 实 施 方 法 用直条高度表示数量大小 用直条的面积表示各组段的频数或频率 用直条分段的长度表示全体中各部分的构成比 用圆饼的扇形面积表示全体中各部分的构成比 线条位于横、纵坐标均为算术尺度的坐标系 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 点的密集程度和形成的趋势,表示两现象间的相关关系 条 图 直 方 图 百分条图 饼 图 线 图 半对数线图 散 点 图 箱 式 图 茎 叶 图定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数三、计算题1. 某内科医生调查得到100名40~50岁健康男子总胆固醇(mg/dl) ,结果如下 227 199 235 235 246 163 207 190 155 220 167 209 273 208 224 208 190 210 202 178 231 259 203 203 171 186 190 234 225 199 197 248 217 207 226 238 253 149 201 206 259 174 180 181 175 266 200 186 199 193 196 236 189 203 194 278 214 224 202 222 197 246 277 195 210 209 199 161 172 181 213 220 174 197 247 234 193 255 184 214 138 232 209 257 174 199 186 189 172 216 185 198 156 172 244 249 167 230 195 235(1)编制频数表,绘制直方图,讨论其分布特征。 答:频数表见练习表2-1。根据直方图(练习图2-1) ,可认为资料为基本对称分布,其 包络线见练习图2-2。练习表2-1 某地100名40~50岁健康男子总胆因醇/(mg?dl )Valid Frequency Percent Percent Valid 130~ 145~ 160~ 175~ 190~ 205~ 220~ 235~ 250~ 265~280 Total Percent 1.0 1 3 11 12 25 15 13 11 5 4 100 1.0 3.0 11.0 12.0 25.0 15.0 13.0 11.0 5.0 4.0 100.0 1.0 4.0 3.0 15.0 11.0 27.0 12.0 52.0 25.0 67.0 15.0 80.0 13.0 91.0 11.0 96.0 5.0 100.0 4.0 100.0 Cumulative-1 2520Frequency151050 140 160 180 200 220 240 260 280M ean = 207. 41 S t D ev. = 29. d. 82 N = 100总胆固醇 练习图2-1 直方图2520Frequency151050 140 160 180 200 220 240 260 280M ean = 207. 41 S t D ev. = 29. d. 82 N = 100总胆固醇 练习图2-2 包络线图 (2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。 答:利用原始数据,求出算术均数 X ? 207 .4 mg/dl 和标准差 S ? 29.8 mg/dl。 (3)计算P25,P75和P95。 答:利用原始数据,求出P25=186.8 mg/dl,P75=229.3 mg/dl,P95=259.0 mg/dl。 2. 某地对120名微丝蚴血症患者治疗3个疗程后,用IFA间接荧光抗体试验测得抗体滴度如 下,求抗体滴度的平均水平。 抗体滴度 例 数 1:5 5 1:10 16 1:20 27 1:40 34 1:80 22 1:160 13 1:320 3利用上述频数表,得平均滴度为1:36.3。 3. 某地年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保 持不变。 教材表2-21 某地6年间出血热的发病与死亡情况 年 份 77 80 试分析: (1)粗略判断发病率的变化情况怎样。 答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有 下降。可以认为发病率大致呈上升趋势,1980年略有下降。 (2)病死率的变化情况怎样? 答: 病死率由各年度病死数除以发病数获得,病死率依次为12.5%、8.9%、7.4%、5.4%、 3.0%和1.8%,呈逐年下降趋势。 (3)上述分析内容可用什么统计图绘制出来? 答: 由于没有给出该地人口数, 故不能计算发病率, 可用普通线图表示发病数变化情况。 病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。 (4)评述该地区出血热防治工作的效果。 答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降) 。 发病数 32 56 162 241 330 274 病死数 4 5 12 13 10 5 (张晋昕)第3章概率分布思考与练习参考答案一、最佳选择题1. 某资料的观察值呈正态分布,理论上有( A. 68.27% B. 90% C. 95% C )的观察值落在 X ? 1.96S 范围内。 E. )。 E. 99% 45%D. 99% A2. 正态曲线下,从均数 ? 到 ? ? 1.64? 的面积为( A. 45% B. 90% C. 95%D. 47.5%3. 若正常人的血铅含量 X 近似服从对数正态分布,则制定 X 的 95%参考值范围,最好采 用(其中 Y ? lg X , S Y 为 Y 的标准差)( A. X ? 1.96SD. lg?1C)。C. lg?1B. P2.5 ~ P97.5(Y ? 1.64S Y )(Y ? 1.96S Y )E. P5 ~ P95 D ),则二项分布越接近对称分布。 C. 总体率 ? 越小4. 在样本例数不变的情况下,若( A. 总体率 ? 越大 D. 总体率 ? 越接近 0.5B. 样本率 p 越大E. 总体率 ? 接近 0.1 或 0.5 D )。5. 铅作业工人周围血象点彩红细胞在血片上的出现数近似服从( A. 二项分布 D. Poisson 分布 B. 正态分布 E. 对称分布 ED.C. 偏态分布6. Poisson 分布的均数 ? 与标准差 ? 的关系是( A. ? ? ?B.)。? ??C.? ???? ?E.? ?? 2二、思考题1. 服从二项分布及 Poisson 分布的条件分别是什么? 简答:二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条 件不变;③各次试验独立。Poisson 分布成立的条件:除二项分布成立的三个条件外,还要 求试验次数 n 很大,而所关心的事件发生的概率 ? 很小。 2. 二项分布、Poisson 分布分别在何种条件下近似正态分布? 简答: 二项分布的正态近似:当 n 较大,π 不接近 0 也不接近 1 时,二项分布 B( n , π )近似正态分布 N( n? ,n? (1 ? ? ) ) 。Poisson 分布的正态近似:Poisson 分布 ? (? ) ,当 ? 相当大时(≥20) ,其分布近似于正 态分布。三、计算题1. 已知某种非传染性疾病常规疗法的有效率为 80%,现对 10 名该疾病患者用常规疗法治 疗,问至少有 9 人治愈的概率是多少? 解:对 10 名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人 服药后治愈的概率均可视为 0.80,这相当于作 10 次独立重复试验,即 ? =0.80,n=10 的 贝努利试验,因而治愈的人数 X 服从二项分布 B(10, 0.80) 。至少有 9 人治愈的概率为:k P ( X ? 9) ? 1 ? P ( X ? 9 ? 1)= ? ? C10 0.8k (1 ? 0.8)10 ? k 1 k ?0 8? 1 ? 0.6 2 42 ? 0.3 7 58=3 7 . 5 8 %至少有 9 人治愈的概率是 37.58%。 或者P( X ? 9) ? P( X ? 9) ? P( X ? 10)9 ? C10 0.89 (1 ? 0.8)1 ? C10 0.810 (1 ? 0.8) 0 10? 0.378 52. 据以往的统计资料,某地新生儿染色体异常率为 1%,问 100 名新生儿中染色体异常不 少于 2 名的概率是多少? 解: =1 ?P( X ? 2) ? 1 ? P( X ? 2 ? 1) ? 1 ? P( X ? 0) ? P( X ? 1)10 ?1 11 ?1 e ? e = ? 0.3679 ? 0.2=26.42% 1 0! 1!3. 调查某市 2000 年 110 名 20 岁男性青年的身高(cm)资料如下: 173.1 168.2 170.9 166.7 181.2 176.9 178.6 166.8 173.7 165.0 170.8 177.1 170.5 180.6 172.9 184.4 176.3 168.8 172.3 174.2 175.6 175.9 174.8 174.2 177.5 176.5 177.5 173.3 172.8 172.5 179.8 174.5 174.0 176.6 168.7 170.5 174.9 174.5 183.5 174.3 182.3 174.5 174.1 174.9 180.5 182.0 174.6 172.1 178.5 174.2 174.2 171.5 170.9 172.6 169.9 171.3 175.7 173.8 178.9 173.5 171.3 179.5 172.0 173.5 176.2 171.5 177.5 173.1 175.8 173.2 168.8 175.4 175.8 173.8176.0 169.2 164.8 180.7182.6 170.0 175.6 176.3169.5 171.9 180.0 177.5177.5 176.6 176.6 178.3180.6 178.8 176.5 176.0181.5 175.1 165.2 168.0 177.2 173.4 168.5 177.6 177.7 174.1 180.8 170.6 174.8 180.8 176.5 179.2(1)试估计当年该市 20 岁男性青年中,身高在 175.0~178.0(cm)内的占多大比例? (2)估计当年该市 95%以及 99%的 20 岁男青年身高范围。 (3)若当年由该市随机抽查 1 名 20 岁男青年,试估计其身高超过 180 cm 的概率。 解:用 SPSS 计算本题。 数据文件:data3-n.sav。 数据格式:数据库 2 列 110 行,变量 n 为男性青年序号,x 表示身高。 操作步骤:操作 Analyze Descriptive Statistics Descriptives Options √ Mean Continue Variable[s]: OK Transform Compute Target Variable Numeric Expression: CDF.NORMAL(178.0,174.766,4.1509)-CDF. NORMAL(175.0,174.766,4.1509) OK Target Variable x1 该市 95%以及 99%的 20 岁男 青年身高范围间的比例 P 调 用 “ 变 量 计 算 (Compute Variable)”对话框 定义目标变量“P” 当年该市 20 岁男性青年中, 身高在 175.0~178.0 cm 内的比 例 x √ Std. Deviation 计算得均数=174.766,标准差 =4.150 9 调用 Descriptives 过程 说明Numeric Expression: 174.766-1.96*4.1509 OK Target Variable x2Numeric Expression: 174.766+1.96*4.1509 OK Target Variable x3Numeric Expression: 174.766-2.58*4.1509 OK Target Variable x4Numeric Expression: 174.766+2.58*4.1509 OK Target Variablep1 由该市随机抽查 1 名 20 岁男 青年,其身高超过 180 cm 的 概率Numeric Expression: 1-CDF.NORMAL(180.0,174.766,4.1509) OK计算结果(练习图 3-1):Descriptive StatisticsN x Valid N (listwise) 110 110Mean 174.766Std. Deviation 4.1509练习图 3-1 SPSS 输出结果 以上是 SPSS 输出结果,得到均数(Mean)为 174.766 cm,标准差(Std. Deviation) 为 4.150 9 cm。 估计当年该市 20 岁男性青年中, 身高在 175.0~178.0 cm 内的比例为 25.956%, 身高在 175.0~178.0 cm 内的约有 29 人。 估计当年该市 95%的 20 岁男青年身高范围为 166.63~182.90 cm,99% 的 20 岁男青年身高范围为 164.06~185.48 cm。 由该市随机抽查 1 名 20 岁男青年,估计其身高超过 180 cm 的概率约为 10%。 (祁爱琴 高 永 石德文)第4章参数估计思考与练习参考答案 一、最佳选择题1.关于以 0 为中心的 t 分布,错误的是( E A. t 分布的概率密度图是一簇曲线 C. 当? ? ∞时,t 分布?Z 分布 E. ? 相 同时, t 值越大,P 值越大 2.某指标的均数为 X ,标准差为 S , 由公式 X ? 1.96 S , X ? 1.96 S 计算出来的区间常称 为( B ) 。 B. 95%参考值范围 E. 90%置信区间 ) 。 C. 99%置信区间 )B. t 分布的概率密度图是单峰分布 D. t 分布的概率密度图以 0 为中心,左右对称??A. 99%参考值范围 D. 95%置信区间3.样本频率 p 与总体概率 ? 均已知时,计算样本频率 p 的抽样误差的公式为( C A.p ?1 ? p ? nB.p ?1 ? p ? n ?1C.? ?1 ? ? ?nD.? ?1 ? ? ?n ?1标准差为E.? ?1 ? ? ?n?24.在已知均数为 ? , 率为 5%。 A. 1.96? D. t0.05/ 2,? S X 5. ( C A. CV? 的正态总体中随机抽样, X ? ? ? ( B )的概B. 1.96? X E. t0.05/ 2,? ? XC. t0.05 / 2,? S)小,表示用样本均数估计总体均数的精确度高。 B. S C. ? X D. R E. 四分位数间距6. 95%置信区间的含义为( C ) : A. 此区间包含总体参数的概率是 95% B. 此区间包含总体参数的可能性是 95% C. “此区间包含总体参数”这句话可信的程度是 95% D. 此区间包含样本统计量的概率是 95% E. 此区间包含样本统计量的可能性是 95%二、思考题1. 简述标准误与标准差的区别。 答: 区别在于: (1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确 知道总体参数(如总体均数)的程度。 (2)标准误小于标准差。 (3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不 随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可 能减小。 2. 什么叫抽样分布的中心极限定理? 答: 样本含量 n 越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布, 这种现象统计学上称为中心极限定理(central limit theorem) 。 当有足够的样本含量(如 n ? 30 )时,从任何总体中抽取随机样本的样本均数近似地 服从正态分布。样本含量越大, X 抽样分布越接近于正态分布。 正态分布的近似程度与总体自身的概率分布和样本含量有关。 如果总体原本就是正态分 布,那么对于所有 n 值,抽样分布均为正态分布。如果总体为非正态分布, X 仅在 n 值较 大情况下近似服从正态分布。一般说, n ? 30 时的 X 抽样分布近似为正态分布;但是,如 果总体分布极度非正态(如双峰分布、极度偏峰分布) ,即使有足够大的 n 值,抽样分布也 将为非正态。 3. 简述置信区间与医学参考值范围的区别。 答: 置信区问与医学参考值范围的区别见练习表 4-1。 练习表 4-1 置信区间与医学参考值范围的区别区别 含义 置信区间 总体参数的波动范围,即按事先给定的概 率 100(1??)%所确定的包含未知总体参 数的一个波动范围 用途 计算公式 估计未知总体均数所在范围 参考值范围 个体值的波动范围,即按事先给定的 范围 100(1??)%所确定的 “正常人” 的解剖、生理、生化指标的波动范 围 供判断观察个体某项指标是否 “正常” 时参考(辅助诊断) 正态分布: X ? Z? / 2 S 偏峰分布:PX~P100?X?未知: X ? t? / 2,? S X ?已知或?未知但 n≥30,有 X ? Z? / 2? X 或X ? Z? / 2 S X4. 何谓置信区间准确度与精确度?如何协调两者间的关系。 答:置信区间有准确度(accuracy)与精密度(precision)两个要素。准确度由置信度 (1-?) 的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看, 置信度愈接近于 1 愈好,如置信度 99%比 95%好。精密度是置信区间宽度的一半(即t? 2,? S X 、 Z? 2,? S p ) ,意指置信区间的两端点值离样本统计量(如 X 、p)的距离。从精密度的角度看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是相互矛盾的。 为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。 三、计算题1.随机抽取了 100 名一年级大学生, 测得空腹血糖均数为 4.5 mmol/L, 标准差为 0.61 mmol/L。 试估计一年级大学生空腹血糖总体均数及方差的 95%置信区间。 答:总体均数 95%置信区间为(4.379,4.621) ,方差的 95%置信区间为(0.286 9, 0.502 1) 。 2.调查某地蛲虫感染情况,随机抽样调查了 260 人,感染人数为 100。试估计该地蛲虫感染 率的 95%置信区间。 答:该地蛲虫感染率的 95%置信区间为(32.55%,44.38%) 。 (宇传华)第5章 假设检验 思考与练习参考答案一、最佳选择题1. 样本均数比较作 t 检验时,分别取以下检验水准,以( E A. ? ? 0.01 B. )所取Ⅱ类错误最小。 E.? ? 0.05C.? ? 0.10D.? ? 0.20? ? 0.302. 在单组样本均数与一个已知的总体均数比较的假设检验中,结果 t=3.24,t0.05,v =2.086, t0.01,v =2.845。正确的结论是( E ) 。 A. 此样本均数与该已知总体均数不同 B. 此样本均数与该已知总体均数差异很大 C. 此样本均数所对应的总体均数与该已知总体均数差异很大 D. 此样本均数所对应的总体均数与该已知总体均数相同 E. 此样本均数所对应的总体均数与该已知总体均数不同 3. 假设检验的步骤是( A ) 。 A. 建立假设,选择和计算统计量,确定 P 值和判断结果 B. 建立无效假设,建立备择假设,确定检验水准 C. 确定单侧检验或双侧检验,选择 t 检验或 Z 检验,估计Ⅰ类错误和Ⅱ类错误 D. 计算统计量,确定 P 值,作出推断结论 E. 以上都不对 4. 作单组样本均数与一个已知的总体均数比较的 t 检验时,正确的理解是( C A. 统计量 t 越大,说明两总体均数差别越大 B. 统计量 t 越大,说明两总体均数差别越小 C. 统计量 t 越大,越有理由认为两总体均数不相等 D. P 值就是? ) 。 E. P 值不是?,且总是比?小 5. 下列( E )不是检验功效的影响因素的是: A. 总体标准差 ? D. Ⅰ类错误 ? B. 容许误差 ? E. Ⅱ类错误 ? C. 样本含量 n二、思考题1.试述假设检验中 α 与 P 的联系与区别。 答:? 值是决策者事先确定的一个小的概率值。 P 值是在 H 0 成立的条件下,出现当前检验统计量以及更极端状况的概率。 P≤? 时,拒绝 H 0 假设。 2. 试述假设检验与置信区间的联系与区别。 答: 区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。 置 信区间用于说明量的大小,即推断总体参数的置信范围;而假设检验用于推断质的不同,即 判断两总体参数是否不等。 3. 怎样正确运用单侧检验和双侧检验? 答:选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。若比较甲、 乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优,则应选用双 侧检验。若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可能无效,但不可能 改进后反不如以前,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧 检验即可。 4. 试述两类错误的意义及其关系。 答:Ⅰ类错误(typeⅠerror) :如果检验假设 H 0 实际是正确的,由样本数据计算获得的 检验统计量得出拒绝 H 0 的结论, 此时就犯了错误, 统计学上将这种拒绝了正确的零假设 H 0 (弃真)的错误称为Ⅰ类错误。 Ⅱ类错误(type Ⅱ error):假设检验的另一类错误称为Ⅱ类错误(type Ⅱ error),即检验 假设 H 0 原本不正确( H1 正确) ,由样本数据计算获得的检验统计量得出不拒绝 H 0 (纳伪) 的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用? 表示。 在假设检验时,应兼顾犯Ⅰ类错误的概率( ? )和犯Ⅱ类错误的概率( ? ) 。犯Ⅰ类错 误的概率( ? )和犯Ⅱ类错误的概率( ? )成反比。如果把Ⅰ类错误的概率定得很小,势 必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势 必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小 ? 和 ? ,只有通过增加样本 含量,减少抽样误差大小来实现。 5.试述检验功效的概念和主要影响因素。 答:拒绝不正确的 H 0 的概率,在统计学中称为检验功效(power of test),记为 1 ? ? 。检 验功效的意义是:当两个总体参数间存在差异时(如备择假设 H1 : ? ? ?0 成立时),所使用 的统计检验能够发现这种差异(拒绝零假设 H 0 : ? ? ?0 )的概率,一般情况下要求检验功效 应在 0.8 以上。 影响检验功效的四要素为总体参数的差异 ? 、总体标准差 ? 、检验水准 ? 及犯Ⅱ类错 误的概率 ? 。 6.简述假设检验的基本思想。 答:假设检验是在 H0 成立的前提下,从样本数据中寻找证据来拒绝 H 0 、接受 H1 的一 种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝 H 0 ,暂且认为 H 0 成 立(因为拒绝的证据不足) ,即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝 H 0 是 根据某个界值, 即根据小概率事件确定的。 所谓小概率事件是指如果比检验统计量更极端 (即 绝对值更大)的概率较小,比如小于等于 0.05(各种科研杂志习惯上采用这一概率值) ,则 认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝 H 0 ,即有足够证据 推断差异具有统计学意义。三、计算题1. 一般正常成年男子血红蛋白的平均值为 140 g/L,某研究者随机抽取 25 名高原地区成年 男子进行检查,得到血红蛋白均数为 155 g/L,标准差 25 g/L。问:高原地区成年男子的血 红蛋白是否比一般正常成年男子的高? 解: H 0 : ? ? ?0H 1 : ? ? ?0? ? 0 . 0 (单侧) 5 t?X ? ?0 =3.00 S/ nt=3, 0.005 ? P ? 0.01 ,可认为高原地区居民的血红蛋白比一般正常成年男子的高。 2. 一般而言,对某疾病采用常规治疗,其治愈率约为 45%。现改用新的治疗方法,并随机 抽取 180 名该疾病患者进行了新疗法的治疗, 治愈 117 人。 问新治疗方法与常规疗法的效果 是否有差别? 解: H 0 : ?=? 0 , H1 : ?? ? 0 , ? ? 0.05=5.41Z?p ??0?p?p ??0? 0 (1 ? ? 0 ) / nZ=5.41, P ? 0.001 ,可认为新治疗方法与常规疗法的效果不同,新疗法优于常规疗法。 (林爱华 宇传华)第6章两样本定量资料的比较 思考与练习参考答案一、 最佳选择题1. 正态性检验,按α =0.10检验水准,认为其总体服从正态分布,此时若推断有错,其错误 的概率为( D A. 大于0.10 D. 等于β,而β未知 ) 。 B. 等于0.10 E. 等于1-β,而β未知 C. 小于0.102. 甲、乙两人分别从同一随机数字表抽取30个(各取两位数字)随机数字作为两个样本, 求得 X 1和S1 、 X 2 和S 2 ,则理论上( C ) 。 A. X 1 ? X 2 B. S1 ? S 22 2 2 2C. 由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括0 D. 作两样本均数比较的t检验,必然得出无统计学意义的结论 E. 作两样本方差比较的F检验,必然方差齐 3. 两样本均数比较时,能用来说明两组总体均数间差别大小的是( D ) 。 A. t 值 C. F 值 E. 上述答案均不正确B. P 值 D. 两总体均数之差的95%置信区间4. 两小样本均数比较,方差不齐时,下列说法不正确的是( C ) 。 A. 采用秩和检验 C. 仍用 t 检验 E. 要结合正态性检验结果方能作出决定 5. 两样本秩和检验的 H 0 是 ( B ) 。 A. 两样本秩和相等 C. 两样本分布相同 E. 两总体均数相等 6. 在统计检验中是否选用非参数统计方法( A ) 。 A. 要根据研究目的和数据特征作决定 B. 可在算出几个统计量和得出初步结论后进行选择 C. 要看哪个统计结论符合专业理论 D. 要看哪个 P 值更小 E. 既然非参数统计对资料没有严格的要求,在任何情况下均能直接使用 7. 配对样本差值的Wilcoxon符号秩和检验,确定P值的方法是( D A. T 越大, P 值越小 B . T 越大, P 值越大 C. T 值 在界值范围内,P 值小于相应的α D. T值>界值,P值大于相应的α值 E. T 值 在界值范围上,P 值大于相应的α 8. 成组设计两样本比较的秩和检验,其检验统计量T 是( C A. 为了查T 界值表方便,一般以秩和较小者为T B. 为了查T 界值表方便,一般以秩和较大者为T C. 为了查T 界值表方便,一般以例数较小者秩和为T D. 为了查T 界值表方便,一般以例数较大者秩和为T E. 当两样本例数不等时,任取一样本的秩和为T 都可以查T 界值表 ) 。 ) 。 B. 两总体分布相同 D. 两总体秩和相等 B. 采用 t ′ 检验 D. 变量变换后再作决定 二、思考题1.假设检验中,P值和α 的含义是什么?两者有什么关系? 答:P 是指 H0 成立时出现目前样本情形的概率最多是多大, α 是事先确定的检验水准。 但 P 值的大小和 α 没有必然关系。 2. 既然假设检验的结论有可能有错,为什么还要进行假设检验? 答:假设检验中,无论拒绝不拒绝 H0,都可能会犯错误,表现为拒绝 H0 时,会犯Ⅰ类 错误,不拒绝 H0 时,会犯Ⅱ类错误,但这并不能否认假设检验的作用。只要涉及到抽样, 就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概 率性的结论,它的理论基础是“小概率事件不可能原理” 。 3. 配对设计资料能否用完全随机设计资料的统计检验方法?为什么? 答:不能。采用完全随机设计资料的 t 检验会使检验效能降低,从而可能会使应有的差 别检验不出来。 4. 对于完全随机设计两样本定量资料的比较,如何选择统计方法? 答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性 (样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐, 采用 t 检验;如果满足正态性但总体方差不齐,采用 t′检验;当两者都不满足时,才考虑 选用秩和检验。当然,我们也可采用变量变换的方法使其满足 t 或 t′检验的条件。 5. 为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同 数据不必计算“平均秩次”? 答:秩和检验编秩次时不同组间出现相同数据要给予“平均秩次” ,而同一组的相同数 据不必计算“平均秩次” ,是因为取不取“平均秩次”对该组的总的秩和没有影响。三、计算题1. 某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、 同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组, 定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12) ,问饲料中维生素E缺乏对肝 中维生素A的平均含量有无影响? 教材表6-12 (U?mg 1) 大白鼠对别 1 2 3 4 5 6 7 8-正常饲料组与维生素E缺乏组大白鼠肝中维生素A含量/ 正常饲料组 维生素E缺乏组3.55 2.452.60 2.403.00 1.803.95 3.203.80 3.253.75 2.703.45 2.403.05 1.75解:此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体( W 检 验:P=0.268),所以采用配对 t 检验。结果为:t=6.837,? =7,P<0.001,拒绝 H0,可 以认为维生素 E 缺乏对肝中维生素 A 含量有影响。 2. 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标。实验结 果如下,请比较两组的平均生存日数有无差别。 实验组 对照组 10 2 12 3 14 6 15 7 15 8 17 9 18 10 20 12 26 12 80 13 30解:此题是个完全随机设计的资料。两组资料的正态性检验结果表明,差值来自正 态总体( W 检验:P1<0.001,P2=0.011),所以采用两样本比较的秩和检验。结果为: T1=150.5, T2=80.5,本例中 n1=10,n2-n1=1,对应双侧 0.05 的界值为 81~139, 故在 α =0.05 的水平上拒绝 H0,认为两组小鼠生存日数不同。(施学忠 杨永利 赵耐青)第7章多组定量资料的比较思考与练习参考答案一、最佳选择题1. 完全随机设计资料的方差分析中,必然有( C ) 。 A. SS组间 & SS组内 D. MS组间 ? MS组内 B. MS总 ? MS组间 ? MS组内 E. ? 组内 ? ? 组间 ) 。 C. Bonferroni 检验 C.ss总=SS组间 + SS组内2. 定量资料两样本均数的比较,可采用( D A. t 检验 D. t 检验与 F 检验均可 B. F 检验 E. LSD 检验3. 当组数等于 2 时,对于同一资料,方差分析结果与 t 检验结果相比, C ) ( 。 A. t 检验结果更为准确 D. 完全等价且 F ?B. 方差分析结果更为准确 E. 两者结果可能出现矛盾C. 完全等价且 t ?Ft4. 若单因素方差分析结果为 F ? F0.01(?1 ,? 2 ) ,则统计推断是( D ) 。 A. 各样本均数都不相等 D. 各总体均数不全相等 B. 各样本均数不全相等 E. 各总体均数全相等 ) 。 C. 各总体均数都不相等5. 完全随机设计资料的方差分析中,组间均方表示( C A. 抽样误差的大小 D. N 个数据的离散程度 B. 处理效应的大小 E. 随机因素的效应大小C. 处理效应和抽样误差综合结果6. 多样本定量资料比较,当分布类型不清时应选择( D ) 。 A. 方差分析 B. t 检验 C. Z 检验 D. Kruskal-Wallis 检验 E. Wilcoxon 检验7. 多组样本比较的 Kruskal-Wallis 检验中,当相同秩次较多时,如果用 H 值而不用校正后 的 H c 值,则会( C ) 。 A. 提高检验的灵敏度 B.把一些无差别的总体推断成有差别 C. 把一些有差别的总体推断成无差别 D.Ⅰ、Ⅱ类错误概率不变 E. 以上说法均不对二、思考题1. 方差分析的基本思想和应用条件是什么? 答:方差分析的基本思想是,对于不同设计的方差分析,其思想都一样,即均将处理间 平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲, 根据试验设计的类型和研究目的, 将全部观测值总的离均差平方和及其自由度分解为两个或 多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不 同变异来源的均方, 借助 F 分布作出统计推断, 从而推论各种研究因素对试验结果有无影响。 其应用条件是,① 各样本是相互独立的随机样本,均服从正态分布;② 各样本的总体 方差相等,即方差齐性。 2. 多组定量资料比较时,统计处理的基本流程是什么? 答:多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性 及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。若方 差不齐,或某样本不服从正态分布,选 Kruskal-Wallis 秩和检验,或通过某种形式的数据变 换使其满足方差分析的条件。 若方差分析或秩和检验结果有统计学意义, 则需选择合适的方 法(如 Bonferonni、LSD 法等)进行两两比较。三、计算题:1. 根据教材表 7-11 资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响 生存日数?若结论为“有影响” ,请作多重比较(与对照组比) 。 教材表 7-11 各组大鼠接种后生存日数/天 伤寒 5 7 8 9 9 10 10 11 11 12 百日咳 6 6 7 8 8 9 9 10 10 11 对照 8 9 10 10 10 11 12 12 14 16解:本题资料可考虑用完全随机设计的单因素方差分析进行统计处理。 (1)建立检验假设,确定检验水准。H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。H 1 :大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等, ? =0.05。 (2)方差分析应用前提条件的检验 首先进行正态性及方差齐性检验,三组均服从正 态分布(P1=0.684,P2=0.591,P3=0.507) ,三个总体的方差齐(P=0.715) ,符合单因素 方差分析的条件,可行方差分析。 (3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总 体均数的置信区间如下: 表 1 三组大鼠接种后生存日数的描述性统计量/天 95%置信区间 N 伤寒 百日咳 对照 合计 均数 标准差 下限 10 10 10 30 9.20 8.40 11.2 9.60 2.10 1.71 2.39 2.34 7.70 7.17 9.49 8.73 上限 10.70 9.63 12.91 10.47(4)资料的方差分析见方差分析表 方差分析结果 F ? 4.776 , P ? 0.017 ,即大白 鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。 表 2 三组大鼠接种后生存日数差别有无统计学意义的方差分析表 变异来源 组间 组内 合计 SS 41.6 117.6 159.2 df 2 27 29 MS 20.800 4.356 F 4.776 P 0.017进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊 髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。 表 3 三组大鼠接种后生存日数两两比较的结果 对比组XA ? XBSX A?XBP均数差值的 95%置信区间 下限 上限 -0.09 -0.89伤寒组与对照组 百日咳组与对照组2.0 2.80.30.041 0.006-3.92 -4.722. 将 18 名乙脑患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗, 观察指标为治疗后的退热时间,结果见教材表 7-12。问三组治疗结果的差异是否具有统计 学意义? 治疗分组 单克隆抗体组 胸腺肽组 0 32 2 13 教材表 7-12 三组乙脑患者的退热时间/天 退热时间 0 6 0 7 5 10 9 2 利巴韦林组011151131解:从专业上考虑,退热时间一般不服从正态分布,可采用 Kraskal-Wallis 检验分析 三组乙脑患者的退热时间差异有无统计学意义。 (1) 各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下: 表 1 三组乙脑患者退热时间的描述性统计量/天 组别 单克隆抗体组 胸腺肽组 利巴韦林组 N 6 6 6 P25 0.00 5.00 0.75 P50 1.00 8.50 7.00 P75 6.00 17.75 12.00(2)建立检验假设,确定检验水准。H0:三组乙脑患者的退热时间相等,H 1 :三组乙脑患者的退热时间不等或不全相等,? =0.05。(3)Kraskal-Wallis 检验结果, ? =4.799,? =2,P=0.091&0.05。结论为,在 α =0.052的水平上尚不能认为三组治疗结果的差异具有统计学意义。 (王 玖 徐天和 高 永 石德文)第8章定性资料的比较思考与练习参考答案一、最佳选择题1. 定性资料的统计推断常用( D ) 。 A. t 检验 B. 正态检验 C. F 检验 D. ? 检验2 2E. t′检验2. 两组二分类资料发生率比较,样本总例数 100,则 ? 检验自由度为( A ) 。 A. 12B. 42 2C. 950.05, ,可以认为( 1D. 99 B ) 。E. 1003. 四格表 ? 检验中, ? & ? A. 两总体率不同 C. 两样本率不同B. 不能认为两总体率不同 D. 不能认为两样本率不同 E. 以上都不对 4.等级资料比较宜采用( E A. t 检验2) 。 C. F 检验 D. 正态检验 E. 秩和检验B. ? 检验5. 为比较治疗某病的新疗法与常规方法,试验者将 100 名患者按性别、年龄等情况配成对 子,分别接受两疗法治疗。观察得到有 28 对患者同时有效,5 对患者同时无效,11 对患者 新药有效常规治疗无效。欲比较两种疗法的有效率是否相同,应选择的统计分析方法为 ( D ) 。 A. 独立的两组二分类资料比较 ? 检验2B. 独立的两组二分类资料比较校正 ? 检2验 C. 配对的两组二分类资料比较 ? 检验2D. 配对的两组二分类资料比较校正 ? 检2验 E. Fisher 确切概率法二、思考题1. 简述 ? 检验适用的数据类型。2答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个 样本率(或构成比)之间有无差别。 2. 两组二分类资料的设计类型有几类?其相应的检验方法是什么? 答:提示:两组二分类资料的设计类型主要有 2 类,即完全随机设计和配对设计。完全 随机设计和配对设计资料在假设检验方法上均采用卡方检验。完全随机设计资料应用公式 (8-1)或(8-4) ,配对设计资料应用公式(8-7)或(8-8) 。 3. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。 答:提示:进行有序资料的比较时宜采用秩和检验。秩和检验步骤为:① 建立假设H 0 和H 1 ,并确定检验水准 ? ;② 根据不同的设计类型对资料进行编秩并计算秩和;③ 根据计算的秩和直接查表或计算相应的统计量再查表,确定 P 值下结论。进行有序资料的比 较时宜采用秩和检验。 4. 试证明对于 R × C 式(8-11)与式(8-1)等价。 提示:χ ? ??2 i ?1 j ?1 R CRC(Aij ? Tij ) 2 Tij2? ??i ?1 j ?1RC(Aij ? ni m j /n)2 ni m j /n? ?? ni ?1 j ?1 RAij ? 2 Aij ni m j /n ? (ni m j /n)2 ni m j Aij Aij Aij2? n?? (i ?1 j ?1 RCni m j2?2 Aij n?ni m j n2)? n( ??i ?1 j ?1 R CCni m j2? 2 ? 1) ?1)? n( ??i ?1 j ?1ni m j三、 计算题1. 某医院观测了 28 例肝硬化患者和 14 例再生障碍性贫血患者血清中抗血小板抗体, 结果 是:肝硬化患者中有2例阳性,再生障碍性贫血患者中有5例阳性。问:两类患者血清抗血 小板抗体阳性率有无差别? 解:将资料进行整理列表(练习表8-1) 。 练习表8-1 两类患者血清抗血小板抗体检测结果 患者类型 肝硬化患者 再生障碍性贫血患者 阳性 2 5 阴性 26 9 合计 28 14资料属于独立的两组二分类资料比较。理论频数分别为4.67、23.33、2.33、11.67,应 选用校正公式计算。假设 H 0 :两种疾病患者血清抗血小板抗体检测阳性率相同,? =0.05。 计算统计量校正卡方=3.621 4,自由度=1, P =0.057 0, 无统计学意义,尚不能认为两种 疾病患者血清抗血小板抗体检测阳性率不同。 2. 对 100 名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊 断,结果见教材表 8-18。试比较用两种方法检验的阳性率有无差别? 教材表 8-18 两种方法的检验结果比较(例数) 间接免疫 荧光 + + 66 显微镜凝集 合计 11 77 合计6 7217 2823 100解: 答案提示,本资料属于配对的两组二分类资料比较, b + c =11+6=17<40,应选用 校正配对卡方公式计算。 假设 H 0 : 两种方法检测的阳性率相同, =0.05。 计算统计量 χ ? ?20.9412, df =1, P =0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。 3. 研究两种不同的治疗训练方案对肥胖症患者的减肥效果情况,结果见教材表 8-19。问这 两种治疗训练方案对肥胖症患者的减肥效果是否相同? 教材表 8-19 两种治疗训练方案对肥胖症患者的减肥效果(例数) 治疗方案 甲 乙 合计 效果较好 16 28 44 效果一般 22 17 39 效果较差 8 5 13 合计 46 50 96解:该资料属于结果变量为有序变量的定性资料,应选用秩和检验。假设 H 0 :两种治 疗方案对肥胖症患者的减肥效果相同, ? =0.05。按照治疗效果由差到好编秩,计算秩和T甲 ? 1 974 ,统计量 U =-2.064, P =0.039,有统计学意义,可以认为两种治疗方案的减肥效果不同,由两组平均秩和看,甲组为1 974÷46=42.91,乙组为2 682÷50=53.64,因为 编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。 4. 比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表 8-20。三种方剂的治疗效果 是否有差异? 教材表 8-20 三种中药方剂对骨质疏松症的治疗效果(例数) 分组 A 方剂 B 方剂 C 方剂 合计 有效 18 12 11 41 无效 6 14 15 35 合计 24 26 26 76解:本题属于独立的多组二分类资料比较。假设 H 0 :三种方剂对骨质疏松症的治疗效 果相同, ? =0.05。计算统计量 χ ? 6.3350, df =2, P =0.042,差别有统计学意义,2拒绝 H0,接受 H1,尚不能认为这三种方剂的治疗效果不相同。(郭秀花 罗艳侠)第9章关联性分析思考与练习参考答案一、最佳选择题1. 对简单相关系数作假设检验, t ? t (v ) ,统计结论为( B ) 。 A. 两变量不相关 C. 两变量无线性关系 E. 上述说法都不准确 2. 计算积矩相关系数要求( C ) 。 B. 两变量有线性关系 D. 两变量不会是曲线关系,一定是线性关系A. Y 是正态变量, X 可以不满足正态的要求 B. X 是正态变量, Y 可以不满足正态的要求 C. 两变量都要求满足正态分布规律 D. 两变量只要是测量指标就行 E. Y 是定量指标, X 可以是任何类型的数据 3. 对两个分类变量的频数表资料作关联性分析,可用( C ) 。 A. 积矩相关 D. 线性相关 B.秩相关 E.以上均可 C. 关联系数4. 由样本算得相关系数 r , t 检验结果为 P &0.01,说明( D ) 。 A. 两变量之间有高度相关性 B. r 来自高度相关的总体 C. r 来自总体相关系数为 0 的总体 D. r 来自总体相关系数不为 0 的总体 E. r 来自总体相关系数大于 0 的总体二、思考题1. 1988 年某地抽查 0~7 岁儿童营养不良患病情况如教材表 9-10,某医师要想了解年龄与营 养不良患病率是否有关,你认为应选用什么统计方法?为什么? 教材表 9-10 年龄/岁 患病人数 患病率/% 1988 年某地抽查 0~7 岁儿童营养不良患病情况 0~ 98 15.7 1~ 278 11.7 2~ 86 12.9 3~ 29 7.4 4~ 59 8.9 5~ 82 7.3 6~7 34 5.1解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不服从正态分布。 2. 请查找最近三年主题为相关分析或关联分析的已发表国内医学文献, 至少认真阅读其中 3 篇(建议分别选取 Pearson、Spearman 相关分析和关联分析各 1 篇) ,找出其中不妥之处。 3. 在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结 果。请举一两个实例说明这种现象。 三、计算分析题 1. 某学校随机抽取 18 名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表 教材 9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并 检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学 好? 教材表 9-11编号 数学成绩 X 语文成绩 Y 智商得分 Z 编号 数学成绩 X 语文成绩 Y 智商得分 Z 1 78 83 95 10 73 75 92 2 84 76 100 11 48 53 6118 名学生的智商、数学成绩和语文成绩3 61 70 100 12 45 43 60 4 52 58 75 13 67 70 88 5 93 82 105 14 75 78 96 6 89 78 97 15 95 97 125 7 98 89 110 16 88 92 113 8 98 95 120 17 99 92 126 9 65 61 76 18 81 88 102解: 提示, 数学与智商的相关系数 (Pearson) 0.918, 为 语文与智商的相关系数为 0.958, 数学与语文的相关系数为 0.932。各总体相关系数均不为 0。 数学好或者语文好与智商有关系。 不能认为数学好的原因是语文好, 或者语文好的原因 是数学好,两者之间不存在因果关系。 2. 将 10 份研究生院的入学申请书让两位老师排序,结果见教材表 9-12。请问两人的排序 是否相关? 教材表 9-12 两位老师对 10 份入学申请书的排序 申请书编号 A 老师的排序 B 老师的排序 1 6 7 2 10 8 3 5 5 4 1 4 5 7 6 6 2 3 7 8 9 8 9 10 9 3 1 10 4 2解:提示,Spearman 相关系数为 0.842,总体相关系数不为 0(P=0.002) ,可以认为两 人的排序相关。 3. 关于丈夫和妻子关节炎的患病率分析中,100 对中年夫妇的患病情况见教材表 9-13,试 分析丈夫和妻子关节炎的患病有无关系。 教材表 9-13 妻子患病情况 100 对中年夫妇的患病情况 丈夫患病情况 合计 有病 无病 合计有病 16 24 40无病 24 36 602240 60 100解:提示,运用交叉分类 2×2 列联表的关联分析, ? =0.00, χ 0.05 =3.84>0.00,在 α =0.05 的水平下,不拒绝 H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关 联。(凌 莉 刘清海)第10章简单线性回归分析思考与练习参考答案二、最佳选择题1.如果两样本的相关系数 r1 ? r2 ,样本量 n1 ? n2 ,那么( D ) 。 A. 回归系数 b1 ? b2 C. 回归系数 b1 ? b2 E. 以上均错 2.如果相关系数 r =1,则一定有( C ) 。 A. SS总 = SS残差 C. SS总 = SS回归 E. MS回归 = MS残差 3.记 ? 为总体相关系数, r 为样本相关系数, b 为样本回归系数,下列( D )正确。 A. ? =0 时, r =0 C. r >0 时, b <0 E. | r |=1 时, b =1 4.如果相关系数 r =0,则一定有( D A.简单线性回归的截距等于 0 C.简单线性回归的 SS残差 等于 0 E.简单线性回归的 SS总 等于 0 5.用最小二乘法确定直线回归方程的含义是( B ) 。 A.各观测点距直线的纵向距离相等 B.各观测点距直线的纵向距离平方和最小 ) 。 B.简单线性回归的截距等于 Y 或 X D.简单线性回归的 SS残差 等于 SS总 B.| r |>0 时, b >0 D. r <0 时, b <0 B. SS残差 = SS回归 D. SS总 > SS回归 B.回归系数 b1 ? b2 D. t 统计量 tb1 ? t r1 C.各观测点距直线的垂直距离相等 E.各观测点距直线的纵向距离等于零D.各观测点距直线的垂直距离平方和最小二、思考题1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对 总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。 答:区别: (1) 资料要求上, 进行直线回归分析的两变量, X 为可精确测量和严格控制的变量, 若 则对应于每个 X 的 Y 值要求服从正态分布;若 X 、 Y 都是随机变量,则要求 X 、 Y 服从 双变量正态分布。直线相关分析只适用于双变量正态分布资料。 (2)应用上,说明两变量线性依存的数量关系用回归(定量分析) ,说明两变量的相关 关系用相关(定性分析) 。 (3)两个系数的意义不同。 r 说明具有直线关系的两变量间相互关系的方向与密切程 度, b 表示 X 每变化一个单位所导致 Y 的平均变化量。 (4)两个系数的取值范围不同:-1≤ r ≤1, ? ? ? b ? ? 。 (5)两个系数的单位不同: r 没有单位, b 有单位。 联系: (1)对同一双变量资料,回归系数 b 与相关系数 r 的正负号一致。 b >0 时, r >0, 均表示两变量 X 、 Y 同向变化; b <0 时, r <0,均表示两变量 X 、 Y 反向变化。 (2)回归系数 b 与相关系数 r 的假设检验等价,即对同一双变量资料, t b ? t r 。由于 相关系数 r 的假设检验较回归系数 b 的假设检验简单,故在实际应用中常以 r 的假设检验代 替 b 的假设检验。 (3)用回归解释相关:由于决定系数 R =SS 回 /SS 总 ,当总平方和固定时,回归平方和 的大小决定了相关的密切程度。回归平方和越接近总平方和,则 R 越接近 1,说明引入相 关的效果越好。例如当 r=0.20,n=100 时,可按检验水准 0.05 拒绝 H0,接受 H1,认为两变 量有相关关系。但 R =(0.20)2=0.04,表示回归平方和在总平方和中仅占 4%,说明两变量间 的相关关系实际意义不大。 3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何? 答:现将相关系数、决定系数与 Y 的总变异的关系阐释如下:假如在一回归分析中, 回归系数的变异数 SS回归 =9,而 Y 的总变异数 SS总 =13,则2 决定系数 R = SS回归 / SS总 =9/14=0.642 9/1,相关系数 R=0.801 8 2 2 2 即将决定系数表示为一比值关系,当 SS总 = l 时,则 SS回归 = 0.642 9,我们可以采用直 角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图 10-1 所示。SS 回归SS 回归练习图 10-1 相关系数、决定系数与总变异的关系 面积=0.642 9 面积=9 SS 残差 边长=0.801 8 边长=3 SS 残差 面积=4 三、计算题 边长=2 1. 以例 10-1 中空气一氧化氮(NO)为因变量,风速(X4)为自变量,采用统计软件完成如 下分析: SS 回归 SS 残差 SS 回归 SS 残差 (1)试用简单线性回归方程来描述空气中 NO 浓度与风速之间的关系。 1 =0.642 9 =0.357 =9 =4? (2)对回归方程和回归系数分别进行假设检验。 SS 总=13 (3)绘制回归直线图。SS 总=1(4)根据以上的计算结果,进一步求其总体回归系数的 95%置信区间。 (5)风速为 1.50 m/s 时,分别计算个体 Y 值的 95%容许区间和 Y 的总体均数的 95%置 信区间,并说明两者的意义。 解:运用 SPSS 进行处理,主要分析结果如下: (1)简单线性回归方程、假设检验结果及总体回归系数的 95%置信区间如下: Coefficients(a) Unstandardized Standardized 95% Confidence Interval for B Coefficients Coefficients t Sig. B Std. Error Beta Lower Bound Upper Bound Constant 0.159 0.019 0.000 0.120 0.198 8.422 -0.053 0.012 -0.680 -4.345 0.000 -0.078 -0.028 风速 (2)方差分析结果: ANOVA(b) Sum of Squares Regression Residual Total 0.038 0.044 0.081 df 1 22 23 Mean Square 0.038 0.002 F 18.878 Sig. 0.000(a)(3)回归直线如练习图10-2。 练习图 10-2 回归直线图? 2. 教材表 10-8 为本章例 10-1 回归分析的部分结果,依次为 X 、Y 、Y 的估计值( Y )与? ? 残差( e ) ,请以相关分析考察四者之间的关系,以回归分析考察 Y 与 X 、 Y 与 Y 、 Y 与 ? ? Y ? Y 、 Y ? Y 与 X 之间的关系,并予以解释。教材表 10-8 案例分析中回归分析的部分结果X1.30 1.44 0.79 1.65 1.76 1.75 1.20 1.50Y0.07 0.08? Y? Y ?YXY? Y0.054 8 0.098 6 0.153 1 0.092 2 0.014 9 0.092 9 0.036 5 0.156 9? Y ?Y0.045 2 0.030 4 -0.018 1 0.006 8 -0.009 9 -0.081 9 -0.033 5 -0.016 9XY? Y? Y ?Y0.070 7 -0.004 7 1.20 0.10 0.093 5 -0.017 5 1.48 0.13 0.011 8 1.82 0.14 0.043 5 1.44 0.10 0.013 1 0.95 0.011.12 0.04 1.66 0.06 1.54 0.09 0.96 0.04 1.78 0.22 1.50 0.15 1.06 0.03 1.44 0.100.041 5 -0.002 5 0.127 1 -0.068 1 0.108 1 -0.021 1 0.016 8 0.147 4 0.101 7 0.022 2 0.074 6 0.043 30.00 -0.010 8 0.17 0.16 0.12 0.04 0.12 0.126 5 0.142 90.142 6 -0.022 6 1.44 0.01 0.054 8 -0.014 8 1.08 0.00 0.102 4 0.017 6 1.84 0.140.032 7 -0.003 7 0.092 2 0.006 8解:主要分析结果: (1)四者之间的相关系数 CorrelationsX X Y Y hat Y ? Y hat1 0.809 1.000 0.000Y0.809 1 0.809 0.586Y hat1.000 0.809 1 0.000Y ? Y hat0.000 0.586 0.000 1 ** Correlation is significant at the 0.01 level (2-tailed). (2)四个变量间的回归系数 因变量 自变量 截距 -0.136 1.005 0.088 0.000 014 7 回归系数 0.159 0.001 0.999 0.000 010 5t456.016 6.457 3.394 0.000P0.000 0.000 0.003 1.000? YY Y? Y ?YX ? Y? Y ?YX? ? Y 与 X 呈完全正相关关系,回归系数t 检验结果P =0.000,表明 Y 的变异可由 X 完全解释。? Y 与 Y 的相关系数与 Y 与 X 的相关系数相同,表明正是由于 X 的影响引起 Y 的变 ? 异, Y 与 Y 关系即体现了 Y 与 X 的变化关系。? Y 与 Y ? Y 体现了扣除 X 的影响后, Y 与残差仍呈正相关关系。 ? Y ? Y 与 X 呈零相关关系,表明扣除了 X 的影响,回归方程的残差与 X 不再有相关或回归关系。 (张岩波 郝元涛)第 11 章多重线性回归分析思考与练习参考答案一、 最佳选择题1. 逐步回归分析中,若增加自变量的个数,则( D A. 回归平方和与残差平方和均增大 C. 总平方和与回归平方和均增大 E. 总平方和与回归平方和均减小 2. 下面关于自变量筛选的统计学标准中错误的是( E A. 残差平方和( SS残差 )缩小 C. 残差的均方( MS残差 )缩小 E. C p 统计量增大 3. 多重线性回归分析中,能直接反映自变量解释因变量变异百分比的指标为 ( C A. 复相关系数 D. 偏回归系数 B. 简单相关系数 E. 偏相关系数 ) 。 C.确定系数 ) 。 ) 。2) 。B. 回归平方和与残差平方和均减小 D. 回归平方和增大,残差平方和减小B. 确定系数( R )增大2 D. 调整确定系数( Rad )增大4. 多重线性回归分析中的共线性是指( E A. Y 关于各个自变量的回归系数相同 相同 C. Y 变量与各个自变量的相关系数相同 E. 自变量间有较高的相关性B. Y 关于各个自变量的回归系数与截距都D. Y 与自变量间有较高的复相关5. 多重线性回归分析中,若对某一自变量的值加上一个不为零的常数 K ,则有( D ) 。 A. 截距和该偏回归系数值均不变 B. 该偏回归系数值为原有偏回归系数值的K倍C. 该偏回归系数值会改变, 但无规律 E. 所有偏回归系数值均不会改变 D. 截距改变, 但所有偏回归系数值均不改变二、思考题1. 多重线性回归分析的用途有哪些? 答: 多重线性回归在生物医学研究中有广泛的应用, 归纳起来, 可以包括以下几个方面: 定量地建立一个反应变量与多个解释变量之间的线性关系, 筛选危险因素, 通过较易测量的 变量估计不易测量的变量,通过解释变量预测反应变量,通过反应变量控制解释变量。2. 多重线性回归模型中偏回归系数的含义是什么? 答:偏回归系数的含义是:在控制其他自变量的水平不变的情况下,该自变量每改变一 个单位,反应变量平均改变的单位数。 3. 请解释用于多重线性回归参数估计的最小二乘法的含义。 答:最小二乘法的含义是:残差的平方和达到最小。 4. 如何判断和处理多重共线性? 答:如果自变量之间存在较强的相关,则存在多重共线性。可以通过分析自变量之间的 相关系数、 计算方差膨胀因子和容忍度等指标判断是否存在多重共线性。 如果自变量间存在 多重共线性,最简单的处理办法是删除变量,即在相关性较强的变量中删除测量误差大的、 缺失数据多的、从专业上看意义不是很重要的或者在其他方面不太满意的变量。其次,也可 采用主成分回归方法。 5. 如何判断、分析自变量间的交互作用? 答: 基于专业背景知识, 构造可能的交互作用项, 并检验交互作用项是否有统计学意义。 6. 多重线性回归模型的基本假定有哪些?如何判断资料是否满足这些假定?如果资料不满 足假定条件,常用的处理方法有哪些? 答:多重线性回归的前提条件是线性、独立性、正态性和等方差性,可以借助残差分析 等方法判断资料是否满足条件。 如果资料不满足前提条件, 可以采用变量变换和非线性回归 等方法处理。三、计算题为确定老年妇女进行体育锻炼还是增加营养会减缓骨骼损伤, 一名研究者用光子吸收法 测量了骨骼中无机物含量,对三根骨头主侧和非主侧记录了测量值,结果见教材表 11-20。 分别用两种桡骨测量结果作为反应变量对其他骨骼测量结果作多重线性回归分析, 提出并拟 合适当的回归模型,分析残差。 解:答案提示,需要对自变量进行筛选,而且要考虑是否存在多重共线性,如果存在, 应进行适当的处理。 教材表 11-20 骨骼中无机物的含量 受试者编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 主侧桡骨 1.103 0.842 0.925 0.857 0.795 0.787 0.933 0.799 0.945 0.921 0.792 0.815 0.755 0.880 0.900 0.764 0.733 0.932 0.856 0.890 0.688 0.940 0.493 0.835 0.915 桡骨 1.052 0.859 0.873 0.744 0.809 0.779 0.880 0.851 0.876 0.906 0.825 0.751 0.724 0.866 0.838 0.757 0.748 0.898 0.786 0.950 0.532 0.850 0.616 0.752 0.936 主侧肱骨 2.139 1.873 1.887 1.739 1.734 1.509 1.695 1.740 1.811 1.954 1.624 2.204 1.508 1.786 1.902 1.743 1.863 2.028 1.390 2.187 1.650 2.334 1.037 1.509 1.971 肱骨 2.238 1.741 1.809 1.547 1.715 1.474 1.656 1.777 1.759 2.009 1.657 1.846 1.458 1.811 1.606 1.794 1.869 2.032 1.324 2.087 1.378 2.225 1.268 1.422 1.869 主侧尺骨 0.873 0.590 0.767 0.706 0.549 0.782 0.737 0.618 0.853 0.823 0.686 0.678 0.662 0.810 0.723 0.586 0.672 0.836 0.578 0.758 0.533 0.757 0.546 0.618 0.869 尺骨 0.872 0.744 0.713 0.674 0.654 0.571 0.803 0.682 0.777 0.765 0.668 0.546 0.595 0.819 0.677 0.541 0.752 0.805 0.610 0.718 0.482 0.731 0.615 0.664 0.868资料来源: 《实用多元统计分析》 (第 4 版) ,Richard A. Johnson & Dean W. Wichern, 陆 璇译,清华大学出版社。 (郝元涛 张岩波)第 12 章实验设计思考与练习参考答案一、最佳选择题1. 处理因素作用于受试对象的反映须通过观察指标来表达,则选择指标的依据具有 ( E ) 。 A. 客观性 B. 特异性 C. 敏感性 D. 特异性和敏感性 E. A 与 D2. 以前的许多研究表明,血清三酰甘油的含量与冠心病危险性有关,即三酰甘油的含量越 高,患冠心病的危险性就越大,有的医生以此筛选危险人群。后来的研究表明,冠心病还与 其他因素有关, 特别是血清中高含量胆固醇和低含量的高密度脂蛋白, 它们常与冠心病同时 发生联系, 采用严格的实验设计平衡了其他因素的作用后, 发现三酰甘油的含量与冠心病发 病的危险性之间的联系就不复存在了。这是以下选项中的( B )选项把握得较好所致。 A. 重复实验次数较多 C. 用多因素设计取代单因素设计 E. 严格按随机化原则进行分组 3. 实验共设 4 个组, 每组动物数均为 4 只, 4 个不同的时间点上对每只犬都进行了观测, 在 资料概要列于教材表 12-7 中,此资料取自( B ) 。(注:B100 mg 代表用 B 药的剂量)教材表 12-7 Beagle 犬受 6.5 Gy 不均匀γ射线照射再用B药后外周血白细胞总数的结果 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 白细胞总数( X ? S ,×10 /L) ─────────────────────────────────────── /天 照射对照 照射+B100 mg 照射+阳性对照药 照射+B100 mg+阳性对照药 ──────────────────────────────────────────── 照射前 14.30±3.77 14.70±2.83 14.08±1.60 13.98±1.37 照射后: 6 3.68±0.82 4.26±1.40 5.28±1.52 6.90±0.97 12 7.23±0.83 7.44±1.10 8.75±1.02 10.53±1.57 18 6.87±1.50 9.26±1.36 9.87±1.23 12.78±1.83 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 时 间9B. 均衡性原则考虑得周到 D. 提高实验人员的技术水平A. 具有一个重复测量的两因素 C. 两因素析因设计B. 具有一个重复测量的三因素设计 D. 三因素析因设计 E. 交叉设计4. 已知 A、B、C 都是三水平因素,且根据预试验结果得知,三个因素之间的各级交互作用 都很重要,需要考察。好在这个实验作起来比较方便,需要的费用和时间都比较少。最好选 用( A ) 。 A. 析因设计 D. 配对设计 B. 交叉设计 E. 单因素三水平设计 C. 随机区组设计二、思考题1. 在行走速度和行程固定的前提下,负荷越重,体能消耗越多。为研究在 4 种不同的负荷 量条件下,消耗的体能之间的差别是否有统计学意义,拟用 4 名战士,在 4 个不同日期进行 实验,并且每人每天只接受 1 种负荷量实验 1 次。已知因素之间的交互作用可忽略不计,用 energy 代表体能消耗量,请选用合适的实验设计方法并以表格形式给出具体的安排。 答:本题中涉及一个实验因素(即负荷) 、两个区组因素(即受试对象和试验日期) ,这 三个因素间的交互作用可以忽略,可选用拉丁方设计。设计方案见练习表 12-1。 练习表 12-1 拉丁方设计的格式与实验结果 受试对 负荷代号与 energy 象编号 1 2 3 4*:1 A(1) B(5) C(9) D(13)2 B(2) C(6) D(10) A(14)3 C(3) D(7) A(11) B(15)4 D(4) A(8) B(12) C(16)注:A、B、C 和 D 分别代表 4 种负荷,括号中的编号形式上代表观测的 energy 值;*代表“试验顺序” 。2. 如果某项实验研究中需要考察 3 个实验因素,各因素均取 4 个水平,拟用析因设计来安 排此项实验, 问至少要进行多少次实验才便于考察各级交互作用对观测结果的影响?请说出 计算的依据。 答:至少要进行 128 次实验。计算方法为 4?4?4?2=128。因为析因设计中不同的实验条 件数为全部因素的水平数相乘,各实验条件下至少要作 2 次独立重复实验。 3. 欲探讨用微型角膜刀行角膜深板层内皮移植术的适应证、临床疗效及并发症的预防及处 理, 用微型角膜刀对 6 例患者 6 只患有大疱性角膜病变眼行深板层角膜内皮移植术。 术后随 访 6~9 个月。结果表明,5 例患者视力明显提高,患者术后平均角膜内皮细胞密度为(2 481 ±212) 个/ mm,角膜中央厚度平均为(549±61) μ m ,散光为(2 104±1 119)D,未发生严 重并发症。 得如下结论: 用微型角膜刀行角膜深板层内皮移植术是治疗大疱性角膜病变的可 选术式。与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台,但远期 疗效尚需继续随访。请问该研究是否遵循了实验设计的基本原则?应如何设计该实验? 答: 该实验仅凭选取了 6 例患者 6 只患有大疱性角膜病变眼行深板层角膜内皮移植术后 5 例患者视力明显提高,就得出“该方法是治疗大疱性角膜病变的可选术式”的结论,与传 统的穿透性角膜移植相比, 该术式有望成为角膜内皮移植的技术平台。 首先该研究违反了对 照的原则。没有设立对照组,仅凭 6 例中 5 例术后视力明显提高,但没有与传统的穿透性角 膜移植相比,不具有说服力。正确的做法是:首先选取一定数量的患有大疱性角膜病变眼的 患者,将患有大疱性角膜病变眼随机分成两组,接受两种手术方法的治疗。若病情、病程等 非处理因素对预后有影响, 则应尽量保证两组之间在重要的非处理因素上均衡。 然后再对两 种手术方法术后的治疗效果进行比较。 4. 某人将教材表 12-8 资料所对应的实验设计看成了多个成组设计用 t 检验进行分析是不正 确的,究其原因是没能正确判断该实验设计的类型,故不能选用正确的分析方法。请分析该 实验所涉及的因素及其水平数,确定该实验设计类型。 教材表12-8 不同药物对小鼠迟发超敏反应的影响结果 X ? S 药 物 剂量/(g?kg ) 5 10-1??鼠数/只 10 10 10耳肿重量/mg 21.2±2.7 22.3±3.5 18.8±3.1对照 补肾药 补肾药 补肾药 Cy Cy+补肾药 Cy+补肾药 Cy+补肾药20 0.025 0.025+5 0.025+10 0.025+2010 10 10 10 1016.5±2.4 11.2±1.5 14.3±2.9 18.6±3.6 19.2±3.4注:补肾药全称为补肾益寿胶囊。答: 采用 t 检验处理该资料是很不妥当的。 因为它不是多个单因素 2 水平的设计定量资 料。按教材表 12-8 的列表方式,使人不易看出实验设计的类型。像单因素 8 水平设计问题, 又像是两个单因素 4 水平设计问题或是某种多因素设计问题。 这是缺乏有关设计类型概念的 人们习惯的列表方式,在选用统计分析方法时将起着严重的误导作用。 仔细看看教材表12-8中以“药物”和“剂量”为总称的这两列,似乎该实验涉及了“药 物”和“剂量”这样两个因素,事情是否果真如此,不妨试列出由它们组合成的表格(练习 表12-2) 。 练习表 12-2 教材表 12-8 资料的第一种变形结果( X ? S ) 药物种类 补肾药 Cy 药 耳肿重量/mg#: 021.2±2.7 21.2±2.70.025 .11.2±1.5522.3±3.5 *1018.8±3.1 *2016.5±2.4 *注:各组均有10只小鼠, “.”表示补肾药未用的剂量; “*”表示Cy药未用的剂量; “#”代表“补肾药 的剂量” 。显然,练习表12-2未全面、正确地表达教材表12-8所包含的信息,又无法反映出两种药 合用的结果,故从原表中抽象出“药物”和“剂量”这样两个因素是不够正确的转换方式。 事实上,原表中所反映的是两种药具有各自的用药剂量,故将“补肾药的剂量”和“Cy药的 剂量”视为两个实验因素,问题就迎刃而解了(练习表12-3) 。练习表 12-3 教材表 12-8 资料的第二种变形结果( X ? S ) Cy 药剂量 -1 /(g?kg ) 0 0.025 耳肿重量/mg *: 0 5 22.3±3.5 14.3±2.9 10 18.8±3.1 18.6±3.6 20 16.5±2.4 19.2±3.4 21.2±2.7 11.2±1.5注:*代表“补肾药的剂量” ;各组均有10只小鼠。由练习表 12-3 可以清楚地看出,原表中的 8 个组,其本质是分别具有 2 水平和 4 水平 的两个因素的水平组合,即两因素(或称 2×4)析因设计,而不是单因素 8 水平设计,也 不是两个单因素 4 水平设计问题。 5. 请从公开发表的学术论文中去查找使用频率最高的三种实验设计类型,即单因素设计、 析因设计和重复测量设计。如果论文中将这些实验设计类型表达得不够清楚,请采用“结构 变形”或“拆分组别”等技巧重新表达,并清楚地指出其真正的实验设计类型。 (答案略) (胡良平 李长平)第13章 临床试验设计 思考与练习参考答案一、最佳选择题1. 赫尔辛基宣言问世的年份是 ( D ) 。 A. 1961 年 B. 1962 年 C. 1963 年 D. 1964 年 E. 1965 年2. 以下未参加 ICH 的国家是 ( E ) 。 A. 美国 B. 日本 C. 加拿大 D. 欧盟 E. 澳大利亚 ) 。3. 我国《药品注册管理办法》规定,新药Ⅱ期临床试验,试验组病例数不得少于( B A. 60 B. 100 C. 200 D. 300 E. 4004. 在一般临床试验中,通常受试者的服药量在( C A. 60% B. 70% C. 80%)以下,认为依从性比较差。 E. 95%D. 90% )处。5. 在注册药品的临床试验中,盲底可以保存在( A A.申办者 B.研究者 C.监察员D.统计人员 E.稽查员二、思考题1.临床试验通常分为哪四期,各期的主要目的分别是什么? 答:Ⅰ期临床试验:初步的临床药理学及人体安全性评价试验。观察人体对于新药的耐 受程度和药代动力学,为制定给药方案提供依据。 Ⅱ期临床试验: 治疗作用初步评价阶段。 其目的是初步评价药物对目标适应证患者的治 疗作用和安全性, 也包括为Ⅲ期临床试验研究设计和给药剂量方案的确定提供依据。 此阶段 的研究设计可以根据具体的研究目的采用多种形式,包括随机盲法对照临床试验。 Ⅲ期临床试验: 治疗作用确证阶段。 其目的是进一步验证药物对目标适应证患者的治疗 作用和安全性,评价利益与风险关系,最终为药物注册申请的审查提供充分的依据。试验一 般应为具有足够样本量的随机盲法对照试验。 Ⅳ期临床试验: 新药上市后由申请人进行的应用研究阶段。 其目的是考察在广泛使用条 件下的药物的疗效和不良反应、 评价在普通或者特殊人群中使用的利益与风险关系以及改进 给药剂量等。 2.在临床试验开始之前,应做哪些必要的准备工作? 答:应当了解临床试验相关法规,了解临床试验相关指导原则,了解临床试验的伦理学 原则,了解在哪里以及作哪些临床试验。 3. 临床试验方案是指导参与临床试验所有研究者如何启动和实施临床试验的研究计划书, 也是试验结束后进行资料统计分析的重要依据。临床试验方案中应包括哪些主要内容? 答:通常临床试验方案应包括首页、方案摘要、研究背景资料、试验目的、试验设计、 受试者的选择和退出、治疗方案、临床试验步骤、不良事件的观察、观察指标、数据管理、 期中分析(无) 、统计分析、试验的质量控制和保证、伦理学要求、资料保存、参考文献、 主要研究者签名和日期。 4. 病例报告表(简称 CRF)是药品临床研究中十分重要的研究资料。 在设计上没有统一的 CRF 格式,但是需要遵循一定的原则,其原则有哪些? 答:CRF 在设计上没有统一的格式,但是需要遵循一定的原则。例如,CRF 必须全部体 现临床试验方案中要求观测的内容;CRF 条目应当尽量使用选择方式;CRF 的每一页都必须 有研究者的签字和日期;同一观测指标在不同时点的观测值不能在同一页 CRF 中填写,CRF 中不能出现患者姓名、地址等相关信息;CRF 中不能出现受试者化验单等原始资料。 5. 临床试验设计的基本原则包括哪些? 答:临床试验必须遵循对照、随机、重复和均衡的原则。 6. 在新药临床试验中,数据管理过程中的盲态审核是十分重要的环节之一。请谈谈盲态审 核的操作程序。 答:盲态审核是指最后一个病历报告表输入数据库以后,直到第一次揭盲之前,对数据 库数据进行的核对和评价。 当所有病例报告表经双份输入并核对无误后, 由数据管理员写出 数据库检查报告,其内容包括试验完成情况(含脱落受试者清单) 、入选/排除标准检查、完 整性检查、逻辑一致性检查、离群数据检查、时间窗检查、合并用药检查、不良事件检查等。 在盲态审核会议上,由主要研究者、申办者、监查员、数据管理员和生物统计专业人员对受 试者签署的知情同意书、 试验过程盲态保持情况和试验过程的紧急揭盲情况等作出审核, 对 数据库检查报告中提出的问题作出决议,并写出盲态审核报告,数据库同时将被锁定。 7. 谈谈双盲临床试验中应急信件的准备、发放和回收。 答:信封上印有×××药物的临床试验的应急信件、药品编号和遇紧急情况揭盲的规定。 如果拆阅,需注明拆阅者、拆阅日期、原因等,并在病例报告表中记录。信纸上印有××× 药物临床研究、药品编号及分组。信纸装入相应的信封后密封,随药物发往各个临床试验中 心,在试验结束后统一收回。信纸上写明该药盒所放置的具体药物名称、处理方法及应立即 汇报的单位和地址。 (胡良平 吴圣贤 葛 毅 李长平 方 亚) 第 14 章 调查设计 思考与练习参考答案一、最佳选择题1. 为了解某校锡克试验的阳性率, 研究者从该校 80 个班中随机抽取 8 个班, 然后调查这些 班中的所有学生。此种抽样方法属于( D A. 单纯随机抽样 D. 整群抽样 ) 。 C. 分层抽样B. 系统抽样 E. 多阶段抽样2. 在下列研究中,研究者不能人为设置各种处理因素的是( A ) 。 A. 调查研究 D. 社区干预试验 B. 实验研究 E. 横断面研究 C. 临床试验3. 统计工作的关键步骤是( A ) 。 A. 调查或实验设计 D. 分析资料 B. 收集资料 E. 归纳资料 )。 C. 整理资料4. 理论而言,在同样条件下,下列抽样方法中抽样误差最大的是( C A. 单纯随机抽样 D .分层抽样 B. 系统抽样 E. 多阶段抽样C. 整群抽样5. 在相同条件下对同一调查对象重复测量结果的一致性程度称作( C A. 内容效度 D. 内部信度 B. 结构效度 E. 分半信度) 。C. 重测信度6. 衡量问卷是否包含足够的反映所测特征的条目的指标是( A ) 。 A. 内容效度 D. 内部信度 B. 结构效度 E. 分半信度 C. 重测信度7. 为使调查结果具有更高的可信度,在开展抽样调查工作中,应遵循的原则是( E ) 。 A. 随机 D. 均衡 B. 重复 E. 以上均是 ) 。 C. 对照8. 关于调查表的设计,下列说法不妥的是( D A. 每个项目要具体、明确 B. 要考虑将来数据处理的方法 C. 调查项目的确定取决于调查目的 D. 必须先作大型的预调查 E. 必要的项目一项不少,不必要的项目一项不列 9. 下列( A )不是普查的目的。 A. 验证病因假设 D. 可向群众普及医学知识 B. 早期发现患者 E. 可提供病因线索 C. 描述疾病的分布特征10. 在调查研究中,保护调查对象隐私的主要方法是( D ) 。 A. 将调查对象的电话与其他信息分开 B. 将调查对象的家庭住址与其他信息分开 C. 将调查对象的工作单位与其他信息分开 D. 将调查对象的姓名与其他信息分开 E. 将调查对象的性别与其他信息分开 11. 某研究者在对某地区 20~25 岁所有妇女进行的一项调查中发现,口服避孕药的妇女, 其宫颈癌的年发病率为 5/10 万,而未服用避孕药的妇女,其宫颈癌的年发病率为 2/10 万, 由此作出口服避孕药引起宫颈癌的推论( E ) 。 A. 正确 B. 不正确,因为未在年龄分布方面可能存在的差异进行调整 C. 不正确,因为没有区分发病率与患病率 D. 不正确,因为需要用率而不是比率来支持这一推论 E. 不正确,因为在其他有关因素上,这两组妇女可能存在差异 12. 为研究吸烟与肺癌的关系,某研究者采取了两种研究方法:一种是将人群分为吸烟组 与不吸烟组,然后随访两组发生肺癌的结局;另一种是将吸烟者随机分组,一组采取戒烟 干预,而另一组不戒烟,然后盲法观察两组的肺癌结局。这两种研究方法的根本区别是 ( D ) 。 B. 是否进行统计学检验 D. 是否人为控制研究条件A. 是否设立对照组 C. 是否在现场人群中进行 E. 是否检验病因假设二、思考题1. 在某项关于近视眼发病因素的病例对照研究中,研究者发现,越是作眼保健操的人越易 患近视眼。其实,这是一种假象。请解释导致这种假象的原因。 答:也许存在患有近视的人作眼保健操的多,即病例组因患有近视而重视眼保健操,而 对照组因未患近视而忽视眼保健操。 2. 某从事政治教育的机构,对在押妓女进行教育,观察以后是否从良。研究结果表明,在 未失访的全部被教育对象中,彻底改掉原先恶习的人所占的比例相当高,故得出结论:所采 取的教育方法非常得力,教育成果巨大。请问:这个评价结论是否科学?为什么? 答:这个评价结论不科学。因在未失访的全部被教育对象中,彻底改掉原先恶习的人所 占的比例相当高,这里未交待失访情况,也许这些失访者并未改掉原先恶习,故对教育方法 是否得力作出评价需慎重。 3. 病例-对照研究为什么不能计算患病率?横断面研究可否计算患病率?可否计算时点患 病率?队列研究可否计算患病率和发病率?为什么? 答: 病例-对照研究不能计算患病率,因为总人口中的病例数及未病人数不详; 横断面研 究可计算时点患病率,因它可获得某地某时点的总人数;队列研究可计算患病率和发病率, 因它可获得总人口中的新旧病例数及未病人数。 4. 某研究者在进行吸烟与肺癌关系的调查研究中,以肺结核患者和慢性支气管炎患者作为 对照人群。请问:这样选择对照组有何不妥? 答:在该研究中,肺结核和慢性支气管炎是混杂因素。 5. 诱导性问题是指由于问题的措辞、内容等方面的原因使调查对象有意无意地不得不选择 某种答案。有鉴于此,在调查表的设计中,不可使用诱导性问题。请问:在调查设计中,一 旦使用了诱导性问题,将意味着什么? 答:在调查设计中,一旦使用了诱导性问题,将意味着存在应答信息偏倚。 (方 亚 胡良平 高 永 周诗国)第 15 章样本含量估计思考与练习参考答案一、最佳选择题1. 在假设检验中,样本含量的确定( C ) 。 A. 只与Ⅰ类错误概率 ? 有关 C. 与 ? 、 ? 都有关 B. 只与Ⅱ类错误概率 ? 有关 D. 与 ? 、 ? 都无关 E. 只与 ? 、 ? 有关 2. 以下关于检验功效的描述,不正确的是( C ) 。 A. 假设检验中,若 H 0 客观上不成立,但根据假设检验的规则,将有 ? 大小的概率错 误地得出“差异无统计学意义”的推断结论,这种错误称为Ⅱ类错误,相应地,推断正确的 概率为 1 ? ? ,称为检验功效。 B. 检验功效受客观事物差异的大小、 个体间变异的大小、 样本量和 ? 值等要素的影响。 C. 假设检验的“阴性”结果( P >0.05)可以作为“总体参数之间的差异无统计学意 义”这一结论的证据。 D. 假设检验得出“阴性”结果( P >0.05)是“总体参数之间的差异无统计学意义” 这一结论的必要条件而非充分条件。 E. 当假设检验出现“阴性”结果( P >0.05)时,有必要复核样本含量和检验功效是/ 否偏低,以便正确分析假设检验“阴性”结论的正确性。 3.在调查研究中,计算配对设计均数比较所需样本含量的公式为( A A. n ? [ ) 。(t? ? t ? ) S??]2B. n ? 2 ? [(t? ? t ? ) S?]22C. N ? [(t? ? t ? ) S]2D. n ?2 p (1 ? p )( Z ? ? Z ? ) ( p1 ? p 2 ) 22E. n ?[ Z? 2 p (1 ? p ) ? Z ?p1 (1 ? p1 ) ? p2 (1 ? p2 ) ]( p1 ? p2 ) 2) 。4. 在调查研究中,计算两样本率比较所需样本含量的公式为( E A. n ? [(t? ? t ? ) S??]2B. n ? 2 ? [(t? ? t ? ) S?]22C. N ? [(t? ? t ? ) S]2D. n ?2 p (1 ? p )( Z ? ? Z ? ) ( p1 ? p 2 ) 22E. n ?[ Z ? 2 p (1 ? p ) ? Z ?p1 (1 ? p1 ) ? p 2 (1 ? p 2 ) ]( p1 ? p 2 ) 25. 有很多人都认为, 只要样本含量大于 30 就可以称其为大样本, 可用大样本条件下推导出 来的一切公式进行相应的统计分析。下列说法中( C )最正确。 A. 题中所说的条件和结论都正确 B. 题中所说的条件正确,但结论不正确 C. 题中所说的条件和结论都不正确 D. 题中所说的条件不正确,但结论正确 E. 题中所说的条件和结论正确概率为 70%,错误概率为 30% 6.在研究一个因变量依赖多个自变量变化规律时, 估计样本含量非常复杂, 有人提供了一个 经验估算方法,即样本含量 N(即拟观测的个体数目)至少应当是自变量个数的 10 倍。下列 说法中( B )最正确。 A. 此法无任何参考价值 B. 在没有精确算法时,此法有一定的参考价值 C. 此法根本不能用 D. 此法永远是正确的 E. 此法正确的概率为 80%,错误的概率为 20%二、思考题1. 决定样本含量的依据有哪些? 答:决定样本含量的依据有:① 犯Ⅰ类错误的概率 α ,即检验水准。② 犯Ⅱ类错误的 概率 ? 。③ 总体平均数 ? (或总体概率 ? )、总体标准差 ? 。 ? ( ? )、 ? 一般未知,通常 以样本的 X ( p ) 、 S 作为估计值,多由预实验、查阅文献、经验估计而获得。④ 处理组间 的差别 ? (所比较的两个总体参数间的差别 ? ) ,如 ? ? ?1 ? ? 2 或 ? ? ? 2 ? ?1 。若研究者 无法得到总体参数的信息,可作预实验来估计,也可根据专业要求由研究者规定。 2. 当假设检验的结果为“阴性” P >0.05)时,对样本含量和检验功效进行复核有何意 ( 义? 答:当假设检验的结果为“阴性” P >0.05)时,对样本含量和检验功效进行复核具 ( 有重要意义。 通过对样本含量和检验功效进行复核(主要是计算检验功效), 可以检查样本含 量和检验功效是否偏低,以便正确认识假设检验的结果,避免得出错误的研究结论。若检验 功效偏低,则说明样本含量不足,应加大样本含量,重新进行实验。三、计算题1. 据说某民族正常人体温平均高于 37℃,为了进行核实,拟进行抽样调查。如果就总体而 言平均高出 0.1℃便不可忽略,而已知正常人体温的标准差约为 0.2℃,那么,为了将Ⅰ、Ⅱ 类错误的概率控制在 ? ? 0.05 和 ? ? 0.05 ,试估计样本含量。 解:据题意,要核实某民族正常人平均体温是否高于 37℃,就是要通过抽样对该民族 正常人的平均体温作出估计,并检验该平均体温是否高于 37℃。很显然,应采用单侧检验。 又已知 ? =0.10, ? =0.20, ? ? 0.05 , ? ? 0.05 ,先取 df ? ? ,则t? ( ? ) ? t 0.05( ? )n(1)=1.645,t ? ( ? ) ? t 0.05( ? )2=1.645,将数据代入公式(15-1),得? (t? ? t ? ) S ? ? (1.645 ? 1.645 ) ? 0.2 ? 2 ?? ? ? ? ? 0 .1 ? ? =? ? =43.3 ? 44(1)取 df ? n? 1 ? 43 ,则,2t? (43) ? t0.05(43) ? 1.681n( 2)t? (43) ? t0.05(43) ? 1.681,代入公式算得:? (t? ? t ? ) S ? ? (1.681 ? 1.681) ? 0.2 ? 2 ?? ? ? ? ? 0.1 ? ? =? ? =45.2 ? 46(1)取 df ? n? 1 ? 45 ,则,t? (45) ? t0.05(45) ? 1.6792t? (45) ? t0.05(45) ? 1.679,代入公式计算得:n( 2)2 ? (t? ? t ? ) S ? ? (1.679 ? 1.679) ? 0.2 ? ?? ? ? ? 0.1 ? ? =? ? ? =45.1 ? 46可取 n ? 46 ,即需从该民族的正常人群中随机抽取 46 人进行调查。2. 某人在进行上述调查之前未经估算便人为决定取样本量 n ? 25 。试估计检验功效。 解:据题意,有 n ? 25 , ? =0.10,? =0.20,? ? 0.05 , Z ? ? Z 0.05 ? 1.645 ,将数据 代入公式(15-20),得Z? ?? n 0.1 25 ? Z? ? ? 1.645 ? 0.855 ? 0.20.802 3 ? 0.805 1 =0.803 7。 2查表,得检验功效1? ? ?3. 为了比较两类片剂的溶解速率,决定各随机抽取 10 片,测定 5 min 溶解量,然后作? ? 0.05 水平的检验。据预实验,两类片剂的变异性相同,标准差约为 6 个单位,均数之差也约为 6 个单位,问该项研究的功效有多大?欲使功效达到 95%,样本量应当多大? 解:已知 n1 ? 10 , n 2 ? 10 ,? ? 6 ,? ? 6 ,双侧 ? ? 0.05 , Z ? / 2 ? Z 0.05 / 2 ? 1.96 , 将数据代入公式(15-23),得Z? ?? ? 1 / n1 ? 1 / n2? Z? / 2 =6 6 1 / 10 ? 1 / 10? 1.96 =0.276 1查表,得检验功效1? ? ?(0.606 4 ? 0.610 3) ? 0.608 4 2要使功效达到 95%,需重新估计样本含量: 将数据 ? ? 6 , ? ? 6 , t? / 2( ? ) ? t 0.05 / 2 ( ? ) ? 1.96 , t ? ( ? ) ? t 0.05( ? ) =1.645 代入公式 (15-6),得(1)N?4(t? / 2 ? t ? ) 2 S 2?2(1)?4(1.96 ? 1.645 ) 2 ? 6 2 ? 51.98 ? 52 62取 df

我要回帖

更多关于 甲状腺氧化物酶抗体高 的文章

 

随机推荐