医学论文中结肠癌病理分期期与性别的关心用什么统计学方法

浅谈医学科研中计数资料的统计学处理原则
来源:科研时间微信
作者:胡志德 周支瑞
在开展医学科研的过程中,我们获得的资料大致有两种类型。其一是计量资料,比如转氨酶、血脂、肿瘤标志物等,这些资料的典型特点是几乎可以用“任意数值”表示,比如转氨酶为15.28U/L,血糖为7.77mmol/L等。其二是计数资料,比如性别(男/女),疗效(治愈/有效/无效)、血型(A/B/O/AB型)等,这些资料的典型特点是只能记录“个数”,其结果在多数情况下只能是“整数”。比如A型血10人,男性15人等。根据各组之间是否存在“递进关系”,计数资料又可以进一步分为分类资料(比如:男/女性;汉/苗/回族等)和等级资料(比如:尿蛋白可以分为阴性/+/++/+++;治疗效果可以分为治愈/有效/无效)在医学科研中,对计数资料进行统计分析是无法回避的话。很多新手在处理此类问题时,往往容易选错方法,有的即使用对了统计学方法,也无法解释统计学结果的含义。笔者在此拟谈谈分类资料的统计学处理原则。由于四格表的统计分析在前一篇文章中已经得到了详细的阐述,在此就不再赘述了。仅仅谈谈2行或2列以上计数资料的处理原则。案例1 性别与胰腺癌TNM分期的问题假定某研究者欲研究性别与首诊胰腺癌TNM分期的问题,采用随机抽样的方式调查了108例男性胰腺癌患者和118例女性胰腺癌患者在首次诊断时的TNM分期情况,得出如下表格:在制作表格时,应遵循的原则是:分组因素作为横标目,效应量作为纵标目。当然,在具体的论文撰写过程中,应该首先将表格的“直观性”和“自明性”放在第一位,不应过于“教条”。在本研究中,性别是在出生时就已决定的,而胰腺癌的TNM分期是在后天发生的。所以研究目的只能是阐述性别是否影响首诊胰腺癌患者TNM分析,而不是首诊TNM分期是否会影响性别(这个问题听起来也太滑稽了)。所以在表格1中,性别因素是分组因素,是表格的“横标目”,TNM分期是效应量,是表格的“纵标目”。对于本组数据,有两种统计学方法可供选择,卡方检验和秩和检验(经过秩转换以后采用Mann-Whitney U检验比较),但两种方法的统计学结论和专业结论各不相同,甚至大相径庭。若将TNM分期视为分类资料,即各个TNM分期之间无“高低强弱”之分,则可以采用卡方检验。当P&0.05时,对应的统计学结论是:男性和女性患者胰腺癌TNM分期的分布频数(或者说结构组成)不同;对应的专业结论是:性别可能影响TNM分期的频数分布。在英文文献中,对频数分布的描述一般用distribution、pattern、profile等词。若将TNM分期视为等级资料,即Ⅱ期患者较Ⅰ期更advanced,则采用秩和检验,即将所有数据进行秩转换后采用Mann-Whitney U检验进行统计分析。假定男性的总秩次高于女性,当P&0.05时,对应的统计学结论是:男性患者的首诊TNM分期较女性患者高,即男性患者具有advanced TNM stage;而对应的专业结论是:性别是影响TNM分期早晚的因素。对于恶性肿瘤TNM分期早晚的描述,英文文献中常用的词语包括advanced、early/moderate/late等,带有明显的“矢量”特征。由此可见,秩和检验的专业结论和卡方检验是不同的,体现在“频数分布”和“分期早晚”上。从统计学的角度而言,秩和检验提供的信息量要大于卡方检验,更符合研究者的研究目的。因为秩和检验不仅明确了“性别可以影响TNM分期”,而且还明确了“首诊男性患者具有advanced TNM stage”,这也许才是研究者最关心的问题。因此,在本案例中,秩和检验才是首选。需要说明的是,曾有同行和笔者讨论过TNM分期到底是“等级资料”还是“分类资料”的问题。严格来讲,这是一个专业问题,而非统计学问题,对这个问题的认识可谓“仁者见仁,智者见智”。笔者认为,TNM是等级资料,理由如下:无数的预后研究表明TNM与胰腺癌患者的预后密切相关,换句话说TNM分期与疾病的严重程度相关,表现为“分期越晚,预后越差”。虽然TNM分期本身有很多种组合方式,在反映疾病预后方面也并不十分准确,有的晚期患者预后甚至好于早期患者,而且关于各个分期的定义在字面上并未呈现很清晰的递进关系,但只要在总体上能观察到“分期越晚、预后越差”这一现象,这就足以说明TNM分期是反映疾病严重程度的指标,带有“高低强弱”的属性,因而是等级资料。另外一个需要注意的问题是:医学科研的任何数据统计分析,都必然牵涉一个“统计学结论向专业结论过渡”的问题。即先产生一个统计学结论(相同与不同、增高与降低),然后再根据实验设计将统计学结论向专业结论进行过渡。在进行结论过渡时,需要考虑的不仅仅是一个P值的问题,更需要考虑“差异的大小是否具有专业价值”。不论是卡方检验还是秩和检验,在得出专业结论前一定要仔细考虑“差异的大小是否具有专业价值”的问题。而从专业上讲,TNM之间的差异到底要达到多“大”才具有专业价值,是一个十分难以界定的标准,对该统计学结果的解读在很大程度上取决于作者的主观判断。在上述案例中,大多数学者可能会直接将统计学结论过渡到专业结论,而不管差异大小。该法虽然不太严谨,但实属“无奈之举”,同时也是较为保守的做法。案例2 胰腺癌患者中某基因表达强度的问题某研究者发现基因A在胰腺癌组织中的表达异常,因此向研究胰腺癌的TNM分期是否是影响基因A表达的因素。基因A的表达可以用“阳性”和“阴性”来表示。研究者调查了226例胰腺癌患者,其中108例患者A基因表达阳性,118例患者A基因表达阴性。得出如下表格:该表格在排列方式上与表1不同,分组因素是TNM分期,效应量是A基因的表达情况。之所以这样排版,主要是因为本研究重点是要明确TNM分期是否会影响A基因的表达,而非A基因的表达是否会影响TNM分期。从专业上来讲,前者更符合逻辑。因此,表格的横标目为TNM分期。对于这种数据的分析,也有很多方法可选择,但结论相差甚远。直接采用卡方检验进行分析,若P&0.05,得出的统计学结论是:不同TNM分期患者A基因表达状况的频数分布(distribution)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响胰腺癌患者中A基因的表达特征(阳性还是阴性)。至于怎么影响?升高还是降低?卡方检验无法回答。若将表格进行调整,得出如下表3,再进行卡方检验,若P&0.05,对应的统计学结论是:不同TNM分期患者A基因表达的阳性率(positive rate)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响胰腺癌患者中A基因的表达阳性率(positive rate)。然后根据各组阳性率,作者可以大致排列一个顺序,指出A基因阳性率在不同TNM分期的胰腺癌患者分期中从高到低分别为:Ⅳ期&Ⅰ期&Ⅱ期&Ⅲ期。若作者感兴趣,还可以进一步采用卡方分割法对各期进行比较,明确组间的差异是否具有统计学意义。就本研究来讲,笔者认为两两比较可能意义不大,故而不予比较。这里需要说明的是,严格来讲,阳性率与表达水平完全是两个概念,在下专业结论的时候,不能将结论下为:TNM分期可能影响胰腺癌患者中A基因的表达水平(level)。通常而言,水平是一个连续变量,与率不同。我们可以通过以下例子来说明二者的关系:假定基因的表达水平本身是可以量化的,其范围为0-100,检测值越大,则表示其表达强度越高。若实验组有100个样本,其中50个样本的表达水平为100,剩下的50个样本表达水平为50,因此实验组内基因的平均表达水平为75;对照组60个样本的表达水平为80,剩下20个样本的表达水平为0;因此对照组的平均表达水平是48。若比平均表达表达水平,实验组显然高于对照组;假定以60来作为划分阴/阳性的界值,实验组基因表达的阳性率为50%,对照组却为80%,对照组的阳性率显然高于实验组;假定以40来作为划分阴/阳性的界值,实验组阳性率为100%,对照组阳性率为80%,对照组的阳性率显然低于实验组。因此,阳性率在很大程度上受界值影响在将统计学结论向专业结论过度时,切忌偷换概念,将阳性率说成基因表达水平。回到表3,若要明确表达强度高低的问题,需要对数据进行秩转化,然后再采用Kruskal-Wallis H检验比较各个TNM分期患者基因表达强度的差异。这里TNM分期可视为“分类变量”。从专业上来讲,将A基因的表达情况进行秩转换之后再比较不同TNM分期患者之间A基因的表达情况,显然信息量更为丰富,更符合研究目的。但是考虑到当人们用“阳/阴性”去衡量A基因表达时,已经极大地降低了统计效率,损失了很多统计信息,这样统计出来的结果很有可能不可靠,所以一般通过阳性率从侧面反映基因的表达强度。笔者认为:卡方检验和秩和检验均可用于此类数据的分析,只是在下专业结论时需要注意区分“率”和“水平”的问题。在实际工作中,还可能用“高、中、低”的方式进行表达。比如某人欲研究A基因的表达与TNM分期的关系,得到下表:对于这种表格,也有很多种处理方式。若将基因A的表达强度视为分类资料,直接采用卡方检验,若P&0.05,对应的统计学结论为:不同TNM分期患者A基因表达状况的频数分布(distribution)之间的差异有统计学意义。对应的专业结论为:TNM分期可能影响基因A的表达频数分布状况。至于怎么影响,升高还是降低,卡方检验无法回答。若将基因的表达情况(高中低)视为有序变量,则需要对其进行秩转换,之后再采用Kruskal-Wallis H检验进行比较,若P&0.05,对应的统计学结论是:不同TNM分期患者A基因表达强度(intensity)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响基因A的表达强度。进一步根据各组的总秩次,可以明确各个TNM分期中基因A的表达强度,并根据需要判断是否有必要进行两两比较。与卡方检验相比,秩和检验可以明确表达强度高低的问题,对研究结果的描述更为深刻,因为更具有专业价值。但是秩和检验还不是最佳选择!在本研究中,我们注意到:TNM分期和基因的表达强度都是“有序变量”,或者说都是“等级资料”,如果能明确二者是否呈线性相关关系,显然更符合研究的目的。因此本研究最恰当的统计学方法应该是线性趋势检验或者spearman秩相关法。案例3 尿蛋白与血型某研究者收集了126例肾病患者,研究了其尿蛋白水平(以等级资料表示)与血型是否有关,得出如下表格:本研究中,尿蛋白是等级资料,但是由于是分组变量,我们可将其视为分类变量处理。血型属于分类资料,各个血型之间并无“强弱优劣”之分。研究目的旨在明确各个尿蛋白水平的肾病患者血型分布状况是否相同。此时就应选用卡方检验,若在上述表格中有1/5的格子(4个以上)理论频数小于5,则应该选用Fisher确切概率法。若P&0.05,对应的统计学结论为:各个尿蛋白水平的肾病患者血型分布特征不同;对应的专业结论为:尿蛋白与血型存在关联(association)。之所以不将专业结论下为“尿蛋白可能影响血型”,因为这个结论纯属无稽之谈。表4的数据不变,但研究目的改变:旨在明确不同血型患者尿蛋白水平是否有差异,而非不同尿蛋白水平患者血型分布是否有差异。则表格应该重新进行组织,得出下表:研究旨在明确各个血型的患者尿蛋白水平是否有差异。尿蛋白是等级资料,所以本研究不宜采用卡方检验(详见案例1),而应该进行秩转换之后以Kruskal-Wallis H检验分析比较各个血型的尿蛋白水平,并根据需要决定是否进行两两比较。若P小于0.05,则对应的统计学结论为:各个血型的尿蛋白水平有差异;对应的专业结论为:血型是影响尿蛋白水平的因素。若采用卡方检验进行统计,得出的结论就是“血型可以影响尿蛋白的分布状况(或者说结构比例)”。“分布状况(或者说结构比例)”和“水平”显然是两个完全不同的概念,研究各个血型的肾病患者尿蛋白水平的差异,显然更符合研究目的。由此可见,相同的数据,研究目的不同,统计处理方式也完全不同,结论更是大相径庭。在对计数资料进行处理时,一定要仔细思考:研究的目的是什么(比较构成比还是强度的差异)?哪个变量更适合作为分组变量(试验因素)?在表4和表5中,二者的研究目的不同,分组变量也因此不同,采用的统计学方法更是不同,最终的专业解释更是相差甚远。结语统计服务于专业,抛开专业谈统计无异于缘木求鱼。对于每一种统计方法,我们应该在深入了解其“来龙去脉”的基础上,结合自己的实验设计特点和专业需要去选择最合适的统计学方法。兵无常势,水无常形,对统计学方法的选择一定要灵活,而不能教条,大多数统计学错误都源自于“在没有掌握来龙去脉的情况下,依葫芦画瓢地盲目套用统计学方法”。统计学最难的地方不在于“如何在软件中进行操作”,而在于从专业的角度出发选择合适的统计方法,然后将统计学结论恰如其分地过渡到自己的专业解释中。笔者:胡志德,AME学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),工作于济南军区总医院实验诊断科,现为第二军医大学临床检验诊断学博士研究生,以第一作者或通讯作者身份发表SCI论文十余篇,并主持国家青年科学基金一项。笔者:周支瑞,AME学术沙龙委员,在读博士。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学方法学研究。以第一作者及共同作者发表SCI论文9篇,以第一作者在核心期刊发表论文3篇,参编学术著作一部(《实用循证医学方法学》第2版副主编)。本文来自科研时间微信
本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
胰腺癌相关文章
近期热门文章
下载医学时间
每天10分钟成学霸
手机扫一扫
关注丁香园微信号医学论文中统计学处理的有关要求
来源:位置:时间: 17:41
  在论文撰写中,数据是很多文章中都会出现的,数据统计也是实验性SCI论文所必备的。数据统计的作用就是用科学地分析手段证实研究所得结果的合理性。在SCI论文写作方面,数据统计部分有一些习惯性的用语。在此,做简要归纳。
  1.统计研究设计:应交代统计研究设计的名称和主要做法。如调查设计(分为前瞻性、回顾性还是横断面调查研究),实验设计(应交代具体的设计类型,如自身配对设计、成组设计、交叉设计、析因设计、正交设计等),临床试验设计(应交代属于第几期临床试验,采用了何种盲法措施等);主要做法应围绕4个基本原则(重复、随机、对照、均衡)概要说明,尤其要交代如何控制重要非试验因素的干扰和影响。
  2.资料的表达与描述:用
x&s表达近似服从正态分布的定量资料、用M(QR)表达呈偏态分布的定量资料;用统计表时,要合理安排纵横标目,并将数据的含义表达清楚;用统计图时,所用统计图的类型应与资料性质相匹配,并使数轴上刻度值的标法符合数学原则;用相对数时,分母不宜小于20,要注意区分百分率与百分比。
  3.统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用&2检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系作出全面、合理的解释和评价。
  4.统计结果的解释和表达:当P&0.05(或P&0.01)时,应说对比组之间的差异具有显著性(或非常显著性)的意义,而不应说对比组之间具有显著性(或非常显著性)的差别;应写明所用统计分析方法的具体名称(如:成组设计资料的t检验、两因素析因设计资料的方差分析、多个均数之间两两比较的q检验等),统计量的具体值(如:t=3.45,&2=4.68,F=6.79等),应尽可能给出具体的P值(如:P=0.0238);当涉及到总体参数(如总体均数、总体率等)时,在给出显著性检验结果的同时,再给出95%置信区间。
  优秀医学论文范文参考:
  【摘 要】
在妇产医院里产科发生的医疗纠纷中,大部分都是医护纠纷。所以对于妇产科护理中存在的问题应该认真的分析并研究出正确的解决办法,然后通过各项改进的工作来积极的做好防范工作。首先,从护理人员的角度来分析,目前出现的主要医护纠纷的原因有:护理人员的责任心较差且法律意识淡薄,服务的态度很差以及许多业务操作不规范。现在,防范于化解这么纠纷的主要需要加强对妇产科护理工作的有效管理,大力提高护理人员的职业素养。因此本文就妇产科护理工作中存在的一些较为常见的问题进行的简单的论述并提出了一些改进的意见。
  【关键词】 医生职称论文范文,妇产科,护理,问题,解决措施
上一篇:下一篇:
精品阅读推荐
优质论文推荐
  摘要:当今社会在校大学生为了缓解部分经济困难、增强与锻炼能力、早日与社会接轨等原因,纷纷去找各类兼职。但是,对于大学生兼职问题,社会上不免还存在着很多争议和盲点,本文力图通过对大学生的这股“兼职”热潮现象进行调查分析,针对大学生为什么要参加兼职这个问题进行深入探讨,从而在一定程度上为大学生兼职给予正确的指导作用,同时为学校提供相关政策和就业指导方面的参考性建议,并从理论和实践两个方面为大学生兼职提供参考。
【摘要】:“以诚实守信为荣,以见利忘义为耻”。已成为一切有所作为的共识,对内涵理解,从阐述1、保障社会健康发展起重要作用2、是保证市场经济秩序向前发展根本准则3、是道德建设的根本4、是一切职业道德的根基,以诚信作为立业之本,充分认识到诚信的重要性。
  摘要:近年来在构建和谐社会、建设社会主义新农村的大好形势下,我国的,建筑、房地产等产业的持续高速发展。从目前甚至今后几年我国的经济社会发展趋势来看,整个就业市场中对建筑类专业人才的需求量仍然将持续增长,相关就业领域中适合建筑类专业毕业生的岗位也较多。建筑类专业毕业生应该把握好当前的有利时机,实现就业的最优化。
  摘要:影响工程造价的因素有很多,需要根据工程的实际情况和有关规定对定额进行如实换算,才能使所做的概预算与实际造价接近。文章结合笔者多年的工程实践,对工程造价影响因素进行了分析。
优质期刊推荐
核心期刊推荐
级别:北大核心周期:季刊国内刊号:31-2072/S国际刊号:单位:中国水产科学研究院东海水产研究所
级别:北大核心周期:月刊国内刊号:32-1832/D 国际刊号:单位:解放军理工大学政治部
级别:北大核心周期:月刊国内刊号:11-2338/R国际刊号:单位:中华医学会
级别:北大核心周期:双月刊国内刊号:21-1153/R国际刊号:单位:中国卫生信息学会;中国医科大学
级别:北大核心周期:双月刊国内刊号:21-1153/R国际刊号:单位:中国卫生信息学会;中国医科大学
级别:北大核心周期:月刊国内刊号:11-2338/R国际刊号:单位:中华医学会
级别:北大核心周期:双月刊国内刊号:61-1076/TN国际刊号:
单位:西安电子科技大学
级别:北大核心周期:双月刊国内刊号:11-2422/TN 国际刊号:X 单位:中国航天科工防御技术研究院中国宇航学会中国系统
级别:北大核心周期:半月刊国内刊号:CN 11-2961/D国际刊号: ISSN
单位:人民日报社主办
级别:北大核心周期:月刊国内刊号:CN 23-1393/TD国际刊号:ISSN 单位:黑龙江科技学院
哈尔滨煤矿机械研究所主办
级别:北大核心周期:月刊国内刊号:CN 34-1190/R国际刊号:ISSN 单位: 中华医学会主办
级别:北大核心周期:旬刊国内刊号:36-1078/G4国际刊号: 单位:江西科技师范学院主办医学论文对统计学符号和方法的要求
&按GB 3358?82《统计学名词及符号》的有关规定书写,常用如下:(1)样本的算术平均数用英文小写x(中位数仍用M);(2)标准差用英文小写s;(3)标准误用英文小写sx;(4)t检验用英文小写t;(5)F检验用英文大写F;(6)卡方检验用希文小写&2;(7)相关系数用英文小写r;(8)自由度用希文小写u;(9)概率用英文大写P(P值前应给出具体检验值,如t值、&2值、q值等)。以上符号均用斜体。
关于资料的统计学分析:对于定量资料,应根据实验或调查设计类型和资料的条件选用合适的统计学分析方法,不能盲目套用t检验和单因素方差分析;对于定性资料,应根据实验或调查设计类型、列联表中定性变量的性质和分析目的选用合适的统计学分析方法,不能盲目套用&2检验;对于回归分析,应结合专业知识和散布图选用合适的回归类型,不能盲目套用简单直线回归分析。
我们的服务
期刊论文投稿热线:;010-; 投稿邮箱:
国家信息产业备案号码:京ICP备号
【免责声明】:本网站所提供的信息资源如有侵权、违规,请及时告知

我要回帖

更多关于 直肠癌病理分期 的文章

 

随机推荐