新手, 积分 8, 距离下一级还需 42 积分 |
|
文|程瑞林(山东大学第二医院足踝外科) 来源|(微信公众号)云中瑞麟(ID:ruilinfly) |
---|
图1 统计学的作用:已知样本推测总体 & 已知总体推测抽样样本
统计学可以用来进行推测
采用恰当的统计学方法是研究结论可靠、可信的前提
数理统计与概率论是统计的理论基础
只有当某个或某些条件满足时,某个数理统计公式才成立
涉及最多的是数据分布特征,其次方差齐性,再次理论数大小
例子1:假设检验及临床优效性检验
一研究者宣布找到一种治疗某病的新药,试验结果如下,问:该新药是否值得推广?
例子2:分析中混杂因素的控制
英国某年全人口统计资料如下,矛盾:移民组的发病率在各个年龄组均高于英格兰和威尔士组,为什么它的合计发病率反而低?
表2 英国全人口发病率资料
例子3:假设检验及判别诊断
为鉴别胃癌、胃炎、非胃病患者,各测定了50名患者的铜兰蛋白等指标,其中铜兰蛋白的观察结果如下,问:三种人的铜兰蛋白有无不同?能否根据测定的铜兰蛋白数据对患者进行初步诊断?
表3 不同患者铜兰蛋白的差异
例子4:影响因素筛选-回归分析
研究心肌梗死患者预后的的影响因素,以是否发生心性死亡作为观察结果指标,对116名心梗患者的22个可能影响预后的因素进行观察和记录。
预后因素:年龄、性别、高血压病、心梗位置、心梗分级、传导阻滞、溶栓治疗,……等
问:哪些预后因素与发生心性死亡有关系?关系的强度如何?
【瑞麟】研究目的(4)+设计类型(4)+数据类型(3)+数据特征(4)→统计方法
描述、推断、相关分析、回归分析 |
完全随机设计、配对设计、析因设计、重复测量设计 |
计量资料、等级资料、计数资料 |
分布特征、方差齐性、理论数大小、样本量 |
医学统计分析方法选择的核心三要素(3-5-3)
"方法看变量、设计看类型、目的定乾坤"
“大怕踢、二怕镖、老三怕剪刀”
老大指数值型变量、老二指等级变量、老三指无序分类变量
大怕踢:T(脚踢)、F(旋风腿)
数值型变量一般选用t检验(两组变量)、方差分析(3组及以上资料)
二怕镖:非参数(飞镖)
等级变量一般选用非参数检验
老三怕剪刀:卡方(剪刀)
无序分类变量一般选用卡方检验
统计指标、统计图或统计表
如,均数、中位数、标准差、百分比、频数分布等
估计总体参数、95%可信区间
对几组资料进行差异性检验
假设检验方法,如,t检验、卡方检验、方差分析、秩和检验等
研究某因素与另一因素的依存关系
探讨变量之间的关系及影响大小
具体说,探讨自变量(影响因素)对应变量(结果变量)的影响大小
如,线性相关、线性回归、Logistic回归、Cox回归、生存分析等。
最常见,最易实施的实验设计方案
将研究对象随机分配到几个组,然后做实验
将具有相似特征的研究对象配成对子,然后再将每个对子的对象随机分配到两个组进行实验
常见形式:同源配对(如样品一分为二);异源配对(按性别、体重、年龄进行配对);自身前后配对(试验前后的对比)
同时研究多个实验因素对结果的影响
例如,研究药物剂量(3mg、6mg)及给药方式(口服、肌注)对结果的影响,每种组合均需要做试验(3mg+口服,3mg+肌注,6mg+口服,6mg+肌注)
同一对象在不同时间点上进行某个指标的观测,以分析该指标在时间上的变化。
【瑞麟疑问】如只进行两个时间点上的测量,是否与自身前后配对的设计相同?
计量资料→数值变量资料 等级资料→有序分类变量资料 计数资料→无序分类变量资料 |
---|
描述集中趋势的指标,用以反映一组数据的平均水平
描述离散程度的指标,用以反映一组数据的变异大小
两类指标的联合应用才能全面描述一组数值变量的基本特征
每一个观察对象都有一个数值,且大小差异有意义。
例如,血红蛋白(g/L)、住院天数、产前检查次数、住院费用等。
表4 数值变量资料的描述指标
图5 偏态分布与正态分布的描述
正态分布或近似正态分布:均数与标准差
偏态分布或未知分布:中位数与P25、P75(四分位数间距)
以比代率,即误将构成比(proportion)当作率(rate)来描述某病发生的强度和频率。
把各种不同的率相混淆,如把患病率与发病率、死亡率与病死率等概念混同。
指类别或属性间无顺序、程度之分。
例如,性别(男、女)为二分类、血型(A、B、AB、O)为多分类。
指类别间存在着次序,或程度上的差异。
例如,治疗效果(无效、好转、显效、治愈)、实验室检验(-、+、++、+++)
分类变量资料的描述:通常需要描述各个类别的频数及频率(百分比)
表5 (分类变量资料的描述)108名高血压患者的疗效
任何统计方法都有自己的适用条件,只有当某个或某些条件满足时,统计计算公式才成立。
适用条件可根据数据特征来判断
数据的分布特征(正态、偏态)
数值变量资料的描述:通过绘制直方图可以直观了解数据的分布
图2:使用直方图来了解数据的分布特征
研究中,右偏态分布更常见,如住院时间、住院费用、病程等;左偏态分布较少见,如考生成绩有时呈左偏态分布。
粗略判断:两组标准差之比在2.5倍以上,就得警惕方差不齐
4 均数相同位方差不同的正态分布的区别
假设检验出发点是:判断样本之间差异由什么原因造成的
样本数据间的差异有两种原因所致:(1)样本来自同一总体,差异因抽样误差所引起;(2)样本来自不同总体,差异因不同总体所引起
假设检验以P值大小作为推断依据:P值大,表示差异由抽样误差引起可能性大;P值小,表示差异由抽样误差引起可能性小,即由总体不同引起的可能性大;一般以0.05作为临界值来判断
假设检验是反证法原理的统计应用
假设两个样本均数可能来源于同一总体,然后计算出在此假设下的某个统计量的大小,当这个统计量在其分布中的概率较小时(如p≤0.05)我们就拒绝其假设,而接受其对立假设,认为两样本分别来自不同的总体。
计算统计量(瑞麟:两个样子究竟有多大的不同)
根据统计量的值来得到概率(p)值;再按概率值的大小得出结论。
当p≤α时,概率越小,越理由拒绝H0假设(无差别假设),即拒绝H0假设的可信程度就越大
注意:当p≤α时,不能说“p值越小,组间的差别就越大”
假设检验的结论不能绝对化。在作出结论时,要避免使用绝对的或肯定的语句
当p≤α时,只要p≠0,我们就无法完全拒绝无差别假设,即不能肯定各总体间有差别
当p>α时,只要p≠1,我们就无法完全接受无差别假设,即不能肯定各总体间无差别
1)当p≤α时,做出“拒绝其无差别的假设,可认为各总体间有差别”的结论时就有可能犯错误,这类错误称为第一类错误(type I error)。其犯错误的概率用α表示,若α取0.05,此时犯I型错误的概率≤0.05,若假设检验的p值比0.05越小,犯第一类错误的概率就越小。
2)当p>α时,做出“不拒绝其无差别的假设,还不能认为各总体间有差别”的结论时就有可能犯第二类错误(type II error)。其犯错误的概念用β表示,通常β为未知数,但假设检验p值越大,犯第二类错误的概率就越小。
计量资料的假设检验:t检验、F检验(方差分析)、Z检验、秩和检验(Wilcoxon秩和检验、H检验、Friedman检验)等。
计数资料的假设检验:卡方检验、Z检验(瑞麟疑问:z检验即u检验?)
等级资料的假设检验:秩和检验(Wilcoxon秩和检验、H检验、Friedman检验)
两组比较:t检验、u检验、两组秩和检验、四格表和较正四格表的卡方检验等
多组比较:方差分析、多组秩和检验、行×列卡方检验等。
差异分析/数据资料的比较,是同一指标在不同处理间的比较。
临床研究中,经常需要分析某些因素与疾病之间的关系,探讨疾病的危险因素。
注意,相关关系并不等于因果关系。
前瞻性研究:相对危险度(RR)、归因危险度(AR)
回顾性研究:比值比(OR)
参数检验:积矩相关系数(Pearson's sγ)
非参数检验:Spearman等级相关系数
1.《临床研究中统计方法的选择》,(微信公众号)临床科研与meta分析,
2.武松 《SPSS中级统计实战教程》之《医学统计方法选择秘籍(5秒判读法)》(丁香园公开课),
3.鸡小贩. 临床科研中如何选择统计学方法(PPT). 百度文库.
今日是A股入MSCI第二步正式生效的“大喜日子”,然而截止午间收盘,外资情绪并非高涨,三大股指亦并未因此而反弹。但分析人士认为,A股开始展现投资价值,尤其是与长期消费主题相关的领域。
沪深两市股指今日开盘后震荡下跌,截至午间收盘,沪指跌0.94%,报2699.66点,成交610.38亿元;深证成指跌1.10%,报8372.67点,成交803.66亿元;创业板指跌0.86%,报1422.86点,成交254.84亿元。
外资在“大喜日子”积极性并不高
A股纳入MSCI第二步正式生效,纳入因子由2.5%增至5%。本次调整,MSCI中国指数将新加入10只成分股,加上此前正式纳入的226只个股,至此,MSCI中国指数个股总数增至236个。有分析认为,此次A股纳入MSCI比例上调预计将带来600亿增量资金。
然而,在这大喜日子,非但市场情绪不高,外资的积极性亦在削减。
9月3日,借道沪深股通的海外资金(下称北上资金)交投活跃度并不高,未能成为A股反弹的有力助攻。早盘半小时左右,北上资金仅有1亿元左右,而8月20日的相同时点已获得20亿元的净流入。
截至11时30分,北上资金净买入1.46亿元,其中,深股通渠道净流入3.48亿元,沪股通渠道则出现净流出2.02亿元,显示上午流入A股市场的海外资金并不多,且外资“观望”心态加重。但是,若截至今日收盘净流入的趋势不变,这将是北上资金连续第六个交易日获得正买入。
在MSCI新规生效前一个交易日(8月31日),中国平安以净买入额4.8亿元成为当日获北上资金净买入最多的沪股通标的,同时成为沪股通十大成交活跃股中首位,紧随其后的是贵州茅台和兴业银行,净买入额均在1亿元以上。深股通方面,美的集团、海康威视、平安银行、招商蛇口、分众传媒等个股的净买入额均逾1亿元。
8月北上资金买入额和笔数创今年新高
华尔街见闻留意到,8月份,北上资金2487.92亿元的买入额和1417.53万的买入笔数,均创下今年的新高。此外,8月的净买入额达354.53亿元,虽比不上A股纳入MSCI第一步前夕5月份的金额,但截至目前已创下了本年的第大二新高。
市场人士日前指出,“根据指数调整的历史经验来看,被动型资金会在调整生效日附近进行调仓操作,8月31日和9月3日对被动型资金来说都是比较合适的操作窗口。”
中金公司的测算,A股纳入系数从2.5%提高至5%会使得A股部分在MSCI中国指数中的整体权重从1.3%上升至2.4%左右,在MSCI新兴市场中的权重会上升至0.8%左右,进而带来75亿美元~100亿美元左右的资金流入。
富达国际投资总监Gary Monaghan表示:“近期经济增长前景令人关注,以及市场对关税变化揣测不断,都增添了不明朗因素,我们看到A股开始展现投资价值,尤其是与长期消费主题相关的领域。随着A股在MSCI中的权重增加,我们预计外资持股比例将逐渐上升。这应会增加市场对企业ESG指标的关注度,因为ESG表现越来越受投资者重视,在他们选择投资对象时是较具决定性的因素。”
一位MSCI主题基金的基金经理表示,A股市场估值已逼近历史最低位,下行空间有限,中长期价值显现。无论与过去历史纵向相比,还是横向对比主流宽基指数,MSCI中国A股国际通指数目前成份股都具有较高的性价比优势,投资前景较好。