公务员期刊网 论文中心 正文

谈医学期刊重复测量方差分析误用

谈医学期刊重复测量方差分析误用

摘要:在医学论文中,重复测量资料往往没有应用正确的统计学方法去分析,本文针对这一问题进行分析,以引起同仁的关注。通过研究本刊及中华系列杂志的带有重复测量资料的文章,发现错误的统计学方法,并对其进行剖析解错,再系统描述重复测量方差分析的正确使用方法。本刊及中华系列杂志中出现很多重复测量数据的错误统计学方法,需要引起重视;正确的重复测量方差分析最好应用混合模型,应该注意描述主效应及交互效应,同时应注意先做球形检验。编辑应该重视重复测量资料的统计学方法,应该从编辑工作本身及杂志发展两方面出发,考虑如何提高期刊的统计学水平,向国际化一流期刊方向努力,是我们编辑的共同使命。

关键词:医学期刊;重复测量方差分析;球形检验;误用;交互作用;统计学方法

论文质量一直是期刊建设的核心,一般来说,一篇医学论文的质量从三个大方面去考证:专业理论、文字水平、统计学方法[1]。一般的医学期刊都严格执行了三审三校制度,各专科杂志都有自己专业的编委和审稿专家团队对文章质量进行把关,他们可以在医学专业领域方面进行很好的把关,文字方面,编辑部都会对编后的文章进行三校一读制度,在文字流畅度、错别字、论文规范方面进行了很好地灭错和提升,但是唯独统计学这一块是长期缺乏重视的一方面。而医学论文中统计学质量的高低在提高医学论文整体水平中的作用不容忽视。编辑部的审稿专家大多数关注医学专业内容方面的把关,很多专家对于统计学方法部分却不足够专业和精通。医学方面的问题可以分配给各个医学领域的专家,但是每一篇文章(除综述外)基本都涉及统计学知识,均需要统计学把关。虽然很多编辑部都有统计学审稿专家,但是如果每一篇文章都送统计学专家审稿,审稿工作量巨大,会导致文章长期审不回来,同时也拉长作者的发表周期,降低编辑部工作效率。所以编辑初审时如果能够在文章统计学方面筛查把关,将对来稿的质量提升有着很重要的作用。目前,统计学已经在医学论文中得到广泛应用,随着各种统计学软件的开发,也给科研带来了更多的便利。随着国内科研事业发展,统计方法的使用率越来越高,而误用率也较高,且随着时间的推移,科研论文的多样性发展,误用的结构也在发生深刻改变,技术性和规范性方面的问题越来越少了,但概念性问题仍大量存在[2]。本人在多年的编辑工作中发现,常识性统计学错误较容易纠正,往往由于作者粗心或者对统计学基本概念不清造成,长期做科研、写文章的人还是可以改善这些错误,但是还有一个长期未引起重视的一个重要的统计学错误,那就是———重复测量方差分析的误用。很多医学论文都涉及到对同一指标的重复测量,得到大量重复测量的数据,据统计,这类数据在所有医学论文中的使用占到1/4[3]。康复医学研究中也时常应用重复测量资料,如在临床试验中,某康复治疗手段疗效的短期、长期及随访观察,基础研究中某种康复干预作用于大鼠后,干预后1d、7d、14d的变化趋势等。笔者翻阅了大量已发表文献,发现很多作者的文章中的数据是重复测量数据,但是统计学方法却是错误的,往往应用了t检验或者单因素方差分析。应该注意的是,重复观测数据间是有相关性的,不能直接按照独立结构数据进行分析处理,会增大了犯Ⅰ类错误的概率,不能准确地解释实验现象,甚至得出相反的结论。本文将列举本刊的典型例子,来阐述此问题,从而引起重视,减少错误。

一、重复测量方差分析的基本理论

重复测量资料是对同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,通常用来分析该观察指标随着时间推移产生的变化。重复测量方差分析是对同一因变量进行重复测量和比较的一种统计学方法。重复测量资料最常见的情况是前后测量设计,比如比较某种干预方法实施给患者后的前后效果比较,需要与配对设计t检验区别开来。当前后测量设计的重复测量次数m≥3时,称重复测量设计或重复测量数据。重复测量数据与随机区组设计数据相似,应注意区别;重复测量数据不同于单因素设计,通常要考虑处理分组与重复测量的时间点两个因素;同一观察单位各时间点重复测量值并非相互独立,存在相关性,一个观察值会受另外一个观察值的影响变化的趋势[4]。重复测量方差分析与单因素方差分析不同的是,除了要比较组间差异、组内随时间变化的差异,还需要比较处理因素和时间因素之间是否有交互效应,而这点,往往是被众多研究者忽略的一个点。最后,做重复方差分析应注意要满足两个基本条件,一个是满足方差齐性的条件,另一个是满足球对称性条件(Mauchy检验)。

二、杂志中常见关于重复测量方差方法的误用举例及错误分析

本人总结以往编加或阅读过的文章,将作者在重复测量资料方面的常见错误分为如下几个类型:(1)误用t检验分析重复测量设计资料;(2)误用单因素方差分析统计重复测量设计资料;(3)统计学方法里面说明了用重复测量方差分析,但未说明两两比较用何种方法;(4)用了重复测量方差分析,也说明了两两比较用何种方法,但是结果表格表达不正确,结果描述不完整;(5)讨论未正确地说明和解释统计学结论,或者不能很好地围绕重复测量方差分析的结果进行。下面列举几个典型例子。

1.误用t检验分析重复测量设计资料例如我刊2019年第1期的一篇文章就出现了重复测量资料的统计学方法误用[5]:某研究观察分阶段、渐进性的康复训练对I型骨性BanKart损伤肩关节镜修补后的恢复效果。将33例患者分为2组,对照组术后进行肩关节的早期制动康复训练,治疗组术后进行渐进性、分阶段的康复训练。通过美国肩肘医师协会评分(ASES)、加州大学肩关节评分系统(UCLASS)对患者术前、术后6个月、术后12个月的肩关节功能进行评定。统计学方法里面的描述为:“应用配对t检验分析患者在治疗前、后的差异,独立样本t检验分析治疗组与对照组评分。”结果见表1(原文中为“见表2”)。上述例子,用t检验对数据进行统计学处理,肯定是错误的。为什么不能用t检验?因为一般用t检验的配对设计中,配对的2个对象可以随机分配处理,2个实验对象可以在同一个时期观察结果,从而比较处理之间的差别;而重复测量设计不能同期观察试验结果,比较的是前后差别,推论干预是否有效是有条件的,即假定观测结果不会随着观测时间的变化而变化。同时配对t检验要求同一对子的2个测量结果分别与两者的差值相互独立,差值需服从正态分布,而重复测量设计前后2次观测结果通常与差值不独立,往往与差值存在相关关系[6]这样用t检验代替重复测量方差分析去处理数据,没有考虑到观测指标在不同时间点上的相关性,增大了犯Ⅰ类错误的风险,导致研究结果的不可信。

2.未真正正确应用重复测量方案分析[7]如某研究观察头皮针结合重复经颅磁刺激治疗脑梗死后认知功能障碍,将120例患者随机分为对照1组(A1组)、对照2组(A2组)和观察组(B组),A1组采用头皮针治疗法治疗,A2组采用重复经颅磁刺激治疗,B组采用头皮针结合重复经颅磁刺激治疗,10天为1个疗程。观察治疗前、治疗后1、2、3个疗程后3组患者蒙特利尔认知评估量表(MoCA)和简易智能状态检查量表(MMSE)的评定结果。统计学方法部分,作者最开始写的是“2组数据的比较采用双总体t检验进行”,后来经过编辑审稿,提醒这种数据应该用重复测量方差分析,于是作者改为了“均数间比较采用重复测量方差分析”,然而结果描述仍然是:“3组患者治疗后与治疗前比较,第1个疗程至第3个疗程的MoCA分值均较前一次治疗有显著升高(P<0.05,0.01);3组患者分别完成各自的3个疗程治疗,各组在同次治疗后,B组的MoCA分值均较A1、A2组高(P<0.01)。”见表2(原文中为“见表3”)。说明作者并未真正理解什么是重复测量方差分析,也未按照重复测量方差分析的标准去做数据统计,比如,并未说明两两比较用什么方法,还有未说明时间效应、干预效应、交互效应,也未在表格给出相应的F值。对于这样的现象,编辑部常常遇到,很遗憾的是,很多作者为了通过审稿,直接改为“采用重复测量方差分析”,但是均未真正正确地按照此方法进行统计和表达,即使编辑与作者一再沟通,作者仍然不太清楚怎么正确应用此方法。

3.未做球形检验在笔者以往审阅的文章中,能对重复测量资料采用正确的统计学方法的作者已经较少了,而能够描述Mauchy检验是前提的就更是寥寥;有的文章在统计学方法里面说明了采用重复测量方差分析,但是未交待是否满足球形假设。做重复测量方差分析之前,要先检验数据是否满足方差齐性,另外,还需要检验数据是否满足球形假设,这是必然条件。通过球形检验后,如果P>0.01,说明重复测量的数据之间不存在相关性,符合球对称,可按重复测量方差分析处理;若P<0.01,说明重复测量的数据之间存在相关性,数据不符合球对称性条件,应对结果进行矫正后再做统计学处理。一般用得较多的是Greenhouse-Geisser矫正方法;或将从各时间点上测得的数据视为测自不同的指标,采用多变量方差分析;还可采用更细致的混合模型分析法进一步考察各时间点上数据之间是否具有某种特殊关系,即协方差结构[8]。实际应用中的重复测量设计资料以后者多见[9]。

4.未正确进行数据的讨论很多作者部分程度地正确应用了重复测量方差分析,但是未正确地针对数据结果进行讨论,未真正理解什么是主效应,什么是交互效应。重复测量资料的分析可得到3个部分的结果:(1)时间因素的作用;(2)干预因素的作用;(3)时间与干预因素的交互作用。对结果的正确描述可分为3个部分来阐述:时间与处理因素的交互作用差异有否统计学意义;不同时间点的均数间差异有否统计学意义;治疗组与对照组的差异有否统计学意义。首先应该确定是否存在交互作用,交互作用指的两个因素,比如时间和干预因素之间会相互影响,一个因素的水平改变,另一个或几个因素的作用也相应改变。若无交互作用,则可以用主效应直接判断相应水平总体均数间是否存在差异;若存在交互作用,则而应根据具体情况化作简单效应统计分析。许多作者的文章结果中当有交互作用时,并未真正理解,主效应的作用被错误地解释,从而得出错误的结论。有交互作用时,主效应的差异与相应水平总体均数之间的差异是不对应的,应进一步作简单效应分析来推断相应均数之间是否有差异[10]。比如一个重复测量资料的研究中,时间因素有统计学意义(P<0.05),说明检测指标有随时间变化的趋势,不同时间检测的指标差异有统计学意义;但时间和分组的交互作用没有统计学意义(P>0.05),说明时间因素的作用不随着分组的不同而变化,可以直接观测主效应。但是如果交互作用有统计学意义(P<0.05),那检测的数据随时间的变化有可能是受分组的影响,不能单纯地下结论。

5.中华医学系列杂志在此统计学方面的错误随手翻阅了中华医学会系列杂志,同样发现存在很多类似的问题,比如刘浩等[11]的研究就是设置了术后6周、3个月、1年3个时间点,属于重复测量资料,但是统计学方法中采用了配对t检验,而不是重复测量方差分析,结果表格里面给出的是t和p值。还有余辉等[12]的研究为随机对照实验,分为2个组,数据采集分为术后第7天、术后第14天、术后第21天3个时间点,但是统计学方法采用的是单因素方差分析。再比如方丽萍等[13]设置了入院第2天、第7天、第14天、第21天4个时间点,但统计学方法描述的是“比较采用单因素方差分析及LSD-t检验”。还有张超等[14]的研究中设置了镇静前、镇静后10min、镇静后30min、镇静后60min、镇静后90min,5个时间点,但统计学描述为“各观察时间点数值比较进行单因素方差分析,采用SNK法检验”。鉴于国内医学论文的统计学报告质量较低,刘清海等[15]研究设计了一份评价医学论文统计学报告质量的初步量表(总分50分),对国内外已发表的部分文献进行了评分,结果发现国内医学论文平均得分为26.00±6.64分,国外为38.67±4.42分,差距较大,国内中华医学系列杂志论文与普通医学杂志论文的得分并无多大差别。说明国内中华医学系列杂志在统计学方面跟一般医学杂志一样,同样存在相似的问题。

三、正确认识重复测量方差分析

1.混合效应模型对重复测量资料的分析方法大致可分为两类,即单变量统计分析方法和多变量统计分析方法[16]。王超等[17]研究比较了单因素方差分析和混合效应线性模型处理重复测量资料的应用特点,发现混合效应线性模型是处理重复测量资料的有力方法,混合效应线性模型既考虑了观察对象在不同观察时点间的内在联系,又考虑了观察值间的内部相关性,结论更为可靠,它对资料的协方差结构要求宽松;而单因素方差分析对资料的协方差结构有严格的限定。金雪娟等[18]一共用了5种方法应用于重复测量资料,(1)两独立样本t检验或方差分析;(2)对差值用两独立样本t检验或方差分析;(3)把治疗前收缩压值作为协变量,选用协方差分析;(4)广义线性模型;(5)混合效应模型。比较这5种方法的优缺点,得出结论是混合效应模型是较好的分析方法。作者认为混合效应模型可以充分利用信息,既可以分析随机效应和相关性,又能处理缺损。混合效应模型允许每个观察对象观察次数和观察时间不同,可以处理重复观察值之间的相关性和有缺损值的资料,适用性更为广泛。

2.两两比较笔者翻阅过一些统计学教科书,对重复测量资料的方差分析方法均有论述,但不全面,还需要查阅文献资料来全面认识,尤其是对其后的进一步在不同时点或不同组间两两比较的方法较少介绍。如果研究者希望继续分析不同处理间某个时间点的差异或不同时间点某两组间的差异,这就需要借助Gen-eralLinearModel的Multivariate过程来实现。当然也有学者认为可不必做不同时间点上的两两比较,因为重复测量资料侧重于分析不同时间点的总体变化趋势及不同处理间的差异,并不一定要细致地每两个点之间均比较,也使得统计学变得更为复杂[9]。所以,研究者可根据实验研究的目的和需求选择是否做两两比较以及做哪些两两比较。至于结果数据的表格表达,未发现有官方统一的规范,笔者参考一些做得较好的杂志,并查阅丁香园等医学分享网站的实例,经过自身的思考,认为至少应该给出时间效应、干预效应、交互效应的F值,还应该进行球形检验,如果不符合球形检验,应该做校正。讨论中对此结果进行正确及合理的解释。至于是否进行下一步的两两比较,根据研究的目的来灵活选用。

四、编辑和期刊就此问题的努力方向

1.编辑就统计学问题的努力方向首先,编辑自己系统地学习统计学知识是必修课。很多编辑在大学或研究生阶段都学过统计学,但是并不深入,工作后遇到具体问题应该重新翻阅教科书的最新版,结合具体实例思考如何正确应用统计学方法。具备一些基本的统计学知识和概念后,才能在实践中进一步理解和应用。在编辑初审稿件时,就能给初稿很好的建议,使文章消灭一些常识性统计学错误,从而更合理地配置审稿资源,让审稿专家专注于更深层的审稿,而不用耗费精力在一些简单错误上。另外,要针对一些常见的疑难的统计学问题,广泛查阅文献,深入认知此种统计学方法,这样,在和作者沟通的时候,尤其就审稿专家的提问给作者做桥梁作用的时候,能够沟通自如,自信应对,树立杂志的学术形象,建立学术权威性。再次,最好是能够检验作者给出的统计学检验值是否真实、是否正确,那么编辑应该自己学会应用统计学软件。编辑就统计学方面的问题,除了多自学外,应该多翻阅同行内其他优秀杂志的文章,查看里面相关统计学方法的书写格式,向统计学知识扎实的编辑或者审稿专家请教,针对具体实例可以一起讨论和分析。笔者曾经就此问题请教过《护理学杂志》的一位精通统计学的老师,她对此问题做了详细解答,还请教了肿瘤科的一位医生,还有公共卫生学院的教授,感觉受益匪浅。另外,还可以参加统计学培训班,线上、线下的都有很多。作为新时代的编辑,不应该只是着眼于每天的日常工作,埋头看文字,还应该有宏观编辑的意识,对整个期刊的发展有自己的认识,为提高杂志的学术水平和影响力提出自己的看法和建议。当然,我们编辑毕竟不是统计学方面的专家,不一定要在统计学方面有十分深入的研究,但是起码,常识性的错误我们要学会发现,早期消灭,经常出现的统计学错误,我们要学会辨认,知道大的原则。

2.医学期刊就杂志统计学问题的努力方向再从期刊管理层面来说,有必要建立一套相应的把关制度,个人认为,可从4个方面着手:(1)编辑初审,应在此阶段消灭统计学常识性错误,应提醒作者补充齐全统计检验值、缺损项、统计学描述不规范等问题;目前我刊尚未要求所有作者补充统计学检验值,但是个人认为开展这项工作势在必行。越来越多的医学期刊开始重视统计学的审查,如《心血管康复医学杂志》自2014年第1期起改进论文统计学处理方式,要求:提供具体P值,3组以上的数据比较要求进行方差分析。2015年此刊连续5年被福建省科学技术协会评为优秀期刊一等奖。笔者翻阅此刊文章,发现在统计学方面做得比我刊更为规范。(2)一审除了医学专业的审稿专家,还应该请统计学专家一审及复审,尤其是对于统计学方法稍微复杂一点的稿件,更是应该请统计学专业人员好好地把关,否则直接影响到研究结果的可靠性;(3)文章录用后,编辑编加文章后,应请权威统计学专家对整期杂志进行通读把关。此时,基本在前面审稿阶段已经消灭统计学大的错误,这一关,主要在于规范统计学表达和描述等问题。2017-2018年间,我刊聘请了一位擅长出版学和统计学的专家进行编加后审读,发现本刊以前用的有些术语不规范,经过他的把关后,统计学这块明显比以前改善很多,同时也会帮我们发现一些数据问题,如前后数据不一致,数据统计学检验值漏掉了数字等,从而及时改正,使得文章的数据更加精确、准确,很大程度地提高了文章质量。(4)另外,为了更加系统和规范统计学审稿模式,建议每一层审稿给出相应的表格,每一关分别从哪些方面入手,消灭哪些方面的错误,制作成表格,逐条不漏地对文章进行审核。接雅俐等[19]研制出一种评价医学论文统计学水平的量表,可以对医学类学术期刊所刊载的医学论著的科学性水平进行评价。这方面的工作还可以参考刘清海[15]、姜春霞等[20]文章中应用的表格。编辑们可以根据这些量表做出一个更符合本杂志实际情况的量表,用于统计学更细致和严谨的把关。(5)建议期刊主管部门制定在杂志评比条目中增设有关统计学质量评比的条目,并给与一定比重,从而督促医学期刊提高期刊的统计学质量[21]。有学者曾提出应将统计学内容纳入医学期刊的评价[22],个人认为是很有必要的,鉴于影响因子的操控性(有的杂志违规操纵互引和自引),光看影响因子无法客观评价杂志的真实水平。国内的医学编辑最好能组织相关专家学者草拟统计学报告指南,以形成正确、规范的统计学表达方式[23],但就目前国内医学编辑对统计学方面的认知及重视程度来说,离这个目标还相距甚远,还需要各界人士的长期共同努力。笔者发现这个问题,在这里抛砖引玉,还期盼同仁可以一起研究和讨论。

五、结语

中央全面深化改革委员会于2018年底审议通过了《关于深化改革培育世界一流科技期刊的意见》,提出“要以建设世界一流科技期刊为目标,科学编制重点建设期刊目录,做精做强一批基础和传统优势领域期刊。”党和国家最高决策层直接规划和指导我国科技期刊的建设,这对我国整个科技期刊界无疑是一个巨大的鼓舞,必将有助于开启我国科技期刊的新纪元。培育世界一流科技期刊,科技期刊编辑学会责无旁贷。从一点一滴做起,统计学方法的正确使用是重要一环。路漫漫其修远兮,吾辈立志不忘初心,怀着创办国际一流科技期刊的使命,为了提高国内期刊的学术水平,向国际一流期刊的目标靠近,积跬步,行千里吧!

作者:向艳平 单位:《中国康复》编辑部