張巧蓮 鄭玉建
1.新疆醫科大學學報編輯部;2.新疆醫科大學公共衛生學院,新疆 烏魯木齊 830011
醫學科技期刊常見統計學錯誤分析與解決對策
張巧蓮1鄭玉建2
1.新疆醫科大學學報編輯部;2.新疆醫科大學公共衛生學院,新疆 烏魯木齊 830011
在醫學論文寫作中,醫學統計學方法應用是必不可少的,正確使用能保證科研工作順利進行,并使科研成果更具有科學性、代表性和可靠性。反之,如果使用不當或者誤用,會直接影響研究結果的質量,反而會使讀者產生誤解,甚至有時會導致錯誤的結論。近年來,醫學統計學方法在醫學科研中的應用越來越受到國內廣大醫學科研工作者的重視,統計分析結果表達已成為醫學論文中一個不可缺少的重要組成部分。醫學統計學是評價醫學科技論文質量優劣的重要依據,然而從近年發表的論文來看,有不少作者對統計方法的使用還不熟悉,實際應用中統計方法濫用、錯用和誤用的情況時有發生[1]。
據國外20世紀60年代到80年代對不同醫學期刊發表論文的調查,有統計學錯誤的論文比例最高者達66%,最低者也有20%[2-4]。國內有學者對5種中華醫學會系列雜志論著中統計學方法的應用狀況進行了調查,結果顯示,1985年統計錯誤的論文比例為24%,1995年為36%[5]。這些調查研究均說明統計方法誤用的嚴重性以及正確應用的緊迫性。國外從20世紀70年代起就有針對醫學論文的科研設計與統計方法應用情況的調查研究,國內學者也進行了相關研究[6]。這種研究有助于及時了解醫學科研論文中統計方法的應用質量,發現存在的問題,提高醫學科研工作者應用統計方法的水平。筆者總結了近年來已發表的醫學科技論文中常見的統計學問題,希望能引起各位專家學者和臨床醫生的共識與重視,促進我國醫學期刊質量的提高。
統計設計是整個研究中最重要的一環,是研究工作應遵循的依據。常見的統計設計問題有:忽視組間均衡性,樣本缺乏代表性,樣本例數不足,未設置對照組,未隨機分組,未提出統計分析方法等。針對以上問題,在科研設計中一定要遵循實驗設計的四大原則即“隨機、對照、均衡、重復”的原則[6]。
1.1 不遵循或不重視隨機化原則
隨機化是科研設計的重要原則,直接影響研究結果的可信度。隨機化既要隨機抽樣,還要隨機分組,并有足夠的樣本量作前提。然而,在醫學論文中許多作者對此不夠重視,主要表現在論文中統計處理隨機化不突出,隨機化缺失情況比較常見,有的論文甚至將隨機誤解為隨意、隨便,不采用隨機化處理方法,導致結果缺乏可靠性。還有些文章中沒有提出“隨機”抽樣的設計與方法,沒有排除標準,給人隨意選擇病例之感,且病例數少,因此沒有代表性,所得出的結論不可靠。部分文章雖然注明了“隨機”,但未提及采取什么方法進行隨機化研究或兩組間的例數相差甚遠,不符合隨機化的一般規律,沒有臨床參考價值[7]。
1.2 缺少對照研究或對照組設計不合理
正確設立對照是臨床或實驗研究的一個核心問題,設立對照的意義在于說明臨床試驗或實驗研究中干預措施的效應,減少或防止偏倚和機遇產生的誤差對試驗結果的影響。目前,國內許多期刊發表的論文對照組設計不合理現象比較普遍,尤其有些作者對某種新藥或新技術在臨床的應用觀察研究中,不設對照組,缺乏對照觀察,得出的結論缺乏科學性,令人懷疑。有的文章雖然設立了對照組,但在分析結果時,卻沒有將試驗組與對照組的結果進行比較,而僅將各組間的自身前后進行比較,從而使該研究失去對照意義。對照組選擇不當,還表現在兩組間重要的臨床特征和基線情況相差太大,無可比性,如性別、年齡、病情、經濟情況和文化程度等不一致,如有些論文將健康人或志愿者作為對照組,使結果受到非處理因素的影響,產生偏倚或系統誤差,使結論不可信[7]。
1.3 均衡性原則掌握不夠
均衡性原則要求實驗中的各組之間除處理因素不同外,其他可控制的非處理因素要盡可能保持一致。特別對疾病預后有重要影響的臨床特性一定要在組間分布均衡。各組間越均衡,可比性越強。有些作者在對病例進行分組時,忽視了均衡性原則,兩組之間沒有可比性,結論自然是錯誤的。具體表現在:有的文章對治療組與對照組的相應統一指標沒有設在均衡的水平上。對治療組情況交代的比較詳細,而對對照組的年齡、性別、病情等不予交代,或所選對照組的年齡與治療組不在一個年齡段,影響了作者對指標的觀察[7]。
1.4 重復的原則掌握不好
所謂重復,一是指重復試驗或平行試驗,二是指各樣本組的例數要有一定的數量,即樣本的例數要足夠大。雖然隨機化是增強非處理因素均衡性的重要方法,但當各組內例數過少時,盡管采用了隨機化分組的方法,也難以保證非處理因素的均衡一致。在隨機化分組的基礎上,只有樣本例數足夠大,才能使非處理因素均衡一致,同時也才能使抽樣誤差減小,增強樣本對總體的代表性。一般來說,在隨機分組的前提下,樣本例數越大,各組之間非處理因素的均衡性越好;但當樣本量太大時,往往又會給整個實驗和質量控制工作帶來更多的困難,同時也會造成浪費。為此,在實驗設計時,還應保證在實驗結果具有一定可靠性的前提下,確定最少的樣本例數。一般說來,計數指標每組樣本不得少于20~30例,計量指標每組樣本不得少于5~10例。在多因素分析時,一般認為樣本例數至少為觀察指標的5~10倍[8]。
1.5 樣本的含量
樣本的含量的大小直接影響到結論的可靠性。樣本量過少,則抽樣誤差大,結果可靠性差,且經不起重復驗證;反之,盲目加大樣本量也會造成人、財、物的浪費,同時也造成非抽樣誤差增大。故應在保證研究結果精確可靠的前提下,確定最小的樣本量。如某篇論文報道某藥治療的臨床療效,實際總例數為10例,其中6例有效,于是作者得出有效率為60%。顯然,有限的病例數不能充分說明該藥是否有效,作者貿然得出結論,容易給他人造成假象甚至誤導[9]。
在選擇統計方法之前,首先應確定研究資料是計數資料還是計量資料。只劃分其類別而得到的資料為計數資料,也叫定性資料,如根據治療結果計算出的治愈率、陰性率、陽性率等。測定某個具體數值而得到的資料為計量資料,如血壓值、血細胞計數、血氧分壓測定等許多物理診斷和化驗檢查的結果。目前,醫學論文中計數資料最常用的統計方法為χ2檢驗,計量資料最常用的統計方法為t檢驗。值得注意的是,各種假設檢驗方法均有其適用條件,應根據資料特點來選用最適當的方法。均數與標準差分別是描述正態分布資料集中和離散趨勢的指標。能否選用“均數±標準差”來描述某一資料的分布特征,關鍵看該資料是否符合正態分布。當資料不符合正態分布或方差不齊時,應將資料轉換使之符合正態分布,方差齊性后再用t檢驗或方差分析,否則用秩和檢驗。有些作者在使用t檢驗時,未考慮到上述適用條件而盲目使用,造成統計學處理不當或統計學計算錯誤[10]。
2.1 統計指標應用不當
2.1.1 描述計量資料的統計指標 描述計量資料的統計指標主要有平均數指標(算術均數、中位數M等)和變異指標(標準差s和四分位數間距Q等),在應用時一定要注意它們各自的適用范圍。對于非對稱分布資料,算術均數不能反映數據的平均水平,應采用中位數描述。一般地,正態資料或對稱資料用描述,偏態資料用M和Q來描述。在不能確定數據的分布類型時,應選用M和Q進行統計描述。四分位數間距Q是75%分位數P75和25%分位數P25之差,即Q=P75-P25,所謂百分位數Px是將全部觀察值分為兩部分,理論上x%的觀察值比它小,(100-x)%的觀察值比它大,中位數M是50%分位數P50。、s、M、Px與Q可通過統計軟件直接輸出[9]。
2.1.2 描述計數資料的統計指標 描述計數資料的統計指標有絕對數和相對數。絕對數是原始資料經匯總得到的小計或總計數。相對數是兩個有關的絕對數之比,主要包括率和構成比(百分比)。醫學論文中相對數應用的主要問題之一是分母較小。分母較小時,相對數的可靠性不能保證,在這種情況下,宜直接用絕對數進行描述而不宜計算相對數。醫學論文中相對數應用的主要問題之二是將構成比誤用來說明事物發生的強度。構成比只能反映事物的內部構成,不能說明事物的發生強度。醫學的研究對象主要是人以及與人體有關的各種因素。由于生物現象的變異較大,各種影響因素又錯綜復雜,研究常是抽樣觀察,使事物本質差異與抽樣誤差混雜,故需用統計方法透過偶然現象來探測其規律性。如果不能正確運用統計學方法,造成統計學上的偏差或失誤,就很容易把本來成功的結果當成失敗而放棄,或把失敗的教訓誤認為成功的結論而加以宣傳。在進行科研設計時要嚴格遵循科學的統計學分析方法,不能留下隱患,否則,再高明的統計學專家和統計學軟件也無法彌補科研設計缺陷造成的損失。總之,統計學分析在醫學研究和論文寫作中意義重大。作者在撰寫論文時,應注意識別、總結有代表性的、有借鑒意義的統計學領域的缺陷、失誤或錯誤的多發點,特別留心易出現統計錯誤的險區,從而使論文中的統計學問題減到最低限度。認真檢查、仔細核驗,盡量避免上述錯誤,必要時還可以請統計學專家幫助把關[12]。
2.2 統計方法描述或選擇不當
統計方法選擇非常重要,它直接影響結論的可靠性[12]。臨床資料的結果變量可分為計數資料、計量資料和等級資料。計數資料指將觀察對象按兩種屬性分類,如生存、死亡,治愈、未治愈,有效、無效等,通常轉化為率。如果是兩組間的比較,則采用四格表χ2檢驗或其校正公式,如果是多組間率的比較,則采用行×列表資料χ2檢驗。計量資料指對某一個研究對象用定量的方法測定某項指標得到的資料,一般均有計量單位。通常資料呈正態分布時,兩組間均數比較用t檢驗,多組間均數比較用方差分析和q檢驗。當資料不呈正態分布或方差不齊時,也可用秩和檢驗等非參數檢驗法。
2.2.1 統計方法描述不清
醫學論文中常可發現作者未交代所用的統計方法,如是配對設計的t檢驗還是成組設計的t檢驗,是Ridit分析還是χ2檢驗,是作相關分析還是作回歸推斷。統計方法交代不清或根本不予交代,使讀者對論文結論的正確與否無法判斷。有的作者只提一句“經統計學處理”后,就寫出結論。有的甚至直接用P值說明問題,籠統地以P<0.05或0.01、P>0.05便稱結果差異有無顯著性,P值的大小不說明差值的大小,它還與抽樣誤差大小有關[13]。因此,還應寫明具體的統計方法,如有特殊情況,還應說明是否采用了校正,應寫出描述性統計量的可信區間,注明精確的統計量值和P值,然后根據P值大小作出統計學推斷,并作出相應的醫學專業結論。
2.2.2 假設檢驗方法交代不清 不交代假設檢驗方法或假設檢驗方法交代的不具體、不清楚是醫學科研論文中常見的錯誤。如果不交代假設檢驗方法或假設檢驗方法交代的不具體,讀者就無法考察論文的統計學方法選擇的是否正確,無法核對計算結果是否準確。每一種假設檢驗方法都有其特定的適應條件和嚴格的適用范圍。對于同一組資料,采用不同的假設檢驗方法可能得出截然相反的結論。如將配對設計的資料按成組設計資料的方法處理,將會損失樣本提供的信息、降低檢驗效率,可能使原本有統計學意義的結果無統計學意義[14]。在論文寫作時,不但要交代選用的是什么統計學方法,而且統計學方法要盡可能具體。如選擇t檢驗,要說明是配對t檢驗,還是成組t檢驗;選擇方差分析時,要說明是完全隨機設計的方差分析,還是配伍組設計的方差分析。對于四格表資料,應說明是一般四格表χ2檢驗、配對四格表χ2檢驗及四格表資料的精確概率法等。
2.2.3 統計方法選擇常見錯誤①誤用χ2檢驗 。χ2檢驗有一定的適用條件,n>40且理論數(T)>5時,可用一般χ2檢驗;n>40,但至少有1個T>1且T<5時,可用校正χ2檢驗;n<40或T<1時用χ2檢驗的確切概率法[15]。 ②t檢驗誤用于多組資料的比較。在醫學期刊中常會出現將t檢驗誤用于多組資料的比較 。多組資料的比較應該采用方差分析(F檢驗),當差異具有統計學意義時,再進一步作兩兩比較。當各組均與一個對照組比較時采用Dunnett t檢驗;當各組相互循環比較時,則常采用Student-Newman-keuls(SNK)檢驗,又稱q檢驗[16]。③配對t檢驗與成組t檢驗誤用。大部分論文只注明采用t檢驗,而未注明是配對t檢驗還是成組t檢驗。配對t檢驗常用于處理前后的自身對照,即差值均數與總體均數“0”的比較;成組t檢驗適用于成正態分布的兩個小樣本均數間的比較。④資料不呈正態分布時未用非參數檢驗。t檢驗F檢驗等適用于呈正態分布、方差齊且有確切的測量數值的資料,而非參數檢驗(如符號檢驗、秩和檢驗Wilcoxon法、秩檢驗-Kruskal Wallis法、Friedman法、Ridit分析、Seperman相關等)對資料無特殊要求,對按大小順序、評分、等級、反應程度甚至色調深淺等資料都可進行分析比較[17-18]。因此,對于多組計量資料的比較,呈正態分布且方差齊時用F檢驗,方差不齊時可用變量變換,或采用秩和檢驗;對于兩個小樣本均數的比較或處理前后的比較,方差齊時用成組t檢驗或配對t檢驗,方差不齊時用t′檢驗[19]。
統計分析的結果是推翻無效假設或是不能推翻無效假設。無效假設在一般的統計檢驗為兩組總體參數相等。推翻無效假設只能說兩組總體參數不相等而并不能說兩組相差很大。兩組相差如何要對可信區間進行研究觀察后得出。由于統計檢驗不能得出差別的大小,因而結論不能說“有明顯差異”或“有顯著差異”,也不能說“差異非常顯著”,更不能說“差異明顯”。在國外的統計書籍上的英語表達為“significant”,它的正確意義應當是“有意義的、有重要性的”。俄語為“Значм ый”和日語中的“有意”也是這個意思。國內只有極個別的英漢詞典把“significant”誤譯為“顯著的”。正確的說法應當是“差異有統計學意義”或“差異有高度統計學意義”等[20]。
在解釋差別有統計學意義的結果時,有些人常常根據P值的大小作出對實驗效應差別程度不同的專業結論[21]。例如某實驗研究,比較甲、乙兩種治療方法對某病的治療效果(假定甲法的療效優于乙法),若得到“P<0.001”,則認為甲法極顯著優于乙法;若得到“P<0.01”,則認為甲法非常顯著優于乙法;若得到“P<0.05”,則認為甲法顯著優于乙法。犯這種錯誤的原因是錯誤的理解了統計學中P值的概念[7]。統計學上根據假設檢驗原理推算出來的P值表示拒絕特定的無效假設可能犯假陽性錯誤的概率。P值的大小并非指差異的太小,只能反映兩者相同或不相同。P值越小,說明越有理由認為兩種處理方法效果不同,而不能反映對比的兩組或多組之間差異的大小。差異的大小只能根據專業知識來確定。此外,甚至在部分投稿文章中未交代所采用的統計分析方法,也未見應用統計學的跡象,僅從各組數據的均數大小做出了統計推斷。醫學期刊論文中暴露出來的統計學錯誤,從表面上看是編輯部和審稿者把關不嚴所致。事實上,即使審稿時發現了上述錯誤,也無法改正。因為實驗設計的錯誤只有在科研工作開始之前才有可能得到糾正。即使編輯工作者能夠阻止有嚴重統計學問題的論文發表,也僅僅是治標而已。如何使廣大醫學論文作者在醫學研究中正確應用統計學,提高科研質量才是治本[7]。
眾所周知,統計學是從事科學研究不可缺少的工具。從試驗設計、資料收集與表達、數據處理和結果分析,每一個環節都需要正確地運用統計知識,才能真正發揮統計學在科學研究中應起的作用。然而,在已出版和發表的一些學術專著和論文中、通過評審的科研成果和答辯的學位論文中,經常可以看到忽視、輕視和誤用統計學的現象[22]。
4.1 提高編輯人員的統計學知識 應完善編輯人員的知識結構,保證統計學應用的準確性。為此,可定期聘請統計學專家對審稿人員進行統計學知識培訓。科技期刊的群體效應理論[23]認為,期刊編輯的專業結構應多元化,以利于編輯互相學習,實現知識互補。醫學期刊編輯部可考慮聘用統計學專業的研究生作為編輯。編輯應將醫學統計學作為自己的必修課,通過多種方式,如自學自修,參加講座或培訓班學習統計學知識,有條件的編輯部,如醫學院校學報編輯部,可以有計劃地組織編輯參加本科生或研究生醫學統計學課程的學習,也可鼓勵編輯人員在職攻讀統計學專業研究生學位。這樣,可以提高全體編輯人員的統計學水平,最終使編輯和審稿人都能夠發現論文中存在的統計學錯誤,并指導作者修改,正確進行醫學論文中有關統計學分析的描述[24]。另外,有關職能部門或學會可組織與醫學統計學相關的培訓班,聘請統計學專家講課,對編輯人員進行定期統計學知識培訓,加強科研設計、統計學知識的學習[19]。
4.2 加強醫學統計學專家審稿 醫學研究論文專業性強,經常涉及統計學處理問題,有時會遇到統計方法復雜的稿件,這不僅需要本學科專家審稿,而且需要醫學統計專家把關,只有這樣,才能保證論文所報道的研究成果的真實性和可靠性。醫學期刊編委會中應有統計學專家,專門負責稿件統計學方面的審查工作。
4.3 強化作者的統計學意識 目前,我國醫學科研工作者對統計學的重視不夠,沒有認識到統計學的重要性。因此,要加強宣傳,提高醫學科研人員對統計學重要性的認識,強化他們的統計學意識,務必在科研工作中和撰寫論文時做到正確應用統計學。另外,還可以對作者開辦有關科研論文撰寫知識的培訓班,面向臨床醫生,特別是年輕醫生定期培訓。請有研究經驗的專家講授科研課題的設計方法、如何正確運用統計學方法等。這些措施有利于強化作者的統計學意識,并樹立其精品意識,有利于增加優質稿源,從而提高期刊學術質量[19]。
總之,提高醫學期刊中統計學應用的質量是一項長期而又艱巨的工作,它涉及到作者、編者、審者及讀者等多個方面,需要大家共同努力,才能逐步減少以至消除統計學誤用現象,從而提高醫學論文的科學性[14]。
[1]伍亞舟,張玲,易東.醫學論文中統計學問題分析與方法的正確選擇[J].西北醫學教育,2008,16(1):161
[2]Morris RW.A statistical study of papers in the journal of bone and joint surgery [BR]1984[J].J Bone Joint Surg,1988,70B:242 ~246
[3]Juzych MS, Shin DH,Seyedsadr M, et al. Statistical techniques in Ophthalmic Journals[J]. Arch Ophthalmol,1992,110:12~251229
[4]KanterMH, Taylor JR.Accuracy of statistical methods in transfusion:areview of articles from July/August1992 through June1993[J].Transfusion,1994,34:697~701
[5]王倩,張博恒. 五種中華醫學會系列雜志論著中統計方法的應用現況[J].中華醫學雜志,1998,78(3):230~233
[6]宋雙明.醫學論文中統計學的幾個問題[J].編輯學報,1998,10(2):76~78
[7]王曉瑜.《山東醫藥》論文中統計學錯誤分析[J].中國科技信息,2010,16:193~194
[8]陳彬.寫作統計學[M].成都:四川科學技術出版社,1996:115
[9]肖麗娟.從編輯角度談醫學論文寫作中的統計學應用問題[J].蘇州大學學報(工科版),2006,26(5):90~92
[10]周英智.醫學論文中常見統計學問題分析[J].科技與出版,2003,(3):28~30
[11]何慶勇.臨床論著中常見統計學錯誤辨析[J].中國中醫基礎醫學雜志,2009,15(7):552~553
[12]潘發明,廖芳芳,夏果,等.臨床科研論文中常見的統計學錯誤分析(一)[J].安徽醫藥,2008,12(2):192~193
[13]吳錦雅,王征愛.廣東3種醫學學報統計學應用現狀和分析[J].編輯學報,2008,20(4):304~305
[14]楊云華.醫學論文中常見的統計學錯誤及對策[J].中華醫學科研管理雜志,2004,17(2):107~108
[15]馬斌榮.醫學統計學[M].北京:人民衛生出版社,2003:265~269
[16]李暉.醫學期刊論文中常見統計學問題[J].聽力與言語疾病雜志,2003,11(4):315~316
[17]楊云華.醫學論文中常見的統計學錯誤及對策[J].中華醫學科研管理雜志,2004,17(2):107~108
[18]姚實林.300篇中醫藥期刊論文常見統計學問題分析[J].醫藥產業資訊,2006,73(21):151 ~153
[19]金丕煥.關于假設檢驗結果的表述[J].中國衛生統計,1985,4:50
[20]金永勤,王維.醫學期刊編輯應重視統計學中的幾個問題[J].編輯學報,2009,29(1):33~34
[21]胡良平,王功鵬.合理選用統計分析方法[J].中國影像學雜志,1996,4(3):185~186
[22]鄧大玉.綜合類學術期刊編輯部的群體效應不可忽視[J].中國科技期刊研究,2002,13(6):477 ~479
[23]黃建鄉,耿波,馬偉平.山東省高校醫學學報論著中統計方法的應用現狀調查與分析[J].編輯學報,2007,19(3):178~180
10.3969/j.issn.1001-8972.2011.24.093
新疆醫科大學人文社科基金資助項目(2010XYSK16);中國高校科技期刊研究會立項項目(GBJXC1163)