臨床研究中統計學方法的規范應用與典型案例解析

2022-02-14 02:26:12鄭德強段明瑞李小春侯銳吳立娟王友信

中國卒中雜志 2022年1期

鄭德強，段明瑞，李小春，侯銳，吳立娟，王友信

統計學為醫學臨床研究提供了數據分析的工具和方法，正確、規范使用統計學方法是開展高質量臨床研究的重要保障，統計學方法應用正確與否直接關系到學術論文質量的高低。統計學方法的正確應用可以使研究成果具有科學性、代表性，如果使用不當或誤用，會直接影響研究結果的質量，甚至會導致錯誤的結論。越來越多的醫學工作者已經充分意識到統計學方法在臨床研究中的重要性，但是在實際應用中可能會出現一些錯誤，相關文獻報道醫學類研究論文中統計學方法的誤用率在25%以上[1-2]。本文主要針對臨床研究中統計分析的4個方面——統計描述、統計推斷、數據處理、結果解釋，采用典型案例解析方式，對臨床研究中統計學方法規范應用要點、常見誤用進行總結分析，為臨床研究規范統計分析提供參考。

1 統計描述方法的規范應用與典型案例解析

臨床研究中，描述研究對象某種特征的指標稱為變量（variable），如問卷調查中的“年齡”“性別”“職業”“學歷”“收縮壓”“空腹血糖”等。臨床研究中，研究人群中不同個體變量測量值的數據集合稱為資料，依據變量值的特點，將研究資料分為定量資料（如“年齡”“空腹血糖”測量值的集合）和定性資料（如“性別”“學歷”測量值的集合）。

1.1 兩種類型資料的統計描述

（1）定量資料：又稱計量資料。根據其觀測值是否連續，可分為連續型變量（如“身高”“體重”“血壓”等）測量值的資料和離散型變量（如某醫院每天的住院人數等）測量值的資料。當研究資料背后的變量符合正態分布時，以描述；當研究資料背后的變量不符合正態分布時，以M（P25～P75）描述[3]。如某研究比較某地某年城、鄉中老年人群4種指標的差異，具體數據見表1。依據經驗，臨床研究中呈正態分布數據的標準差往往不會大于均數[3-4]，而表1中空腹血糖、總膽固醇這兩項指標標準差均大于均數，提示空腹血糖、總膽固醇的資料不符合正態分布的可能性較大，采用描述資料集中趨勢和離散趨勢的統計描述欠妥。

表1 某地某年城、鄉中老年人群4種指標比較

（2）定性資料：包括無序定性變量（如“性別”“職業”“血型”等）測量值的資料和等級變量（如“學歷”“療效”“滿意度”等）測量值的資料。常見的數據形式為絕對數，如某病的住院人數、治愈人數、死亡人數等。但絕對數往往不具有可比性，因此需要計算相對數。常用的相對數指標包括比、比例和率。如某研究回顧性分析了某醫院神經內科2014年1月-2018年11月連續收治的急性腦梗死患者的臨床資料，比較兩組的臨床資料，數據的規范統計描述如表2所示[5]。

表2 兩組急性腦梗死患者臨床資料比較

1.2 統計表和統計圖臨床研究中，對變量進行統計描述時，統計表和統計圖是呈現數據分析結果的重要工具。統計表是將研究指標或統計指標及其取值以特定表格的形式列出，結果表達簡單明了、層次清晰，便于進一步計算、分析和比較。統計圖則是用點、線、面、體等各種幾何圖形形象化地表達和對比數據的工具，常用的統計圖有直條圖、累計頻率分布圖、箱式圖、直方圖、百分條圖、圓圖、線圖、半對數線圖、散點圖和統計地圖等。

繪制統計表的一般原則：①每個統計表都應有一個表號，按順序列出。表題需概括表的主要內容，放于統計表上方中央。②縱表頭和橫表頭分別對各行和各列內容或數字的含義進行概括和提示。③統計表線條通常用“三線表”，頂線和底線將表格與文章的其他部分分隔開來，橫表頭分割線將表頭的文字和表格的數字分隔。表內不可出現豎線和斜線。④數字用阿拉伯數字表示。同一指標的小數位數應一致，表內不留空格，數字按照小數位對齊。無數字用“-”表示，缺失數字用“…”表示。⑤表中數字區不允許出現文字，如需對某個數字或指標加以說明，可在其右上方加“*”“#”等符號進行備注，在表下方進行說明。

繪制統計圖的一般原則：①根據資料性質和分析目的選擇最合適的統計圖。描述定性資料或定量資料離散化的頻率分布可選用直條圖（圖1）[6]，描述定量資料的頻率分布可選用直方圖（圖2）。②統計圖均要有圖號及圖題，圖號應按順序排列，便于查找和文字中引用，圖題要概括統計圖資料的時間、地點和主要內容，一般放在圖的下方中央，如圖1所示。③統計圖一般要有橫坐標軸和縱坐標軸，對于有橫、縱坐標軸的圖，要標明尺度，縱坐標軸尺度自下而上，橫坐標軸尺度由左至右，數值等距。直方圖、累計頻率分布圖和直條圖縱坐標軸的標值要從“0”開始，而橫坐標軸的刻度只需表示出觀測值的實際范圍即可，如圖1所示。如果數值差別過大，可以選擇中間截斷的統計圖，如圖3所示[7]。④在比較不同的事物和對象的統計量時，宜選用不同的線條或顏色表示，并附圖例加以說明，如圖4所示[8]。

圖1 中國成人按地區和年齡段劃分的肥胖率直條圖

圖2 2011年某研究卒中患者年齡分布直方圖

圖3 美國不同年齡和種族成年人的平均血壓值

圖4 聯合診斷與單因素診斷ROC曲線

2 統計推斷方法的規范應用與典型案例解析

臨床研究中，統計推斷是數據分析的核心統計推斷所應用的方法，應與數據類型進行匹配。統計推斷主要包括假設檢驗、點估計和置信區間，不同類型的數據對應不同的假設檢驗方法、參數估計方法，應避免不同類型數據套用或誤用統計推斷方法。

2.1 定量資料的假設檢驗對于定量資料的假設檢驗，首先，需明確實驗設計類型，如單樣本、兩樣本或多樣本等，單因素或多因素等；其次，對定量資料進行參數檢驗，包括獨立性、正態性和方差齊性。兩樣本計量資料進行比較，如果兩組資料均符合正態分布且方差齊，選擇兩樣本t檢驗；如果兩組資料符合正態分布但方差不齊，則選擇校正的兩樣本t檢驗；如果其中一組或兩組資料不滿足正態分布，則選擇Wilcoxon秩和檢驗。多組單因素計量資料進行比較，如果各組資料均符合正態性和方差齊性，選擇單因素方差分析；如果某一組資料不滿足正態性或者方差不齊，則選擇Kruskal-Wallis秩和檢驗。如表2中的案例，年齡變量在青中年組和老年組之間的比較，使用兩獨立樣本t檢驗進行分析，得P<0.001，說明兩組年齡的差異是有統計學意義的。定量資料統計推斷常見的錯誤包括多個樣本均數的比較誤用多個兩樣本t檢驗替代方差分析；配對樣本t檢驗與兩獨立樣本t檢驗相互誤用等。

（1）多個兩樣本t檢驗與方差分析的誤用：t檢驗適用于單因素一、二水平實驗設計類型，每次只能比較兩個均數。如果是單因素多水平或多因素多水平等實驗設計類型，則不宜使用t檢驗，因為其會增加犯一類錯誤的概率。表3為3個年齡組不同性別收縮壓水平，若用兩樣本t檢驗分別對46～55歲組、56～65歲組和>65歲組的均數兩兩進行比較，結論為各組之間在男女研究對象中的收縮壓水平差異具有統計學意義。但是，應用此種檢驗方法會大大增加犯一類錯誤的概率，應選擇單因素方差分析，當方差分析差異具有統計學意義的時候，再采用多重比較的方法。常用的多重比較方法有SNK-q檢驗法、LSD-t檢驗法、Dunnett-t檢驗法等[9]。

表3 各年齡組不同性別收縮壓水平[單位：mmHg]

（2）兩獨立樣本t檢驗與配對t檢驗的誤用：配對設計的t檢驗有自身配對和異體配對之分。表4為自身配對的范例，對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療，治療前后測得各患者血壓值。該資料數據為自身配對設計，有學者把該資料當作兩獨立樣本數據，直接將治療前后的資料按照完全隨機設計定量資料的t檢驗進行比較，得到t收縮壓=5.451，P收縮壓<0.001；t舒張壓=5.007，P舒張壓<0.001，推斷患者在治療前后血壓值的差異具有統計學意義。但這種方法與設計類型不匹配，應選擇配對設計的t檢驗，計算各配對數據的差值，比較差值的平均值與“0”之間差異是否具有統計學意義。其統計分析結果為t收縮壓=6.842，P收縮壓<0.001；t舒張壓=8.788，P舒張壓<0.001，說明對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療，治療前與治療后患者血壓差值的差異具有統計學意義。

表4 急性缺血性卒中患者阿替普酶靜脈溶栓治療前后血壓水平[單位：mmHg]

2.2 定性資料的假設檢驗定性資料的假設檢驗一般以各個處理組的頻數為計量單位，以列聯表的形式來表示。一般用于比較兩個或多個獨立樣本頻率或獨立樣本頻率分布，配對設計兩樣本頻率分布，單樣本分布的擬合優度等。四格表χ2檢驗需注意其應用條件：樣本總數（n）≥40，理論頻數（T）≥5。如果n≥40，但某個格子1≤T<5，需進行校正。但是如果n<40或T<1時，使用校正的χ2檢驗也不正確，此時可以使用Fisher確切概率法檢驗。如表2所示，男性在兩組中所占比例的比較使用獨立樣本2×2的χ2檢驗，兩組中文化程度的比較使用多個獨立樣本R×C列聯表的χ2檢驗，P<0.05說明差異有統計學意義。

某研究使用MRI 和CTA 兩種方法鑒別急性缺血性卒中，數據見表5。該資料是配對資料，應采用配對四格表χ2檢驗，由于b+c=12+17=29<40，故需要校正，得到結果=0.552，P=0.458。如果使用獨立樣本四格表χ2檢驗，結果為χ2=15.78，P<0.01，則會得出錯誤的結論。

某研究比較兩組神經性頭痛的總體有效率，數據見表6，該例中有一個格子的理論頻數>1而<5，故不宜直接采用獨立樣本四格表χ2檢驗，應使用四格表校正χ2檢驗或Fisher確切概率法。故該研究的正確結果應為：χ2=3.88，P=0.049。如果使用獨立樣本四格表χ2檢驗，結果為χ2=15.78，P<0.01，得出錯誤的結論。

表6 兩組神經性頭痛患者的總有效率比較

2.3 回歸分析臨床研究中，經常使用相關分析或回歸分析來研究兩變量之間的相關關系或依存關系，但在應用過程中會出現多種錯誤，常見錯誤有直接使用分類的編碼數字進行分析，需將分類變量轉換為啞變量進行分析，如表7所示。某研究進行卒中后抑郁狀態影響因素的logistic回歸分析[10]，納入自變量時：將年齡分為4組，以<50歲為參照，其余3組轉變為啞變量進行分析；將BMI分為4組，以正常組（18.5～23.9 kg/m2）為參照，其余3組轉變為啞變量進行分析。

表7 卒中后抑郁狀態影響因素的logistic回歸分析

重復測量設計是指對同一受試者的同一觀察指標，在不同時間點或不同條件下進行多次觀測的設計，由若干受試者得到的多次觀測結果稱為重復測量變量。由于數據不再滿足獨立性的特點，故不能直接采用普通的t檢驗或方差分析進行比較，一般需采用重復測量設計變量的方差分析。但是此種分析方法存在很大局限性，不允許數據缺失，所以，對于更普遍的重復測量數據（如存在少量的缺失值等），分析方法包括廣義估計方程、多水平模型等[11]。

某研究比較TIA患者及非神經系統疾病患者入院后7 d、1個月、3個月認知功能評分的變化，數據見表8。該資料設計類型為兩因素重復測量設計的定量資料，其中“組別”是試驗分組因素，“測定時間”為與重復測量有關的試驗因素，誤用析因設計進行分析的結果見表9，得到兩組之間認知功能差異有統計學意義（P<0.001），但是不同時間的認知功能差異無統計學意義（P=0.100），組別與時間交互差異無統計學意義（P=0.334）。正確的統計推斷應采用重復測量方差分析，結果如表10所示，兩組之間認知功能差異有統計學意義（P=0.011），不同時間的認知功能差異亦有統計學意義（P<0.001），由于不同組別和時間的認知功能差異均有統計學意義，所以組別與時間的交互作用顯著（P<0.001）。

表8 TIA組與對照組MMSE評分變化[單位：分]

表9 析因設計分析結果

表10 重復測量方差分析結果

3 數據處理方法的規范應用與典型案例解析

3.1 離群值的處理臨床研究中，數據離群值的處理對分析的科學性、全面性非常重要。一組數據中往往會出現個別觀測值與其他數值相比差異較大，這樣的數據稱為離群值。只有當有充分理由認為該數據為離群值時，才可以將其刪掉進而進行后續統計分析。尤其是當觀測數據量較少時，如果未查明離群值產生的原因，直接將其刪掉是不合適的，可能會對分析結果產生較大影響。

識別離群值的方法有以下幾種：①通過直方圖判斷。如果觀測值落在圖形兩端并遠離均數可能是離群值。②通過箱式圖判斷。觀測值距離箱式圖底線（P25）或頂線（P75）的距離為箱體高度（IQR）的1.5～3倍時，被視為離群值；距離>3倍，則被視為極端離群值。③通過統計檢驗判斷。檢驗觀測值偏離程度是否超出隨機誤差所能解釋的上限，超出均值±6倍隨機誤差的值可能是離群值。④結合其他相關變量信息判斷。如青春期兒童生長發育調查中，可以根據兒童身高和體重的線性回歸方程判斷其體重是否在正常范圍內，如果對應身高的體重超出預測值99%置信區間，可認為是離群值。

離群值的處理方法：①如果確定數據有明顯邏輯錯誤，或者因測量或記錄過程中出現錯誤而導致，可直接剔除該數據。如某數據中觀測的收縮壓280 mmHg（1 mmHg=0.133 kPa），顯然是一條錯誤記錄，應予以刪除。②如果確定數據無邏輯錯誤或者排除具有明顯邏輯錯誤的數據后，在數據分析過程中對離群值刪除前后分別進行一次統計分析，若結果不矛盾，則不刪除；若結果矛盾，需要刪除，并予以充分合理的解釋。

3.2 缺失值的處理數據缺失是統計資料中最常見的問題，如果不對其進行處理往往會損失信息甚至導致結果誤讀，所以對缺失值的識別和處理是數據預處理中最關鍵的步驟之一。數據缺失主要有3種，包括完全隨機缺失、隨機缺失和非隨機缺失。

缺失值的處理方法：①明確少數個體存在缺失值，且該變量不是分析的主要變量，可以考慮直接刪除存在缺失的個體值或者變量。②填補缺失值。常用的隨機缺失填補方法有均值填補法、回歸值填補法、末次訪視觀測值向前結轉法和多重填補法等。某研究使用中國健康與退休縱向隊列數據，評估中國中老年人群中抑郁癥狀和心血管疾病發病率之間的關系，采用鏈式方程的多重填補法對缺失數據進行了填充[12]。一項隨訪18年的隊列研究探討休閑活動與癡呆發病風險之間的關系，在敏感性分析中對休閑活動相關變量的缺失進行了多重填補[13]。

4 結果解釋方法的規范應用

在統計分析之后，科研人員在對統計結果進行解釋時需注意以下事項：①根據相關要求和統計規范，應明確表示出所用統計分析方法的名稱（如配對樣本t檢驗、隨機區組設計方差分析、配對四格表資料的χ2檢驗等）、統計量的具體值（如t=10.29，F=13.21，χ2=5.68等），尤其對于P值，需給出具體的數值（如P=0.003），而不是僅僅指出P<0.05。②P值的定義為在零假設成立的條件下，出現現有樣本統計量以及更不利零假設數值的概率。所以當P<0.05時，不能直接下結論說“差異顯著”，正確的說法為“差異有統計學意義”。如抑郁狀態組的睡眠質量較非抑郁狀態組差，差異有統計學意義（P<0.001），但兩組的睡眠時長差異無統計學意義（P=0.405）[10]。③在涉及總體均數或總體率時，除了給出顯著性檢驗結果之外，還應給出95%置信區間。如某研究納入患者共3000人，其中治愈人數為289人，則治愈率為9.63%（8.78%～12.45%）。④最終給出統計結論時要慎重，橫斷面研究中與因變量顯著相關的變量不能稱為風險因素，只有在明確時間順序下才能稱為風險因素，如隊列研究中高血壓與卒中發生風險增加存在關聯，不能將關聯關系理解為因果關系[14]。

綜上所述，在臨床研究中應用統計學方法時：首先，要對數據進行正確的預處理；其次，要根據數據的類型選擇恰當的統計描述方法；再次，根據臨床研究設計類型和數據類型，按要求選擇合適的統計分析方法，切忌盲目套用，甚至誤用；最后，給出統計分析結論時，要對結果進行正確解讀。