王瑞平 李斌
摘 要 本文基于臨床醫學研究數據分類,簡要介紹臨床研究數據的統計分析思路,主要包括統計學描述和統計學推斷兩個部分,為醫務人員規范開展臨床研究數據的統計分析提供參考。
關鍵詞 臨床研究 統計分析 定量變量 定性變量
中圖分類號:C81 文獻標志碼:C 文章編號:1006-1533(2022)01-0007-03
基金項目:國家重點研發計劃“中醫藥現代化研究”重點專項項目(2018YFC1705301);國家自然科學基金面上項目(82174383);上海申康醫院發展中心管理研究項目(2020SKMR-32);上海市皮膚病醫院引進人才科研基金項目(2021KYQD01)
Outline of the data analysis in clinical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Based on the classification of clinical medical research data, this paper briefly introduces the idea of statistical analysis of clinical research data, mainly including two parts: statistical description and statistical inference, so as to provide a reference for medical staff to standardize the statistical analysis of clinical research.
KEy wORDS clinical research; statistical analysis; quantitative variable; qualitative variable
臨床醫學研究數據統計分析主要包括統計學描述和統計學推斷兩個部分[1-4]。如圖1所示,統計學描述是應用統計參數和指標對變量數據進行合理描述和展示的過程,包括對定量變量數據的描述和定性變量數據的描述;統計學推斷則是通過抽樣來估計總體參數情況,應用“反證法”和“小概率事件”原理,由樣本信息對相應總體特征進行推斷的過程,包括參數估計和假設檢驗兩個部分。
1 臨床研究數據的統計學描述
在進行臨床研究數據統計分析時,首先應對研究對象的一般資料(人口學資料、基礎疾病、過敏史等)進行分析描述,闡明研究對象的一般人口學特征構成情況,評價研究對象在不同試驗組別中的分布情況等。對于定量變量,描述性統計分析的主要任務是描述其集中趨勢和離散趨勢,其中用于描述定量變量集中趨勢的指標包括均數、中位數和眾數,用于描述定量變量離散趨勢的指標包括標準差、方差、全距、四分位數間距和變異系數。對于這些描述定量變量集中趨勢和離散趨勢的指標,臨床研究數據統計分析時如何正確選擇合適的指標來進行統計學描述,需要考慮數據的分布特征。對于符合正態分布或近似正態分布的定量變量,應選擇均數和標準差來進行描述;對于不符合正態分布的定量變量,通常選擇中位數和四分位數間距來進行描述。
舉例來說,如圖2所示,數據集A包含20個數據,其中“1”有7個,“2”有6個,繪制直方圖(11a)后見呈偏態分布;數據集B也包含20個數據,其中“4”有3個,“5”有4個,“6”有3個,繪制直方圖(11b)后見呈正態分布。在實際進行數據統計分析時,一般可使用SPSS軟件中“analysis→descriptive statistics→explore→plot”里的正態性檢驗來判定數據是否符合正態分布(K-S值,P>0.05表示為正態分布)。
對于數據集A和數據集B,它們的集中趨勢和離散趨勢指標計算如下。

鑒于數據集A中的數據呈偏態分布,應選擇中位數(2)來描述其集中趨勢,選擇四分位數間距(1.00, 4.75)來描述其離散趨勢;而數據集B中的數據呈正態分布,應選擇均數(5.15)來描述其集中趨勢,選擇標準差(2.06)來描述其離散趨勢。
對于定性變量,可常規選擇構成比、百分比、比值和率來進行統計學描述。在圖3所示表1中,BMI(體質量指數)和文化程度為構成比,性別(男/女)為比值。流行病學調查研究中還常會用到發病率、患病率、罹患率、死亡率、病死率和生存率等[1]。

2 臨床研究數據的統計學推斷

假設檢驗是臨床研究數據統計分析的核心,其基本思想是綜合應用“反證法”和“小概率事件”原理,由樣本信息對相應總體的特征進行推斷,這部分內容在臨床研究報告撰寫中占有較大的比重。變量類別不同,假設檢驗的方法也不同。定量變量如符合正態分布且方差齊,兩組之間的比較采用t檢驗,多組之間的比較采用方差分析;如符合正態分布但方差不齊,兩組之間的比較采用校正的t檢驗,多組之間的比較則先進行數據轉換(對數變換、平方根變換、平方根反正弦變換等),而后再采用方差分析。對于兩個變量之間關系的探索,可以進行Pearson相關性分析和線性回歸分析。定量變量如不符合正態分布,常規選擇非參數檢驗分析組間的差異,使用Spearman相關性分析和非線性回歸分析探討兩個變量之間的關系。
對于定性變量,可選擇卡方檢驗、趨勢卡方檢驗、ridit檢驗進行單因素分析,探討兩組或多組之間的差異;可使用logistic回歸分析進行多因素分析,探索研究變量的獨立危險因素。
參考文獻
[1] 方積乾. 衛生統計學[M]. 6版. 北京: 人民衛生出版社, 2008.
[2] 李立明. 流行病學[M]. 5版. 北京: 人民衛生出版社, 2003.
[3] 孫振球, 徐勇勇. 醫學統計學[M]. 4版. 北京: 人民衛生出版社, 2014.
[4] 鄧偉, 賀佳. 臨床試驗設計與統計分析[M]. 北京: 人民衛生出版社, 2012.