王瑞平 李斌
摘 要 數據統計分析是臨床醫學研究中的一個重要組成部分。在臨床研究實踐中,有些研究結果存在統計分析錯誤或不規范的現象,主要系由醫務人員對臨床研究數據分類認識不足、選用的統計分析方法不恰當所致。本文從認識臨床研究數據分類的重要性入手,就臨床研究數據分類以及不同分類數據的相互變換方法和原則等作一簡要介紹,為醫務人員規范開展臨床研究提供參考。
關鍵詞 臨床研究 數據分類 統計分析
中圖分類號:C81 文獻標志碼:C 文章編號:1006-1533(2022)01-0003-04
基金項目:國家重點研發計劃“中醫藥現代化研究”重點專項項目(2018YFC1705301);國家自然科學基金面上項目(82174383);上海申康醫院發展中心管理研究項目(2020SKMR-32);上海市皮膚病醫院引進人才科研基金項目(2021KYQD01)
The classification and transformation of data in clinical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Statistical analysis of data is an integral part of clinical medical research. In clinical research practice, some research results have statistical analysis errors or irregularities, which are mainly caused by the insufficient understanding of medical staff to the classification of clinical research data and the selection of inappropriate statistical analysis methods. Starting with understanding the importance of clinical research data classification, the classification of clinical research data and the methods and principles of mutual transformation of different classified data are briefly introduced in this article so as to provide reference for medical personnel to carry out clinical research in a standardized manner.
KEy wORDS clinical research; data classification; statistical analysis
數據統計分析是臨床醫學研究中的一個重要組成部分[1-4]。臨床研究實踐中往往存在研究結果統計分析錯誤或不規范的現象,主要系由醫務人員對臨床研究數據分類的認識不足、選用的統計學描述和檢驗指標不規范所致。為此,本文就臨床研究數據分類以及不同分類數據的相互變換方法等作一簡要介紹。
臨床研究數據分類不僅是統計分析的基礎,而且在臨床研究設計階段的病例報告表制作和調查問卷變量選擇中也起著重要作用。如圖1所示,對于研究數據變量“age(年齡)”“gender(性別)”“pasi(PASI,銀屑病皮損面積和嚴重性指數)”,SPSS 16.0軟件分析后會給出全距、最小值、最大值、平均值、標準差和方差的描述結果,還會給出頻數和構成比的描述結果。但對于每一個變量,如何選擇準確的指標來進行數據描述,這就需要研究者熟悉臨床研究數據的分類。
如圖2中的表1所示,年齡、身高、體重(體質量)和BMI(體質量指數)均屬于定量變量,需選擇合適的指標來描述定量變量的集中趨勢和離散趨勢。描述定量變量集中趨勢的指標主要包括平均值、中位數和眾數,描述定量變量離散趨勢的指標包括標準差、方差、全距和四分位數間距等。如何選擇合適的指標來描述定量變量,需事先知曉定量變量的分布情況:如定量變量符合正態分布或近似正態分布,如圖2表1中的BMI,一般采用均數±標準差來表示;如不符合正態分布,如圖2表1中的年齡、身高和體重(體質量),一般采用中位數和四分位數間距來表示。


臨床研究中,統計分析方法的選擇也依賴于數據分類。圖3所示是某雜志刊發的一篇論文的表1,其展示了治療組和對照組患者在治療前和治療后4、8、12周時PASI積分的差異。不過,該表1中的數據可能存在以下問題:①PASI積分屬于定量變量,但論文中沒有交代其是否符合正態分布,直接用均數±標準差來描述是否合適?②PASI積分在不同時間點的比較均采用了t檢驗,沒有考慮各評估時間點之間的相互影響。③PASI積分測量有4個時間點,屬于重復測量數據,應采用重復測量方差分析,探討治療因素、時間因素、治療因素和時間因素的交互效應對PASI積分的影響。

臨床研究中,相關圖表的繪制也應根據數據的類型及其特點來選擇合適的表達形式。如圖4所示,圖1-a采用直條圖和誤差線展示ACS(急性冠脈綜合征)和EAP(勞力性心絞痛)患者外周血sLOX-1(可溶性血凝素樣氧化低密度脂蛋白受體-1)水平的差異,這是因為經正態性檢驗,外周血sLOX-1水平為符合正態分布的定量變量,用均數±標準差表示其集中趨勢和離散趨勢,繪圖時則需要選擇直條圖和誤差線來表達;圖2-b采用箱式圖展示ACS和EAP患者外周血Lab(LAB,含載脂蛋白B的血凝素樣氧化低密度脂蛋白受體-1配體)水平的差異,這是因為經正態性檢驗,外周血Lab(LAB)水平為不符合正態分布的定量變量,用均數±標準差表示其集中趨勢和離散趨勢不合適,應選擇中位數和四分位數間距表示,繪圖時則需要選擇箱式圖而不是直條圖和誤差線來表達。由此可見,在繪制臨床研究相關圖表時,應根據數據的類型來選擇合適的圖表表達。定性變量數據,可選擇直條圖、復式條圖、百分條圖等來表達。定量變量數據,如數據符合正態分布,選擇直條圖和誤差線來表達;不符合正態分布,選擇箱式圖來表達。
開展數據統計分析時,如圖5中的表2所示,對于多分類定性變量LDL-C(低密度脂蛋白膽固醇)水平,組間比較采用卡方檢驗。但在進行多因素logistic回歸分析時,圖5表4中的LDL-C水平就需要設置啞變量后再進入回歸模型,否則分析結果就會出現錯誤。

總之,在開展臨床研究時,數據分類識別十分重要。數據分類在研究設計、調查問卷和病例報告表制作、統計分析等過程中均起著重要作用,需要正確掌握。
2 臨床研究數據分類
臨床研究中的數據整體上可分為定量變量、定性變量和日期型變量3類,日期型變量一般不能直接用于統計分析,需通過變量變換轉換為定量變量或定性變量后才能進行統計分析。

2.1 定量變量
定量變量又稱為計量資料變量,其是連續的數據,如臨床研究中受試者的年齡、身高、體質量等人口學信息,紅細胞計數、血小板計數、血紅蛋白值等血常規檢查指標值等。定量變量根據取值情況可再分為連續型定量變量和離散型定量變量,其中連續型定量變量為可取實數軸上任何值的變量,如身高、體質量和BMI;離散型定量變量為只能取整數值的變量,如醫生每月完成的門診量和手術臺數、患者接受的血常規檢查次數等。常規情況下,連續型定量變量能通過四舍五入法轉換為離散型定量變量,而離散型定量變量則可通過科學計數法轉換為連續型定量變量(如某科室年完成手術13 000臺,可轉換為1.30×104臺/年)。
2.2 定性變量
定性變量又稱為計數資料變量、分類變量,通常以類別來區分定性變量的屬性。根據分類的不同和類別的特征,定性變量可進一步細分為二分類變量、多分類無序變量和多分類有序變量。二分類變量是指分類只有兩個互斥類別的定性變量,如性別(男/女)、考試成績(及格/不及格)、手術(成功/不成功)等。多分類無序變量是指分類類別個數≥3個的定性變量,且不同類別之間無順序、優劣等之差異,如血型(A型/B型/AB型/ O型)、職業(公務員/商業服務員/自由職業者/企事業單位工作人員/其他)、民族(漢族/回族/滿族/其他)等。多分類有序變量是指分類類別≥3個的定性變量,但不同類別之間有順序、優劣等之差異,如文化程度(文盲/小學/初中/高中/大學及以上)、考試成績(不及格/良好/優秀)、BMI(體質量過輕/體質量正常/超重/肥胖)等。
定性變量中的多分類變量能通過分類類別的合并轉換為二分類變量,如對于多分類有序變量考試成績(<60分/(60 ~ 80)分/>80分),如將(60 ~ 80)分和>80分合并為≥60分,即可轉換為二分類變量(<60分/≥60分)。
2.3 日期型變量
臨床研究中往往要采集受試者的出生年月、入組時間、干預結束時間等變量信息,這些變量就是日期型變量。日期型變量有兩種記錄格式,即年/月/日和月/日/年,如出生日期可記錄為1983/09/01或09/01/1983。須指出的是,日期型變量一般不能直接用于統計分析,需要通過變量變換轉換為定量變量或定性變量后才可以用統計分析軟件進行處理。可用“(調查日期-出生日期)/365.25”算式計算得到年齡(歲),用“(調查日期-手術日期)/365.25×12”算式計算得到術后時間(月)。
3 變量變換的原則和應用
上面介紹了臨床研究數據的分類,包括定量變量、定性變量和日期型變量。在實際應用時,往往需要將某些變量進行轉換后才可用于統計分析。如在采集“年齡”這個數據時選擇的是日期型變量,就需要將其先通過變量變換轉換為定量變量,或進一步轉換為定性變量,才能進行統計分析。在進行變量變換時,應遵從“高級別→低級別”的轉換原則。變量的級別自高至低依次為日期型變量、定量變量、定性變量;在定性變量中,多分類變量的級別高于二分類變量。因此,日期型變量可轉換為定量變量,定量變量可轉換為定性變量,多分類變量可轉換為二分類變量,反之則不允許。此外,在將定量變量轉換為定性變量時,還要遵從“分類標準化和可比性”的分類原則。如在將定量變量年齡轉換為定性變量時,根據壽命表編制規則,年齡組的選擇可以是每5或10歲一組,一般不能隨意分組;在將定量變量BMI轉換為定性變量時,應參照WHO的相關規定,分為體質量過輕(BMI<18.5 kg/m2)、體質量正常(18.5 kg/m2≤BMI<24 kg/m2)、超重(24 kg/m2≤BMI<28 kg/m2)和肥胖(BMI≥28 kg/m2)4組。
在臨床研究的設計、實施和統計分析過程中,合理設置變量并正確識別變量的類別和掌握不同變量類別之間的變換原則十分重要。在設計、制作病例報告表時,能用定量變量采集的數據就不要選擇定性變量采集,能用多分類變量將數據分類做得更細的就不要選擇二分類變量采集數據。例如,在采集患者年齡數據時,將問題設置為“您的實足年齡為____歲?”優于將問題設置為“您的實足年齡為幾歲?A. <18歲;B. 18 ~ 25歲;C. 26 ~ 30歲;D. >30歲”,因為用定量變量采集的數據可以轉換為定性變量來進行統計分析,但用定性變量采集的數據不能轉換為定量變量來進行統計分析。因此,在設計臨床研究的調查問卷或病例報告表時,一定要在整體上把控好,依據具體情況設置最合理的變量類別來采集數據;而在統計分析時,則應靈活運用不同變量類別之間的變換原則,選擇合適的變量進行類別轉換,進而選擇合適的統計分析方法來進行統計分析。
參考文獻
[1] 方積乾. 衛生統計學[M]. 6版. 北京: 人民衛生出版社, 2008.
[2] 李立明. 流行病學[M]. 5版. 北京: 人民衛生出版社, 2003.
[3] 孫振球, 徐勇勇. 醫學統計學[M]. 4版. 北京: 人民衛生出版社, 2014.
[4] 鄧偉, 賀佳. 臨床試驗設計與統計分析[M]. 北京: 人民衛生出版社, 2012.