王瑞平 李斌
摘 要 規范、高質量的數據庫的創建是臨床醫學研究的重要環節,是后續數據統計分析和成果呈現的重要基礎,也是進而發表高質量的科研論文的重要保障。本文概要介紹臨床研究常用的數據庫類型(Excel數據庫、EpiData數據庫、SPSS數據庫和EDC數據庫)及其創建方法,重點介紹數據庫變量設置、數據錄入規則和數據質量控制要點等內容,為醫務人員科學開展臨床研究提供參考。
關鍵詞 臨床研究 數據庫創建 質量控制 數據錄入
中圖分類號:TP392; C81 文獻標志碼:C 文章編號:1006-1533(2022)01-0010-05
基金項目:國家重點研發計劃“中醫藥現代化研究”重點專項項目(2018YFC1705301);國家自然科學基金面上項目(82174383);上海申康醫院發展中心管理研究項目(2020SKMR-32);上海市皮膚病醫院引進人才科研基金項目(2021KYQD01)
Key points for database creation and quality control in clinical medical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT The establishment of a standardized and high-quality database is an important link in clinical medical research, a basis for subsequent data statistical analysis and results presentation and also a guarantee for the publication of highquality scientific research papers. This paper briefly introduces the database types commonly used in clinical research (Excel database, EpiData database, SPSS database and EDC database) and some methods for their creation, with emphasis on database variable setting, data entry rules and key points of data quality control, so as to provide reference for medical staff to scientifically carry out clinical research.
KEy wORDS clinical research; database creation; quality control; data input
數據庫創建是臨床醫學研究中的重要環節。規范、高質量的數據庫是后續數據統計分析和成果呈現的重要基礎。為幫助醫務人員在開展臨床研究時能夠選擇合適的數據庫,本文就常用數據庫的類型、創建方法和質量控制要點等作一概要介紹。
1 臨床研究數據庫的分類與特點
臨床研究中常用的數據庫包括Excel數據庫、 EpiData數據庫、EpiInfo數據庫、SPSS數據庫和EDC數據庫等,歸納起來可分為4類。
1)應用Office辦公軟件創建的數據庫,主要是指Excel數據庫。Excel數據庫具有上手容易、創建簡單、數據錄入簡便等特點,適用于小規模臨床研究。
2)應用統計分析軟件創建的數據庫,包括EpiInfo數據庫和SPSS數據庫。創建這類數據庫需使用者有應用統計分析軟件的基礎和經驗,并熟悉數據庫的架構和設置要求。如在應用SPSS軟件創建數據庫時,使用者需先在“Variable View (變量窗口)”中設置變量名,然后才能在“Data View (數據窗口)”中錄入數據。
3)應用專為輔助臨床研究而開發的數據庫軟件創建的數據庫,以EpiData數據庫為代表。EpiData軟件具有數據庫創建、質量控制設置、數據錄入、數據庫合并、一致性檢驗和數據導出等功能,由于其功能強大、使用方便且開源免費,受到越來越多臨床研究者的青睞,近年來在臨床研究和流行病學調查中的應用越來越廣泛。
4)應用電子數據捕獲系統創建的數據庫,以EDC數據庫為代表。電子數據捕獲系統是一種適用于臨床研究數據采集、傳輸和管理的平臺軟件,其采用國際通用的臨床數據交換標準協會(Clinical Data Interchange Standards Consortium, CDISC)的標準來創建數據庫,能實現EDC數據庫與醫院的醫院信息系統、實驗室信息管理系統等的互聯互通并從中直接獲取研究所需數據,同時還有使在異地開展的多中心臨床研究的數據錄入同質化的功能,目前在各期臨床研究、特別是多中心臨床研究中應用廣泛。
2 臨床研究數據庫的創建方法
臨床研究數據庫的創建基本上包括變量名設置、變量屬性定義和變量間的邏輯關聯設定3個步驟。根據4類臨床研究數據庫的內部架構、特點和核心要求,它們的創建方法和操作步驟有所差異和區別。
2.1 Excel數據庫
以研究者要根據調查問卷創建一個Excel數據庫為例,假設調查問卷中的主要內容包括:①一般人口學特征,如年齡、性別、文化程度、調查日期;②煙草暴露情況,包括是否吸煙、每天吸煙量、吸煙年數;③疾病情況,是否罹患腫瘤、高血壓、糖尿病等。首先,研究者根據調查問卷中的內容設置變量名。變量名可直接使用英文譯名或英文字母加數字命名。例如,對于年齡,可以設置變量名為“age”或“A1”,推薦直接使用英文譯名“age”。如將變量名設置為“A1”,則需做好備注,以方便后期數據錄入時識別。將所有設置好的變量名錄入Excel數據庫的第一行(圖1)。其次,定義每個變量的屬性。例如,年齡、每天吸煙量、吸煙年數為定量變量,對它們需同時標記清楚變量的單位;性別、文化程度、是否吸煙,以及是否罹患腫瘤、高血壓、糖尿病為定性變量,對它們需同時標記清楚變量的分類。最后,統一設定變量間的邏輯關聯。例如,當“smoking”為“no”時,其后的“number_smoke”和“year_smoke”均應自動跳過而不能錄入數據。完成以上3步后,Excel數據庫即告創建完成,可進行數據錄入了。

2.2 SPSS數據庫
仍以上述調查問卷中的主要內容為例,應用SPSS 16.0軟件創建SPSS數據庫的步驟如下:首先,研究者根據調查問卷中的內容設置變量名。變量名設置需在SPSS的“Variable View”中操作(圖2上部),變量名可直接使用英文譯名或英文字母加數字命名。例如,對于性別,可以設置變量名為“gender”或“A2”,推薦直接使用英文譯名“gender”。如將變量名設置為“A2”,則需做好備注,以方便后期數據錄入時識別。其次,在“Variable View”的“Label”中定義年齡、每天吸煙量等定量變量的單位,在“Variable View”的“Values”中定義性別、文化程度、是否吸煙、是否罹患腫瘤等定性變量的分類。最后,統一設定變量間的邏輯關聯。完成以上3步后,SPSS數據庫即告創建完成。數據錄入需在 SPSS的“Data View”中操作(圖2下部)。

2.3 EpiData數據庫
還是以上述調查問卷中的主要內容為例,應用EpiData軟件創建EpiData數據庫的步驟如下:首先,根據調查問卷在EpiData軟件中建立QES文件(圖3a),其中變量名可直接使用英文譯名或英文字母加數字命名。例如,對于年齡,可以設置變量名為“age”或“A1”。因為EpiData數據庫在數據錄入時有變量問題提醒,故推薦使用英文字母加數字命名變量名。但須注意的是,在采用這種命名方式時,變量名與后面的問題提醒部分之間一定要用空格隔開,如“A1 年齡 □□歲”。其次,根據變量類型設置數據錄入格式。數值型變量用“#”表示,1個“#”代表1個數字;字符型變量用“_”表示,每2個“_”代表1個漢字;日期型變量用“yyyy/mm/dd”或“mm/dd/yyyy”表示。將設置好變量名和數據錄入格式的QES文件存盤,然后根據QES文件生成REC文件(圖3b)并存盤,這時就已可以進行數據錄入了(圖3c)。最后,為保證數據錄入的準確性和錄入效率,需為數據庫建立CHK文件(圖3d),設置數據錄入質量控制相關要求,主要包括Range/Legal(合法錄入值)、Jump(跳轉)、Must enter(必須錄入)和Repeat(重復)4項內容。
2.4 EDC數據庫
與上述3種數據庫的創建方法類似,EDC數據庫的創建也主要包括變量名設置、變量屬性定義和變量間的邏輯關聯設定3個步驟。以上海申康醫院發展中心創建的EDC數據庫“CRIP數據庫”(圖4)為例,首先是采用CDISC標準在“DEV(開發環境)”中設置變量名。變量名應具有國際通用性,以方便多中心臨床研究數據的拼接和后續開展合并分析。其次,與EpiData數據庫創建中建立CHK文件類似,在“DEV”中對每個變量設置數據錄入質量控制相關要求,并進行試運行模擬測試。最后,經模擬測試無誤后鎖定數據庫,推送至“PROD(生產環境)”后即可正式使用了。EDC數據庫的創建需要專門的知識和技能,一般多委托專業公司開發。
3 臨床研究數據庫的質量控制要點
為保證所創建的臨床研究數據庫的質量,研究者需按照一定的原則和要求創建數據庫,規范數據錄入操作,并對數據庫中的數據進行質量控制。
首先,對于小規模臨床研究,優先選用EpiData數據庫,通過建立CHK文件來保障數據錄入的準確性和錄入效率,并對雙錄入數據開展一致性核查,確保數據的準確性。如果研究的數據量較小,也可考慮選用Excel數據庫或SPSS數據庫,以節減建庫時間。須指出的是,在Excel數據庫和SPSS數據庫中,數據錄入時因無邏輯校對和質量控制,數據錄入操作務必認真、仔細,避免出錯。對于規模較大、變量較多的臨床研究,特別是多中心臨床研究,在經費允許的情況下,建議委托專業公司開發EDC數據庫。

其次,在數據錄入時,各種臨床研究數據庫都要求錄入的是阿拉伯數字,而不能錄入漢字(如男、女,是、否等),否則后續數據統計分析無法進行。在數據錄入前,研究者應全面審核調查問卷的內容,保證調查問卷內容清晰和邏輯正確。對于數據量較大的臨床研究,可在數據錄入開始前對數據錄入人員進行統一培訓,以保證數據錄入的準確性和一致性。
再次,對于已完成數據錄入的數據庫,在正式開展數據統計分析前應先完成數據質量控制工作。數據質量控制的主要內容包括:①數據的完整性。研究者應全面核查數據庫變量數據的缺失情況,對于主要結局變量數據,爭取做到無缺失。如主要結局指標和核心變量數據存在缺失,應采用數據填補技術(均值填補、k近鄰填補、回歸填補、隨機森林填補、多重插補和熱卡填充等法)進行數據填補[1]。②數據的邏輯性。重點核查數據間的邏輯關聯是否正確,身高、體質量、年齡等一般人口學特征是否存在不符合邏輯的異常數據,以及時間數據間的邏輯性等。

最后,為保證數據錄入的真實性,需抽取一定比例(一般為5% ~ 10%)的原始調查問卷與數據庫中錄入的數據進行核對,以評價整個數據庫的數據錄入質量。如果核對結果發現錄入的正確率<80%,則判定數據庫的數據錄入質量較差,通常建議重新進行數據錄入。只有在完成上述所有質量控制工作且數據錄入質量評價結果為良好后,才能鎖定數據庫,并基于鎖定的數據庫開展后續的數據統計分析。
參考文獻
[1] 李業錦, 趙芃, 楊崳惠, 等. 隊列研究中縱向缺失數據填補方法的模擬研究[J]. 中華流行病學雜志, 2021, 42(10): 1889-1894.