王瑞平 李斌
(上海市皮膚病醫院臨床研究與創新轉化中心 上海 200443)
EpiData 軟件是丹麥歐登塞的一個非盈利組織開發并推廣,是一款免費的數據管理軟件[1]。在應用EpiData軟件完成數據庫建立后,研究者就可以使用這個數據庫進行數據錄入。考慮到有些調查研究的樣本量比較大,因此在數據錄入時須要邀請多名數據錄入員完成紙質版數據的錄入;另外,有些研究的數據來源多樣,有時則須要把不同來源的數據合并在一起。遇到這些情況時,就須要應用到數據的“縱向合并”和“橫向合并”功能。此外,為了提高數據錄入的質量并能夠檢測出錄入錯誤,許多情況下須要將紙質問卷數據信息進行雙人雙遍錄入,將雙錄入的結果進行一致性核對,便可以發現錄入不一致的地方,這時便會用到EpiData 軟件的“一致性檢驗”功能。本文基于前期數據庫已完成建立的基礎上,介紹EpiData 軟件在數據庫合并和一致性檢驗中的應用方法和須注意的細節。
數據的縱向合并是指用于連接數據結構相同或相似的2 個數據文件,操作過程中2 個文件不發生任何變化,只是把2 個數據文件的“合集”內容中的數據合并在一起,增加數據的份數[2]。例如,仍以《上海醫藥》2023 年第44 卷第13 期“臨床研究規范”欄目發表的《應用EpiData 軟件創建臨床研究電子數據庫》一文中建立的“流動人口特應性皮炎患者現況調查”數據庫(圖1)為例[3],在后續的研究中邀請A、B、C 等3 名數據錄入員進行數據庫錄入。其中,A 錄入員完成800 份問卷,B 錄入員完成1 000 份問卷,C 錄入員完成700 份問卷,通過數據庫的縱向合并,最后得到包含共計2 500(即800 +1 000 +700)份記錄的數據庫。數據庫縱向合并的操作方法:打開EpiData 軟件菜單列中“數據導入/導出”的次級菜單,點擊“縱向追加記錄和橫行添加字段”打開對話框(圖2),然后打開要合并的數據庫記錄(record,REC)文件A(崔亮亮.rec)和REC 文件B(馬兵成.rec)后,點擊“確定”打開新的對話框,根據提示選擇縱向連接“追加”的類型,把合并后的目標文件保存在“REC 數據文件C”(須自行指定保存位置,并自行定義合并后的文件名稱,如“合并1”),單擊“追加/Append”,完成操作。后續,重復上述操作,將“合并1.rec”和“謝榮恒.rec”合并,直到把全部數據庫合并為一個完整的數據庫為止。

圖1 EpiData數據庫錄入界面

圖2 EpiData軟件數據縱向合并方法示意圖
數據的橫向合并是2 個數據庫中結構不同的文件橫向連接,但前提是2 個文件中必須有相同的標示變量或關鍵變量,為了提高連接的成功率,用戶最多可以指定3 個指示變量,指示變量不一定是在核對文件中指定為key 或key unique,但必須保證其在2 個文件中都存在,同時指示變量在數據文件中不能有重復。為了便于操作,建議指定key unique 變量為指示變量。例如,在先前建立的“流動人口特應性皮炎患者現況調查”數據庫中,如果一般人口學特征信息為數據庫A,共2 500 份記錄,而實驗室檢測指標為數據集B,同樣是2 500 份記錄。如果要把數據庫A 和數據庫B 中每一個人的信息合并在一起,就會用到數據庫的橫向合并,最后得到一個有2 500 份同時包含A、B 數據庫信息的記錄的數據庫。數據庫橫向合并的具體操作方法為,打開EpiData 軟件菜單列中“數據導入/導出”的次級菜單,點擊“縱向追加記錄和橫向添加字段”打開對話框(圖3),然后打開要合并的REC 文件A 和REC 文件B 后,點擊“確定”打開新的對話框,根據提示選擇縱向連接“合并”的類型,選擇合并所必需的匹配字段,把合并后的目標文件保存在“REC 數據文件C”(自行指定的保存位置),單擊“合并/Merge”,完成操作。

圖3 EpiData軟件數據橫向合并方法示意圖
數據庫的一致性檢驗是將同一個研究中的紙質問卷內容進行雙遍錄入后,進行一致性檢驗,其目的是對錄入的數據進行質量控制(以下簡稱質控),進而提高數據庫的正確性[4-5]。以“江西省萍鄉市一起集體發熱疫情”數據庫為例,該調查共采集98 名發熱并伴有呼吸道癥狀患者。該調查應用EpiData 軟件建立數據庫,然后將98名發熱病人的信息進行了雙人雙遍錄入,最后應用一致性檢驗對數據錄入質量進行質控。應用EpiData 軟件開展一致性檢驗的步驟如下:在EpiData 軟件過程工具條中選擇“5 數據處理”,打開次級菜單“一致性檢驗”對話框。如圖4 所示,在第1 個REC 文件A 中選擇第一遍錄入的數據庫,在第2 個REC 文件B 中選擇第二遍錄入的數據庫,然后點擊“確定”打開新的對話框,根據提示選擇匹配字段(key unique 變量),根據研究需要進行勾選(如勾選“不考慮已被刪除的字段”“不考慮文本字段”“報告字段類型的區別”等選擇項)。最后,點擊“確定”,打開一致性檢驗報告,完成操作即可。

圖4 EpiData軟件對雙遍錄入數據的一致性檢驗
為使雙錄入后的一致性檢驗操作更便捷,首先,研究人員須保證雙遍錄入的數據庫中至少有一份數據庫的錄入順序是從編號為“0001”的第一份問卷開始依次錄入的,這樣在后續根據一致性檢驗報告修改數據庫時方便查閱原始數據,且利于查找數據庫中的每一份記錄。其次,在根據一致性檢驗報告修改調整錄入的數據庫時,建議由3 個人組成一個數據庫修改質控小組。質控小組成員A 負責第一遍錄入的數據,成員B 負責第二遍錄入的數據,成員C 負責一致性檢驗報告和查閱原始數據。質控開始時,質控小組成員C 查看一致性檢驗報告,找出兩遍錄入不一致的問卷編號及報告提示的每一個不一致的變量,然后翻閱原始記錄,核對該變量正確的選項,如果是第一遍錄入出錯,則告知質控小組成員A 修改;如果是第二遍錄入出錯,則告知質控小組成員B 修改;如果第一遍和第二遍錄入的結果都不正確,質控小組成員C 將同時告知質控小組成員A 和質控小組成員B 修改。由此,根據上面的規則,完成一致性檢驗報告中所有錯誤信息的質控核對。最后,將修正后的第一遍數據庫和第二遍數據庫再次進行一致性檢驗,如果還有錯誤則繼續修改;如果沒有錯誤,便是完成了這項工作。
完成數據庫一致性檢驗后,最后一步工作便是將數據庫導出,隨后應用常用的統計分析軟件進行數據分析并撰寫報告。目前,EpiData 數據庫支持導出的格式包括TXT 文件(文本文件)、DBF 文件(dBase Ⅲ文件)、XLS 文件(Excel 文件)、DTA 文件(Stata 文件)、SPS文件(SPSS 文件)和SAS 文件(SAS 文件),研究者可以根據自己的需要選擇具體的導出格式。操作步驟如圖5 所示:在EpiData 軟件過程工具條中選擇“6 數據導出”,選擇導出格式,然后打開需要導出的數據庫,打開新的對話框,然后點擊“確定”即可。

圖5 應用EpiData軟件導出數據庫