東南大學公共衛生學院流行病與衛生統計學系(210009)
蔡 燁 王崇旭 劉 沛△
近年來,國內對臨床試驗電子化的重要性和必要性的認識逐漸加深,我國正處于從傳統紙質研究向電子化過渡的階段[1]。目前臨床試驗中使用的病例報告表(case report form,CRF)仍以紙質為主,傳統基于紙質文檔收集數據的方式不論是效率還是準確度都存在一定問題,且基本無法實現數據的交換和共享?;谖覈F階段臨床試驗實際,為實現臨床試驗數據的電子化管理,常常需要對原本設計的紙質CRF按照國際通行的臨床數據獲取協調標準(clinical data acquisition standards harmonization,CDASH)進行標準化和電子化轉化,生成電子病例報告表(eCRF)[2],使其可以在電子數據采集系統中使用,從而提高臨床試驗效率和試驗質量[3]。CDASH屬于臨床數據交換標準協會(the clinical data interchange standards consortium,CDISC)的一系列標準之一,自問世以來就受到了國內外藥物監管部門、制藥企業和相關研究人員的關注,已有一定數量的解讀[4]和應用[5],但基于CDASH探討紙質CRF向eCRF轉化的方法卻鮮有報道。
CDASH 作為CDISC的重要組成部分,其主要功能是定義了臨床試驗數據采集的基本標準[6]。CDASH將數據采集信息分為多個域,每個域中包含特定的字段信息,并將不同的數據采集字段分為三類:強烈推薦(HR)、推薦或有條件推薦(R/C)和可選(O)供使用者區分和選擇。每個域中包含了數據采集字段完整的問題描述、簡短提示、SDTM或CDASH變量名稱、BRIDG(biomedical research integrated domain group)模型映射思路、采集目的、CRF填寫指南、補充信息及核心類別標識共八個內容。CDASH文件中給出了除通用標識符(如受試者編號)、通用時間變量(如訪視名稱、日期)之外的16個域列表,見表1。其中可以涵蓋絕大部分疫苗臨床試驗中涉及的變量域,如人口統計學、生命體征、入選/排除標準、不良反應/事件、既往和伴隨用藥等,因此疫苗臨床試驗的eCRF可以參考CDASH標準進行制作。

表1 CDASH域列表信息
CDASH域列表內信息按照該變量在CRF中收集順序進行排列,這與紙質CRF的設計順序相仿,但紙質CRF變量分域不明確,通常以事件(如訪視)作為單位,數據結構單一,且不同研究或不同研究者設計的CRF在問題表述和答案選項設置上存在差異,若運用CDASH進行分域、選擇統一的變量名稱和問題描述,適當的轉換數據結構,并結合相關的受控術語,則可以彌補這些缺點。
從實際應用出發,直接從零開始設計全新的eCRF有一定難度,可以將紙質CRF作為參考進行修改和設計[7],一般情況下,修改流程如圖1。

圖1 紙質CRF轉化為eCRF流程
1.分域 在CDASH中,域是指某一特定主題下的一組觀測記錄。將一些用于收集同一主題的變量歸納至一個域內,即分域。以人口統計學域(DM)為例,在紙質病例報告表中通常不獨立存在,常與生命體征、篩查信息等處于同一模塊,且收集的變量不固定,在數據識別和數據結構上存在一定缺陷。在CDASH標準中,DM域的數據結構和變量內容穩定,各個變量有固定的名稱,熟悉CDASH標準的研究人員不用看原始CRF就能識別信息并及時發現錯誤。如在國外優秀的一款開源臨床試驗數據管理軟件OpenClinica中,生成的eCRF與excel一一對應,如建立一個DM域的excel,只放入DM域的變量即可生成只包含DM域信息的eCRF,通過系統編譯可生成對應的數據錄入界面[8-9]。大部分其他域的信息也可以通過同樣的方法,查閱CDASH標準變量命名,進行域的分離和標準化設置。OpenClinica系統對eCRF“碎片化”生成的支持也是進行分域操作的基礎。
2.分配變量名 CDASH域列表中包括了最常用的且易于被大多數臨床試驗工作者認同的數據采集字段,即變量。填寫eCRF時使用域列表中提供的數據采集字段CDASH變量名稱及問題描述,這些描述可作為CRF上的標簽或該字段的填寫幫助文本,在eCRF制作時可作為excel中Left_Item_Text的內容[9]。
在進行變量名稱的分配和設置時,需要考慮數據的橫向和縱向結構。橫向數據結構是一種非標準化的數據結構,每個測試對應一個變量,一條測試通常指一條觀測結果。縱向數據結構是一種標準化的數據結構,每個測試對應一條記錄,有利于數據的采集、處理和清理。應用CDASH建庫可以實現數據從橫向結構到縱向結構的轉化。如人口統計學域中的信息,不管在紙質CRF中還是CDASH標準中都屬于橫向型數據結構,則可以直接應用CDASH標準推薦的變量進行數據庫設計。CDASH中多數發現域的內容采用縱向數據結構,如入選/排除標準、實驗室檢查結果、生命體征等,即每個測試對應一條記錄。這些域的數據結構在紙質CRF和CDASH中不統一,除了按照CDASH標準自行設置變量名等一系列信息進行橫向數據收集外,若要直接應用標準中推薦的縱向結構變量就需要進行一定的轉化[1],轉換方法結合后面的實例敘述。
3.設置問題回答選項:這里涉及到CDISC受控術語的概念,所謂受控術語是指對存在多種可能性的數據采集字段所規定的標準使用術語,通常為常用醫學縮略語。如在病例報告表中通常會使用一系列的問題來收集信息,其中大多數是單選或者復選型回答,在一些特定的域中,如:CM(既往和伴隨用藥)、DA(藥物分發和回收記錄)、EG(ECG檢查結果)、EX(暴露)和VS(生命體征),CDASH為數據采集字段收錄了使用頻繁的術語,因此在回答選項的設置時可以參考受控術語減少CRF間的差異。
4.使用EDC改進eCRF:從CDASH角度出發將CRF改造完成后,接下來要結合EDC(如OpenClinica)實現CRF的電子化。OpenClinica采用Excel表格作為載體,導入到系統內生成eCRF。OpenClinica提供原始空白CRF模板,研究人員按照指導和需求填寫Excel表格,依次完善CRF信息(CRF)、各章或不同標簽頁(sections)、同一標簽頁內各組(groups)、各條目(items)信息。完成的excel上傳導入系統之后,即可生成電子化的CRF頁面。但這種初始狀態下的eCRF存在一些不足,如選擇無法撤銷、文本框顯示長度過短內容無法顯示完全、無法實現默認內嵌文本的設置等,這些進階的設置需要借助JavaScript腳本實現。
除此之外,根據EDC錄入數據的操作過程和特性,在EDC中運用CDASH標準也要進行一些靈活的變換,例如對臨床試驗實施具有重要意義的事件(里程碑事件),如獲得知情同意、隨機化等的記錄,通常數據量小,且位置不固定,CDASH標準允許將其記錄在CRF中方便的地方,可能會與其他域的信息處于同一模塊,數據采集完成后需要映射到遞交的DS(實施情況)域。
以某疫苗臨床試驗為例,嘗試將紙質CRF按照CDASH中的要求進行修改,轉化為eCRF,以供上傳至EDC進行數據錄入。該CRF根據試驗進行的時間進程設計了入組篩查、多個訪視及研究結束頁等內容,各個事件間有相似或相同的條目,將同一時間段收集的信息放在一起,并未按照不同的域或一定的變量分類對CRF條目進行劃分。
進行CRF電子化修改時,第一步是根據原始CRF的內容,按照CDASH標準對條目進行再劃分,使其能對應至CDASH標準中的各個域。參考原始CRF中第一個事件入組篩查記錄的內容,并結合原本放置在封面位置的篩選編號、疫苗編號和姓名縮寫這幾個變量,以此為例進行域的劃分。
入組篩查記錄中收集了七部分內容,包括篩選開始日期、人口資料、知情同意、體檢篩查、問診篩查、合并疾病和分配疫苗編號,其中體檢篩查部分既收集了身高、體重、腋下體溫等生命體征信息,又收集了血樣采集信息、尿妊娠試驗結果等實驗室檢查信息。將這些內容對應至CDASH中的域:(1)DM域:納入受試者的人口統計學信息及其他重要信息如里程碑事件,包括篩選開始日期、人口資料、知情同意及受試者的篩選編號和姓名縮寫;(2)VS域:采集受試者生命體征信息,包括身高、體重及腋下體溫;(3)LB域:采集實驗室檢查結果信息,包括血樣采集(血常規/血生化)及尿妊娠試驗結果;(4)IE域:采集此研究項目的入選/排除信息,包括問診篩查結果;(5)MH域:一般用來采集既往和/或伴隨的病史或者手術史,在此CRF中采集合并疾病信息;(6)DA域:在CDASH中一般用來收集藥物分發和回收記錄,但在此項目CRF中,用來采集分配給受試者的疫苗編號,因為分配的疫苗編號相當于分配的藥物編號。
第二步是為某一域內各個條目分配變量名。以DM域為例,一般在DM域中收集受試者出生日期、性別、族群和人種等人口學資料,數據采集字段相應的CDASH變量為BRTHDAT、SEX、ETHNIC和RACE,其變量信息填寫如圖2?!?DAT”一般表示某日期,如字段簽署知情同意書日期的變量為DMICDAT,DM為域名,IC(informed consent)表示知情同意書,DAT表示采集的是日期,一般包括年、月、日。若有超出推薦范圍的變量,則按照上述統一的命名規則自行擴充命名,一般為域名加上該變量釋義的英文縮寫,變量不能重復并且不能超過八個字母長度,再如DM域中字段是否簽署知情同意書的變量DMICYN,即為DM域中知情同意書(IC)是否簽署(YN),命名上盡量做到簡潔和實意化。其他相似橫向結構內容的域內變量命名參考CDASH指導文件,分配方式相同。

圖2 DM域變量信息
分配變量名時,若該域提倡設置為縱向結構,則情況有所不同。如生命體征域(VS)中,通常會收集身高體重及與研究相關的生命體征信息,在紙質CRF中,通常為橫向結構,即為每一個數據點設置一個變量名,如身高HEIGHT、體重WEIGHT等。但在CDASH的縱向結構中,所有的生命體征名稱分配一個變量,另外設置一個變量儲存所有的結果,表現為身高、體重、血壓等均為一個變量VSTEST的值域,身高、體重、血壓等的測量值都為一個結果變量VSORRES的值域,同時應參考受控術語設置測量單位VSORRESU,以便后期的分析和輸出。縱向數據結構在OpenClinica的excel設置中有一單獨控制選項(GROUP_LAYOUT),當值為GRID時可通過eCRF將數據錄入界面展現為縱向形式,如圖3,并且以縱向數據結構保存。通??v向數據收集結構需要提前設置一些內嵌文本,用來標識所需采集的值域內容,根據OpenClinica的系統特性,該擴展功能可通過在excel的LEFT_ITEM_TEXT變量中填寫JavaScript腳本實現。

圖3 VS域縱向結構數據錄入界面
第三步是為相應的問題設置回答選項。通常在一些選項型問題后設置相應的受控術語作為選項,如在合并用藥CM域,收集字段為劑量單位(CMDOSU),選項設置為單選(radio),參考受控術語設置可選項為mg(毫克)、ug(微克)、mL(毫升)、g(克)、IU(國際單位)、tab(藥片)、cap(膠囊),其中吸入劑這一欄為“---”,此時需要我們自行設置,參考遞交值設置為puff(吸入劑),見圖4。當某字段(如劑量單位)所需要的單位種類超出常用列表時,還可以根據CDASH認可的術語代碼表(如單位代碼表C71620)進行擴展。

圖4 數據采集字段劑量單位(CMDOSU)受控術語設置
當所采集的字段不在推薦術語表中時,其回答的設置可以以原始CRF為準,但相同的回答選項在整個CRF設計過程中應保持一致,比如是否(YN)問題的回答選項應始終保持為:1-是、2-否,不應在后文出現1-否、2-是或3-是、4-否等情況。其他字段受控術語可參考CDASH文件附錄。
最后一步,彌補初始生成eCRF的缺陷,見圖5。根據eCRF需要,編寫相應功能的JavaScript腳本進行數據錄入界面的優化,使界面更具友好性,提升使用感,見圖6。(1)增加了撤銷按鈕,點擊后可撤銷已選項;(2)可根據需要設置文本框長度;(3)可按照原始CRF設置內嵌文本,如上文縱向VS域中內置需要收集的信息。
將各個域的信息完善后,可通過選擇所對應的eCRF組成原來的各個事件,事件入組篩查記錄則由上文所述的域(eCRF)組成,見圖7。
整個病例報告表所需eCRF共16個,見圖8。研究者通過選擇這些eCRF即可組成研究所需所有事件,從實際操作的角度看,各個事件的內容與紙質CRF相同,見圖9。
本文基于CDASH原理,對現有紙質CRF進行變量分域和變量名稱重分配命名,結合EDC建立數據庫,實現了紙質CRF向電子CRF的轉化。誠然,如果按照EDC使用的規范流程,應該直接設計和使用eCRF來收集數據,但本文采用通過紙質CRF向eCRF轉化從而利用CDASH標準的方法,是基于以下兩點考慮:一是這樣做可以降低eCRF設計的難度;二是較適用于現階段我國臨床試驗數據采集的實際情況。雖然國內藥物臨床試驗單位大多知曉臨床試驗數據電子化和標準化的必要性和必然性,但仍處于一個從傳統紙質研究向電子化系統過渡的階段,且對國際化數據標準的了解不乏局限性。與直接設計應用CDASH的eCRF相比,數據管理者設計傳統紙質CRF的操作難度和出錯率都較低,且對設計人員的要求門檻低,更具有通用性。另外,臨床研究者對紙質CRF的內容排版和使用更為熟悉,更方便與負責實施過程的臨床研究人員溝通數據采集細節,避免由于eCRF帶來的知識壁壘。在一些情況下,有的研究由于實施周期較長,設計初期原本是紙質研究,在后期也可借助EDC進行電子化臨床數據管理,此時可通過本文介紹的方法將CRF電子化,并形成符合標準的電子數據。因此,本文介紹的轉化方法對現階段臨床試驗的設計與實施具有實際意義。
通過此次研究,筆者有以下幾點體會與思考:

圖5 原始eCRF頁面圖

圖6 優化后eCRF頁面

圖7 事件入組篩查記錄的eCRF組成

圖8 所有eCRF

圖9 所有事件
(1)基于EDC(如OpenClinica)建庫特性,直接或間接運用CDASH標準可以完成標準數據庫的建立,實現橫向和縱向數據結構的利用,通過模塊化的eCRF使數據庫分域明確,變量集中,有利于數據集向SDTM的抽取和映射。OpenClinica還可以基于單個eCRF某幾個條目進行單獨的數據導出,在某些特定情況下甚至可以直接生成SDTM數據集。
(2)運用CDASH建庫可以提高eCRF的復用性。在研究項目的事件與事件間、研究項目與研究項目間,常常具有相同或相似的數據收集要求,此時可以直接或經少量修改使用標準數據庫中的eCRF,減少數據庫設計時間,從而提高研究效率。如VS域,在之后的訪視中會再次收集相同的信息,此時只需要選中該eCRF直接組合成新的事件即可。
(3)在運用過程中需要注意分域的合理性,既要保證信息的完整,又要提高eCRF的可利用性,且為了便于系統中CRF的管理,eCRF數量不宜過多,因此需要對原始CRF進行仔細的邏輯劃分。有時需要適當地轉換數據收集思路,如收集縱向結構數據時,與傳統紙質CRF差異較大,要正確分辨數據結構,選擇適合EDC使用的數據結構。不同研究項目涉及面廣,變化多,有時會有超出CDASH標準推薦的內容,如疫苗臨床試驗中合并疫苗(CV)域,此時就需要研究者根據CDISC標準進行設計和標準化[10]。靈活準確的應用需要研究人員同時了解CDISC標準和EDC系統,專業性要求較高,知識成本較大。
(4)電子數據采集系統實時錄入的特性對數據庫有很高的設計要求,不能有錯誤和遺漏,一旦出現問題,數據的缺失和遺漏將無法彌補,從而對試驗結果產生嚴重影響。因此,每一次新建數據庫后必須進行錄入測試,以確保數據收集準確、全面。由于使用EDC后資料全部電子化儲存在系統中,出于安全考慮,應用時也要嚴格遵守規范,做好權限設置和數據加密,并設置備份和數據恢復功能,避免操作不當造成的損失[11]。