, , ,
隨著“開放科學、開放數據”的推進與發展,以及科學數據共享協議的實施,科學數據共享的生態環境正在形成,數據管理、信息組織的研究與實踐面臨機遇與挑戰[1]。由于海量開放數據標準不一,科研人員和相關領域決策者想要快速找到可比較、可分析的數據并不容易。因此,如何實現相關領域海量數據的有效管理與整合變得非常重要。
信息時代每天都會產生大量的新數據,新數據將舊數據淹沒或覆蓋,許多極具潛在價值的數據未能得到有效保存和管理,數據的利用率非常低。目前流行病學數據管理方法尚未形成統一的標準和模型,各醫院臨床數據管理中心開發的數據管理平臺也不盡相同,無法實現數據的統一管理和分析。因此需要制定全面的數據管理計劃,實現對海量數據進行科學化管理,即從數據采集、保存和共享的全過程進行數據管理,以確保數據得到良好的描述、存儲,實現可訪問、可重復利用,為研究人員重新使用和理解數據奠定基礎。
近年來,惡性腫瘤的發病率不斷攀升,惡性腫瘤已經成為我國乃至全世界最重要的公共衛生問題之一。
國家癌癥中心發布的中國癌癥報告顯示,2013年我國癌癥發病率為284.55/100 000,即平均每10萬人就有284人新發癌癥,癌癥負擔十分嚴重[2-3]。因此,本文選取腫瘤流行病數據作為分析對象,對科學數據的獲取、處理、分析等環節進行管理研究,詳細闡述數據從采集到發布的全生命周期,為相關科研人員進行科學數據的有效管理與整合提供借鑒,為科學數據的再利用、數據價值的再創造提供參考。
對于規范化管理各類科學數據已有諸多相關研究,如科學數據眾包處理研究[4],國內外開放科學數據的分布及特點分析[5],科學數據共享模式選擇與情景分析[6],大數據環境下的科學數據共享模式研究[7]等。不同組織機構根據管理對象和使用場景提出了若干數據生命周期模型,如DCC審編生命周期模型(DCC Curation Lifecycle Model)[8]、UKDA數據生命周期模型(UK Data Archive Data Lifecycle)[9]、DataONE數據生命周期模型(DataONE Data Lifecycle)[10]、USGS科學數據生命周期模型(The USGS Science Data Lifecycle Model)[11]等。這些模型分別從不同角度描述了數據從產生、收集、描述、存儲、發現、分析到再利用的生命周期[12]。其中,由英國數字審編中心(Digital Curation Center,DCC)提出的DCC審編生命周期模型,可指導機構或組織制定數據管理活動方案、構建標準與技術框架等,其適用對象是數據庫;由英國數據倉儲(UK Data Archive,UKDA)提出的UKDA數據生命周期模型,是面向社會經濟研究數據的一種環形結構;由DataONE領導團隊(DataONE Leadership Team)和DataONE社區共同提出的DataONE數據生命周期模型,是面向環境科學數據的一種環形結構。
由美國地質調查局(U.S.Geological Survey,USGS)提出的USGS科學數據生命周期模型,是密切圍繞科學研究的全生命周期的一種鏈式結構,其適應對象為各領域科學數據。
USGS是面向科研過程提出的一種用來指導和說明數據管理活動與項目流程的框架,涵蓋了研究數據從概念、保存到共享的全過程[13],包括數據管理計劃、數據獲取、數據處理、數據分析、數據保存、數據出版與共享6個關鍵環節。各環節可相互協作形成有機整體,亦可根據需要進行調整,以適應不同領域的應用(圖1)。USGS模型可以為管理人員評估和改進科學數據的管理方法提供幫助,為科研人員做好數據的整合與管理工作提供指導,進而促進科學數據管理的發展。

圖1 USGS數據生命周期模型
考慮到腫瘤領域科學數據數量大、來源多樣、標準不一等特點,本文以USGS數據管理生命周期模型為指導框架,初步構建了腫瘤科學數據的管理流程。具體流程見圖2。
數據管理計劃是用于描述整個數據生命周期內數據處理及相關質控的規范性文檔,包括數據獲取、處理、分析、存儲、發布與共享的全過程,其主要目的是保證研究數據的完整性和可用性。基于USGS數據生命周期模型,制定腫瘤科學數據的管理計劃和元數據標準,整合、分析不同來源的科學數據,幫助相關人員統籌項目“開始-發布-歸檔”過程中與腫瘤數據有關的所有活動,應對各階段的評估、處理和記錄要求,考慮每個階段的方法、所需資源以及預期產出等。

圖2 腫瘤科學數據生命周期模型構建流程
USGS數據管理模型認為,以數據的可靠性和完整性為目標的數據獲取是確保數據處理、分析以及評估數據可重復再利用的關鍵。鑒于此,管理人員應根據腫瘤數據源的特性,利用爬蟲工具、ETL工具、數據提交工具等從世界衛生組織(World Health Organization,WHO)癌癥研究中心(International Agency for Research on Cancer,IARC)、中國腫瘤登記年報等官方渠道采集腫瘤科學數據,進行數據去重、完整性評估、缺失值處理等工作,并將數據存儲在數據庫中。
數據處理是對所獲取數據(包括定義數據元素,整合不同數據集,提取、轉換和加載等)進行的操作,目的是為后續集成和分析做準備。由于腫瘤科學數據來源多樣、標準不一,管理人員需要構建數據整合標準化模型,使用各類自動化工具開展多樣化的數據處理工作(包括數據標準化、噪音數據清洗、數據匿名化、數據分類、構建整合數據集等),形成各類派生數據,進而為數據的后續使用提供標準及基礎。USGS數據管理模型可以實現醫學數據與人口數據、氣象環境數據、地理信息數據等其他類型數據的整合,為后續開展跨學科、跨領域的數據分析和服務提供支撐和保障。
數據分析是探索、闡釋上述經過處理的數據的相關活動(包括總結、制圖、統計分析、建模、假設檢驗、科學發現、得出結論等),從而形成不同層面的派生數據集,為科研人員提供多元化的數據服務。本文選取USGS數據管理模型對腫瘤發病數據集和相應的人口數據集進行整合分析,進而比較不同地區、不同年齡段、不同性別之間的腫瘤發病情況和趨勢變化,為腫瘤流行病學研究及政策制定提供借鑒。
數據存儲是保證數據可長期使用和可訪問的基礎,是數據管理過程中最為重要也是最易被忽視的環節之一。在項目或任務前期和中期執行過程中,數據存儲的重要性不言而喻;而在后期或項目結束后,由于預算、人力、時間等原因,數據有可能會被忽視、丟棄或損壞。為此,管理人員必須參照USGS模型,制定相關政策和標準,以促使科研人員長期保存腫瘤科學數據、元數據、輔助產品、附加文檔等,確保相關數據的完整性、可用性和重用性,為后續的科學研究提供便利,發揮數據的潛在價值。
隨著互聯網、物聯網以及新媒體技術的快速發展,數據發布的渠道更為多樣化,數據共享更為便捷。數據同傳統出版物一樣可作為研究成果,其發布和共享亦是項目和任務的重要組成部分。管理人員應遵從USGS模型的相關準則對腫瘤科學數據進行共享和發布,提供數據的瀏覽、下載、分析等服務,為科研人員開展更為深入的研究節約時間,促進腫瘤知識的有效轉化。
基于USGS數據生命管理周期模型對腫瘤流行病學發病數據和對應的人口數據進行整合、分析、管理(包括制定數據管理計劃、數據獲取、數據處理、數據分析、數據存儲、發布與共享等步驟),為相關人員做好數據整合與管理工作提供參考和借鑒。
借助USGS科學數據生命周期模型進行癌癥科學數據的管理,結合實際需求對USGS數據生命周期模型進行適當調整,制定詳細的數據管理計劃(圖3)。首先,獲取癌癥科學數據,解讀數據集的內容、格式等;其次,根據數據集的具體情況進行整合,初步分析數據;第三,通過科學的計算方法對數據進行再加工;最后對處理后的數據進行對比、分析和使用,并做好數據的存儲和再利用。

圖3 癌癥發病科學數據管理計劃
基于現有數據的開放程度、完整性及權威性考慮,選取IARC發布的五大洲癌癥發病數據集CI5plus(Cancer Incidence in Five Continents Time Trends,http://ci5.iarc.fr/CI5plus/Default.aspx)進行整合分析。CI5plus數據集包含了截至2007年,118個地區的癌癥發病數據以及與118個地區對應的人口數據。考慮到實際入選CI5數據集的時間、地域特征、代表性等因素,本文選取上海市和浙江省嘉善縣1993-2007年的癌癥發病數據和相應的人口數據進行整合、處理和分析。部分來源數據見表1和表2。

表1 上海1993年不同部位癌癥在不同年齡段的發病人數

表2 上海1993-1997年不同性別在不同年齡段的人口數
其中,表1為1993年上海地區(地區編號為“15602”)不同部位癌癥(如列CANCER中“4”代表“胃”)在不同年齡段(如“N5_9”為5-9歲)的發病人數分布情況,表2為1993-1997年上海不同性別(列性別中“1”為男性,“2”為女性)在不同年齡段的人口數。
為了直觀、全面地對上述原始數據進行對比分析,本文使用流行病學研究方法,分別從地區、癌癥類別、年齡組、性別等維度對已有數據進行了整合。數據整合后,可以直觀地了解到各地區不同年度、不同性別、不同癌癥、不同年齡組的發病總數。如對表1中上海地區1993年男性各年齡段、各部位癌癥的發病數據(即所有地區編號為“15602”、年度為“1993”、性別為“1”的數據項)進行整合,可得到1993年上海地區男性總發病人數為19 496。整合后的部分數據見表3(性別列“1”為男性,“2”為女性)。同時對各地區人口總數也進行了相應整合。
對人口和發病數據初步整合后,能夠直觀了解各地區、各年度、各癌癥類別、各年齡組的發病情況,但還不能滿足對不同地區、不同時期發病情況的對比分析和趨勢分析要求。

表3 上海1993-1997年各性別的癌癥發病總人數
為了實現這一目的,本文通過計算惡性腫瘤的發病率使其標準一致,從而具有可比性。本文所指的發病率為粗發病率,即某年該地登記的每10 萬人口中惡性腫瘤的新發病例數,是反映人口發病情況最基本的指標。
按照上述公式計算各地區惡性腫瘤的發病率,均保留小數點后兩位。如上海1993年男性的發病率為565.11/10萬,即每10萬人就有約565人新發癌癥,其他年度發病率如表4所示。

表4 1993-2007年上海和嘉善惡性腫瘤發病率
通過對比分析1993-2007年的發病率,可以發現上海惡性腫瘤發病率明顯高于嘉善。隨著時間的推移,兩地發病率都呈逐年上升趨勢,如2007年嘉善總發病率已上升至623.08/10萬,比1993年上升了約77%(圖4)。
另外,嘉善女性的發病率在同期均為最低,但其漲幅最為明顯,相關部門應盡快采取措施控制嘉善地區女性發病增長速度。上海地區腫瘤發病率變化雖然較小,但發病率一直居高不下。

圖4 1993-2007年上海和嘉善惡性腫瘤發病趨勢
隨著年齡的增長,兩地發病率都呈現上升的趨勢,且男性增長速度普遍快于女性,整體發病率也明顯高于女性。1993-2007年上海和嘉善各年齡段惡性腫瘤發病率詳見圖5。

圖5 1993-2007年上海和嘉善各年齡段惡性腫瘤發病率
綜上,本文利用USGS數據生命周期管理模型,對部分腫瘤流行病學數據和相應的人口數據進行了整合分析,并借助流行病學研究方法和統計學方法對數據進行了處理,旨在實現數據的最大價值。
本文所使用的數據均存儲于中國工程科技知識中心醫藥衛生專業知識服務系統的MySQL數據庫中,包括元數據、整體數據以及整合、分析過程中形成的中間數據和結果數據,并同步備份于另一數據庫,以確保數據長期有效,可被隨時訪問。
本文所涉及的數據均已發布于中國工程科技知識中心醫藥衛生專業知識服務系統平臺(http://med.ckcest.cn/)。
該平臺提供了數據的簡要說明以及瀏覽、下載和分析(包括對不同地區、不同年齡段、不同性別、各類癌癥數據的對比分析以及癌癥發病情況隨時間變化的趨勢分析)等功能,以達到對數據有效管理與利用的目的,為相關人員獲取與深入挖掘數據提供有效途徑,也為重大戰略決策的制定提供直觀展示和可視化對比分析。
具體示例如圖6、圖7所示。

圖6數據瀏覽與下載圖7數據分析
隨著海量科學數據的開放與共享,相關研究人員和領域決策者面臨著如何從海量數據中快速獲取高質量的數據、如何對不同領域的數據進行科學整合、如何對各領域數據進行對比分析、如何實現數據價值最大化等一系列問題,因此選擇合適的科學數據生命周期管理模型對數據進行全過程管理是十分關鍵且有意義的。
根據數據生命周期管理模型的要求,本文制定了具體的數據管理計劃,并記錄了數據使用的各個環節,能保證數據可被完整還原,為深度挖掘數據的價值提供保障。
通過整合分析后發現,數據生命周期管理模型在一定程度上解決了相關人員的數據管理問題,也為推動數據管理工作提供了借鑒。在數據泛濫的今天,選擇合適的數據模型,做好數據的管理和再利用,充分挖掘數據的潛在價值十分重要。