,,, ,
放射治療是當今醫學界治療惡性腫瘤的三大主要手段之一。隨著計算機數字化技術在醫學領域的廣泛應用,放療設備及信息管理自動化程度不斷提高,現代放射治療技術正朝著精確定位、精確計劃、精確治療方向發展[1]。傳統醫療服務模式更趨于數字化,數據已成為推動臨床治療及科研活動創新不可或缺的資料。自2015年起,美國國家衛生研究院、美國放射腫瘤學會、美國國家癌癥研究所和美國醫學物理學家協會召開的學術年會,都在持續關注放射腫瘤學在大數據時代的發展與機遇。國務院辦公廳《關于促進和規范健康醫療大數據應用發展的指導意見》中提出推動健康醫療大數據資源共享開放,鼓勵各類醫療衛生機構推進健康醫療大數據采集、存儲,加強應用支撐和運維技術保障,打通數據資源共享通道。國內外的發展戰略和研究目標,體現了各個層面對放療大數據基礎建設工作的重視,高效、合理地將各類數據進行有效整合,實現數據的高度集成,是大數據應用建立的關鍵,而數據解析則是實現數據整合的重要方法和手段。
在放射治療過程中,數據主要通過3種途徑產生:一是通過醫院信息系統,如醫院信息管理系統(HIS)、電子健康記錄(HER)、個人健康記錄(PHR)等產生的常規數據;二是通過放射治療計劃管理系統(Radiotherapy Treatment Planning System,TPS),如Eclipse,Pinnacle,GammaPod等計劃系統產生的治療計劃數據;三是通過影像學檢查設備,如磁共振成像設備(MRI,CT,PET)等產生、存儲于影像歸檔和通信系統(PACS)中的影像數據。患者的信息數據除了包括性別、年齡、病癥等常規信息之外,還包括放射影像、治療計劃、治療方法、治療規程、放射劑量、治療方劑等非常規數據。數據形式多樣,結構化、半結構化和非結構化數據同時存在,從而構成了大量的多源異構數據[2]。一方面,大量患者診斷治療數據的產生,為臨床醫生的臨床治療以及科研工作的開展提供了有利的數據積累;另一方面,由于放療臨床數據的復雜性以及醫院內部各種系統的多樣性,加之各類廠商對自己治療計劃系統和設備的技術保護,不可避免地造成數據的多源性、異構性,勢必會造成各類數據一定程度上的相互孤立,導致臨床醫生及研究人員難以全面地掌握和分析數據,對科研及臨床治療方法的進一步研究帶來阻礙,也會造成臨床數據分析的片面性[3]。
針對腫瘤放療數據建設中的此類問題,數據解析工作就顯得尤為重要。所謂數據解析,就是針對目標數據的結構特征,結合適當的分析方法,對數據進行詳細研究并提取有效信息的過程。借助數據解析方法,可實現分散的臨床數據整體化,實現不同系統、不同類型事實數據之間的快速轉換及整合,有助于放療臨床試驗數據的高效管理,以及臨床科研及臨床數據挖掘等活動的開展。
國際上通用的醫學領域數字傳輸標準是DICOM(Digital Imaging and Communications in Medicine)標準,在放療領域的數字存儲傳輸標準是DICOM RT(Radiotherapy Objects)標準。作為DICOM標準的擴展,該標準定義了放療領域的相關概念、流程和應用場景。DICOM RT 定義的信息對象主要包括RT Image(放療影像)、RT Dose(放療劑量)、RT Structure Set(放療結構集合)、RT Plan(放療計劃)和RT Treatment Record(放療治療記錄)5部分[4]。DICOM RT數據結構層次模型見圖1。

圖1 DICOM RT數據結構層次
RT Image是放療圖像以及圖像相關的數據信息集合,包括CT/MRI/PET產生的圖像以及數字重建圖像、模擬機圖像、射野圖像等;RT Dose主要用于傳輸治療計劃系統所計算的劑量數據集合,劑量的分布可以通過二維、三維的網格、等劑量線、劑量體積直方圖(DVH)等表示;RT Structure Set定義一個特殊區域的數據結構集,每個區域結構可以和一個或多個圖像對象相聯系,包括一些感興趣區域(ROI、VOI)的定義、感興趣點的選擇(如劑量參考點)等[5];RT Plan是手工生成的計劃報告、治療計劃系統及其他方式產生的計劃報告數據集,包括外照射治療、近距離治療計劃、分形、耐受性表、體位關系、控制點概念等;RT Treatment Record是實際放療過程中得到的記錄數據集,包括記錄信息的概要、所有治療參數的記錄、劑量計算、劑量測量記錄等。
DICOM RT數據是在實際的放射治療過程中生成的。TPS產生和涉及的數據信息量最為豐富全面,涵蓋病人信息、圖像信息、計劃治療信息等。因此進行TPS系統的數據解析,是解決腫瘤放療數據整合問題的有效途徑。目前較為常見的數據解析方案是直接對DICOM文件進行操作,如利用C語言結合醫學圖像處理開源庫(DCMTK)實現直接讀取DICOM文件,獲取相應的數據信息,或者通過MATLAB編寫代碼對DICOM文件進行預處理,再結合C語言聯合開發直接對DICOM文件進行數據操作,實現文件的分類。兩者的共同點都是對DICOM文件進行數據操作,僅適用于對原始DICOM數據的讀取和處理。現實情況是多數治療計劃數據是由各廠商提供的TPS系統產生,基于數據和技術保護的考慮,各廠商會采用自定義的數據封裝格式將原始數據進行打包傳輸,而這種經過封裝的數據大多是封閉的,難以直接應用,給數據的二次利用帶來了很大的困難。以上兩種方案均無法對TPS系統生成的數據文件進行直接處理,也無法實現TPS數據文件的傳輸、拆包、解析、存儲入庫等操作。針對此類數據處理的難點,筆者利用數據解析方法針對文件的結構特點設定解析規則[6],采用C++語言編寫了TPS數據文件轉換軟件。該軟件可對TPS數據進行底層處理,把封裝的數據還原成原始數據,可用于二次解析的結構化數據,實現了TPS數據的自動化解析,解析后的數據存儲在目標數據庫中。圖2是TPS數據解析后的部分數據包,包含了病人治療計劃的部分數據信息。

圖2 TPS數據文檔
在此數據集中可以看出,PlanCreateDate,PlanCreator,Stage ID等為根節點;PatientInfo,TreatmentInfo,PlanInfo則為Stage ID的子節點;PatientID,PatientName等則為PatientInfo子節點中的具體數據。此類數據文件可采用xml數據解析方法,針對數據文檔的樹形結構,結合根、葉節點的特征編寫解析遍歷規則,即先掃描數據集的層結構,依次讀取根節點信息,當遇到子節點后,繼續掃描是否存在葉節點,如果不存在則將子結點信息存儲到當前的根節點下,如果存在則將葉節點信息存儲在當前的子節點中,讀取當前節點信息完成后,繼續掃描下一個節點的內容,逐層獲得數據集中的數據,并按對應關系進行存儲[7]。通過以上方式,可獲得TPS涉及治療計劃信息的完整的數據字段信息,包括患者信息、設備名稱、DOSE邊界、放射劑量等。通過以上數據解析過程,可以得到TPS系統中的VOI、DVH等描述文件[8]、DICOM RT的原始圖像文件、Contour數據文件等。DICOM RT標準與DICOM標準[9]都采用E.R基本信息模型對實體進行抽象描述,使用信息對象定義的形式建立放射治療數據模型,并用服務類的方式實現對放射治療信息對象的操作。VOI、DVH等數據描述文件,常常對應著大量浮點數據,不利于信息的檢索和存檔,因此需要通過數據的標準化建設[10]、數據降維等處理手段,構建相應的數據庫及表。數據庫設計過程中,由于DICOM RT標準中的圖像是針對信息對象定義[11],信息的存儲或不同設備間的信息交換都是以IOD實例[12]來進行,所以數據庫的設計盡量保持IOD的完整性,應體現IOD之間的關系[13],可以按照患者、研究、系列和圖像4個層次進行檢索和管理,保持數據的完整性。因此,數據庫的邏輯結構應與DICOM標準信息模型保持一致,易于體現各數據之間的聯系。采用關系型數據庫MySQL進行設計,盡量與DICOM RT標準保持對應,遵循統一的邏輯結構、信息對象關系、元素屬性、屬性值的表達方式等。對于原始的DICOM文件以及TPS系統生成的DVH文件,可采取掃描文件路徑的形式,對文件名稱及路徑進行遍歷,將文件的完整路徑按照一定的邏輯結構對應地存儲在數據庫中。
數據解析在當今大數據時代發揮著日益重要的作用。以腫瘤放療數據電子化、高效化管理為目標,將數據解析應用于腫瘤放療大數據建設中,可有效解決多系統腫瘤放療數據集成化管理的難題。將醫學信息分析理論方法與軟件工程思維相結合,利用計算機編程和數據庫技術,設計開發數據解析軟件,符合醫學大數據建設的發展趨勢,為診斷、影像、治療等多類醫學數據資源的高效集成提供了一定的解決思路,對加快腫瘤放療大數據的建設進程以及開展深層次臨床數據挖掘等起到了積極的促進作用[14-15]。