成靜
(南京醫科大學附屬淮安第一醫院,江蘇淮安 223300)
癌癥是威脅全球健康的主要公共問題之一,近年來癌癥治療負擔在全球呈持續增長趨勢。我國癌癥發病率和死亡率均居首位,對人民健康構成巨大威脅。我國癌癥死亡人數呈逐年上升趨勢,治療費用遠高于其他疾病,嚴重影響國民經濟、社會發展和人民健康。在癌癥診治整體邁向個體化和精準化的多學科綜合治療新時代的過程中,癌癥規范化診療的推進已成為提升我國整體癌癥治療水平與治療效果的關鍵[1]。
為貫徹落實《中共中央國務院關于深化醫療保障制度改革的意見》《國務院辦公廳關于印發深化醫藥衛生體制改革2021年重點工作任務的通知》(國辦發〔2021〕20號)等文件要求,堅持以人民健康為中心,強化醫療、醫保、醫藥三醫聯動,國家癌癥中心在國家衛生健康委及國家醫療保障局指導下,開展各級醫院抗腫瘤藥物上報工作,依據非常寶貴的腫瘤大數據資源,可以充分利用真實世界證據,推動規范診療再上新臺階,共同促進我國癌癥診療的同質化、均質化發展。全面提高癌癥診療質量,規范癌癥診療合理用藥,保障癌癥診療安全,提高癌癥治愈率,改善癌癥患者的生存質量具有深遠意義[2]。
Kettle 中文名叫水壺,意指將不同類型數據放到一個壺里[3],最后能按需要的格式流出。Kettle是一個ETL工具集(Extract-Transform-Load,數據抽取、轉換、裝載),允許用戶管理來自不同數據庫的數據。Kettle中主要包含兩部分:Transformation(轉換)和Job(作業),Transformation 完成數據的基礎轉換,Job 實現對工作流的控制。通過圖形界面設計實現做什么業務,并在Job 下的start 模塊,有一個定時功能,可以每日、每周等計劃方式進行定時執行。在開發、測試和調試階段,作業和轉換可以在圖形界面里執行,部署生產階段一般需要通過命令行執行,需要把命令行放到Shell 腳本中,并定時調度這個腳本。在開發完成后,Kitchen 和Pan 命令行工具用于實際的生產環境。Kitchen和Pan工具是Kettle的命令行執行程序,Kitchen用于執行作業,Pan用于執行轉換。采用拖拽組件、連線、配置的方式來構建數據管道,通過超過200個不同的組件,用戶可以在不編寫一句代碼就能輕松完成對數據源讀取,對多源數據進行格式轉換、關聯、建模、統計、計算,并輸出數據結果。極大程度地降低開發技術門檻和有效降低開發和維護成本。
由于上報數據涉及多個業務系統,如醫院信息系統、電子病歷系統、實驗室信息系統、醫學圖像信息系統、病理標本管理系統、病案信息系統等,各個業務系統又來自不同生產廠商,每個生產廠商又使用的是不同類型的數據庫,就需要將數據統一抽取的前置服務器,再統一上傳國家抗腫瘤藥物臨床應用監測網。
前置服務器部署包括環境部署:安裝JDK--Java語言的軟件開發工具包,設置環境變量。以及資源庫配置:配置資源庫信息,包括數據庫、主機名稱、數據庫名稱、端口號、賬號、密碼等。
Kettle 主要包含兩大部分:轉換transform:完全針對數據的基礎進行轉換、作業job:整個工作流的控制(如圖1所示)。

圖1 transform工作流
1)創建轉換transform
先新建轉換,更改轉換名稱,選擇轉換歸屬。再建立表輸入輸出:在組件組-輸入中找到組件-表輸入,選擇數據庫連接(數據源),填入相應SQL 語句。接著建立表輸出:在組件組-輸出中找到組件-表輸出,建立表輸入和表輸出的連接,選擇數據庫連接(數據倉庫),錄入目標表名,指定數據庫字段,獲取相應字段,最后執行SQL即完成建表。建立清理SQL:在組件組-腳本中找到組件-執行SQL腳本,選擇數據庫連接(數據倉庫),填寫相應SQL 語句,建立與表輸入的關系即可。最后測試轉換是否能正常工作[4]。
2)創建作業job
一個轉換就是一個ETL 的過程,而作業則是多個轉換、作業的集合,在作業中可以對轉換或作業進行調度、定時任務等。當數據抽取需要多步驟時,需要分成多個轉換,再集成到一個作業里順序擺放,然后執行即可。作業job 是對整個工作流的控制,可以定時,一個作業可以包含多個作業項,轉換transform 只是其中一個作業項。
本次設計需要將HIS 系統中病人基本信息數據、費用數據、結算數據等,醫生站系統中醫囑數據、病歷數據、診斷數據等,實驗室信息系統中檢驗結果數據,醫學影像系統中檢查結果數據,病理系統中病理檢查結果,病案管理系統中病案首頁相關數據等各系統中數據進行抽取、轉換再上傳至全國抗腫瘤藥物臨床應用監測網。共涉及SQL Server、Oracle Database、MySQL三種類型數據庫,21張表(如圖2所示)。

圖2 最終實現效果
1)上報患者范圍:根據患者診斷來判斷是否屬于上報范圍。通過門(急)診診斷和住院診斷中的診斷信息篩選出惡性腫瘤患者相關數據進行上報。
2)上報時間范圍:醫院需要每月上報門診患者、住院患者的醫療數據。住院患者數據按出院時間進行篩選后上報、門(急)診患者數據按就診時間進行篩選后上報(如圖3所示)。

圖3 上報時間范圍
3)上報內容范圍:患者的門診、住院、診斷、治療、檢查、檢驗、隨訪等相關數據。
1)數據關聯關系
醫院上報數據實現2個維度的關聯:患者維度、單次就診維度。患者維度:住院患者信息表、門診患者信息表,以“患者ID”與患者就診基本信息表關聯。患者ID 是患者在本院信息系統內的唯一標識,其他上報數據表中患者ID 均應與本表患者ID 一致。單次就診維度:住院信息相關表,以“單次就診唯一標識號”與住院患者信息表關聯。單次就診唯一標識號是患者在本院的單次就診唯一標識。除了單次就診唯一標識號,還可以通過病案號、住院號、住院次數等字段實現關聯[5]。
2)數據質量
通過數據量、關聯性、數據內容正確性,分別驗證上報患者數據。包括:字段級檢查如時間類型字段是不是合法的時間范圍檢查、非空校驗等、單表級檢查如患者存在手術記錄,則手術日期為必須項等、跨表級檢查如:HIS 系統唯一號在門診、住院表格中的關聯度,檢查病人的唯一號在基礎信息表中必須存在等,確保數據評估的有效性。
傳統的數據上報方法,是通過醫院HIS、LIS、PACS等業務系統報表查詢功能或者使用SQL數據庫軟件等方法將數據查詢、導出,整理匯總后上報至國家抗腫瘤藥物臨床應用監測網,由于各業務系統相互獨立,人工查詢統計匯總,發生差錯不可避免,必須仔細核對,并經業務部門確認數據,浪費人力資源[6]。抗腫瘤藥物應用監測數據上報系統應用實施后,解決了上述難題。該系統通過自動采集數據、統計匯總形成報表,最終完成上報,全過程均由計算機完成,無須人工參與,降低了人力資源成本。同時,避免了人工統計所不可避免的差錯,有效防止誤報、漏報,被國家抗腫瘤藥物臨床應用監測網評定為A級。
持續上報抗腫瘤藥物在我院臨床應用監測情況,加強腫瘤病人用藥管理,規范醫院抗腫瘤藥物在臨床的應用,積極探索醫院重點監控項目,建立預警制度,借助國家抗腫瘤藥物臨床應用監測網的數據分析功能,實現診療過程中抗腫瘤藥物的全流程管理。依托國家癌癥中心腫瘤信息數據庫,進行腫瘤規范化診療行為綜合評價,分析不合理診療行為,規范患者全周期治療過程中的檢驗檢查[5]。在腫瘤診療服務領域加強“互聯網+醫療健康”建設,增強優質服務的可及性。為腫瘤規范化診療管理相關工作提供科學數據依據,積極推行“單病種,多學科”綜合治療理念,制定MDT診療標準化操作流程,提升參與MDT 腫瘤患者比例,持續優化腫瘤診療模式,提高科學決策水平。