郝 梅,謝 嶸,王 立,黃 鋒,王天兵
(1.北京大學人民醫院醫學信息中心,北京 100044;2.北京大學人民醫院創傷救治中心,北京 100044)
在醫院信息化的建設過程中,各個系統圍繞業務應用分批分期建立,逐步覆蓋業務全流程的同時,積累了大量醫療數據[1],這些數據均具有多源異構、分布式、碎片化等特點。為有效整合分散于各獨立系統中的數據,并利用這些數據更好地為臨床科研服務[2],我院建立了基于臨床數據中心(clinical data repository,CDR)的醫療大數據搜索系統,以滿足日益增長的臨床科研數據服務需求。
我院的信息化建設自1986年開始,經歷30多年的發展,已建成數十個業務系統,并積累了大量豐富的數據。但由于各系統建設年代不同、業務分散、缺乏統一規劃和系統管理[3],若想完成臨床科研相關數據的查詢,往往需要跨越多個系統,且數據量大、數據間關聯性異常復雜[4],導致了數據的準確性、一致性、完整性和效率難以同時兼顧。因此,亟須建立一個集醫療大數據的采集、存儲、檢索、計算和應用于一體的系統。
醫療大數據搜索系統以CDR為基礎,對其中的結構化數據進行抽取,通過大數據技術進行存儲,非結構化數據和文件利用自然語言處理(natural language processing,NLP)和機器學習技術進行結構化處理。同時,對于臨床業務系統無法產生的數據則以科研隨訪系統輔助進行補充采集,實現了院前、院中、院后各環節間的數據聯通及全流程、全周期的管理。醫療大數據搜索系統由數據處理、科研數據中心、數據服務和科研應用4個部分組成,整體架構如圖1所示。……