,, , ,
隨著醫院信息化建設的不斷加強,信息技術在醫學領域應用的不斷深入,醫療服務模式逐步進入數字醫療時代。2015年9月5日,國務院印發的關于《促進大數據發展行動綱要》中的國家大數據資源統籌發展工程中明確提出:“加強互聯網信息采集利用。加強頂層設計,樹立國際視野,充分利用已有資源,加強互聯網信息采集、保存和分析能力建設,制定完善互聯網信息保存相關法律法規,構建互聯網信息保存和信息服務體系”。
山東省衛生和計劃生育委員會《關于加快推進人口健康信息化建設的意見》也要求按照我省人口健康信息化建設目標和基本原則,建設好“三網五庫”,尤其要“建立完善大數據、云計算分析處理應用,以知識庫、方法庫、模型庫為基礎,對數據進行深度挖掘、清洗、分析、整理,形成專題數據集”。
數據是信息化建設的基礎載體,醫院信息化的管理本質是對各類醫學數據的集中管理。醫學信息采集是醫學信息資源建設中不可缺少的重要環節,是醫學知識開放獲取的必要手段[1]。通過計算機科學和現代網絡通信技術及數據庫技術,醫學信息采集可為醫學科研活動提供信息的收集、存儲、處理、提取和數據交換,并滿足各類用戶的數據需求,為大數據的發展建設提供有力保障。
醫學信息采集是計算機信息科學與生命科學的交叉應用,是利用計算機軟硬件技術,包括電子、計算機、通訊、醫療儀器等對定制的目標數據源,實時進行醫學信息資源采集、抽取、挖掘、處理,從而為醫學信息服務系統及研究活動提供數據輸入的整個過程。在實際的醫學科研及信息化建設過程中,醫學信息采集主要有以下幾方面意義:醫學信息采集是運用醫學信息的前提和基礎,醫學信息采集的內容、數量、深度、廣度以及采集的方法及效率,直接影響醫學科研活動的質量和效果;醫學信息采集是進行衛生決策和評價的信息保障,科學的決策源于對信息資料的充分獲取,從國家醫藥衛生政策的制定,到各類醫學活動的綜合評價、分析都必須以大量的事實數據為基礎;醫學信息采集則貫穿數據處理、整合、分析的整個過程;醫學信息采集是進行醫學科研活動的重要支撐,醫學科研項目的創新、選題、立項、研究、研發、成果鑒定等活動都離不開信息采集。
隨著醫學信息研究領域的不斷延伸,醫學信息數據可采集的類型不斷增多,產生的周期不斷縮短,數據量呈爆炸性增長[2],醫學信息采集的手段也由傳統的人工采集向更為先進的自動化采集過渡。傳統的人工采集,主要獲取未形成文獻資料的醫學信息內容,利用傳統的目錄、索引、訪談、調查問卷等采集與科研活動有關的信息,適用于分散的、難以統一或具有主觀性的信息采集;自動化采集則是利用計算機軟硬件技術、體征監測器、傳感器、醫療設備等對醫學信息進行實時或連續的獲取,適用于大量客觀數據的連續采集。而在實際的科研活動中,則需要兩種采集方式的綜合運用。
開展醫學科研活動,首先要確定科研活動的數據基礎,作出相應的數據需求分析,制定必要的數據采集策略。醫學信息需求分析是醫學信息采集的出發點,主要任務是明確信息的服務對象,確定數據源目標,設計采集的內容及范圍,以及預期采集的結果等。以疾病信息數據構建為例說明不同研究對象的數據需求,如圖1所示。

圖1 疾病信息采集需求分析
如需研究疾病分類數據,采集的內容就應包括疾病名稱、類別、簡介等基礎信息;如需研究疾病特征數據,采集的內容就需增加病理、特點、并發癥等信息;如需研究疾病信息數據,采集的內容就需涵蓋治療方法、用藥參考等更全面的信息。
采集的研究數據,依據一定的數據分類標準(如ICD-10)進行劃分和整理,就能形成具備一定信息量的疾病數據庫。因此,采集需求的不同,決定了信息采集范圍的不同,形成了不同的研究產出。
確定采集需求后,就需要選擇合適的醫學信息源。醫學信息源是醫學信息采集的主體對象,需要有針對性的選擇,并且了解信息源的類型,采取適當的評價和選擇策略,提高信息采集的有效性。
隨著計算機及信息技術的飛速發展,醫學信息源的類型也在不斷擴充,呈現多元化發展,對采集工作提出了更高的要求。醫學信息源涉及面廣泛,主要包括學術、科研、藥物、生物、基礎研究、臨床等各個領域。醫學信息源包括的內容和特點見表1。
醫學信息源種類繁多,如果對涉及的信息源進行全面采集,必然會影響研究活動的快速部署和開展。一般來說,在實際科研活動中對信息源的篩選應遵循以下原則,即需要通過對信息源的可靠性、及時性、相關性、全面性、易用性、信息量等方面進行綜合考量,依據采集目的進行選取,一般選取相關度高、來源可靠、時效性強、性價比高、易獲取的信息源。在確定目標信息源后,就可以制定合理的醫學信息采集策略,從而對科研活動展開針對性的采集分析。
常用的采集策略如下。一是定向采集,即對醫學科研命題在某一方面進行定向分析,如與醫學活動相關的網絡輿情分析。
二是定題采集,主要針對特定的醫學科研課題進行調研,如醫療改革問題研究。
三是多向采集,適用于要求較高的醫學科研類數據分析,如生物樣本數據的綜合分析。
四是跟蹤采集,適用于對特定醫學項目進行動態跟蹤,強調信息的連續性,如基因測序的樣本采集。
五是委托采集,適用于委托專業的醫學信息服務機構或專家對信息進行處理,如醫學查新機構的查新咨詢服務[3]。

表1 醫學信息源類型及特點
在眾多的醫學信息源中,電子信息源以其內容豐富、數據量級大、開放易獲取等特點,逐步成為信息采集的首選。以常見的電子醫學信息資源為采集對象,介紹醫學信息采集中的實踐方法。根據檢索范圍和要求的不同,常規的醫學信息檢索方法主要有以下幾種方式。
搜索引擎檢索是使用百度、google、維基百科等學術搜索引擎,廣泛獲取醫學信息。醫學文獻數據庫檢索是利用免費醫學信息數據庫、文獻數據庫、文摘、全文、會議、專題等,進行文獻或數據檢索。專題醫學網站站內檢索是利用專業的醫學網站進行專項信息檢索,數據記錄查詢等。站點內部檢索是在特定的網站內精確到字段,動態信息查詢等。此外,網站的程序代碼通常會包含部分隱含信息,利用隱含數據檢索方法可縮短信息獲取時間。
在實際的醫學信息獲取過程中,出于對各類資源安全性的考慮,部分資源會采取一定的保護措施,采集時需根據實際情況及信息獲取的難度,針對性地開展技術性攻關,在法律及政策許可的條件下,降低資源網站的運行開銷,對開放資源進行獲取。下面介紹幾種常用的信息獲取技術。
檢索到相關的醫學信息后,一般可直接將信息內容在瀏覽器中保存為不同的文件格式,對于采取特別的技術手段或限制代碼來保護的信息內容,則需借助一定的技術手段實現。常見的信息保護機制、特征以及常用的技術對策見表2。
開展醫學科研活動時,會涉及到對單個醫學網站的數據進行批量的數據獲取,因此需要先分析數據的特征和數據生成的機制,并具備有效的訪問權限。其中采集人員需具備一定的html語言基礎,結合常規數據獲取方法進行綜合采集,可借助下載軟件或編寫程序對數據進行采集。需要注意的是,利用工具下載的多是靜態頁面,并非實際需要的目標數據,需進行必要的數據清理。
面對數據量大的采集需求時,應采用網站數據批量采集技術,分析網站的架構,確定采集深度,獲取必要的數據標簽,設計合理的采集方案,提高數據的采集效率。為了避免影響網站的正常運營,應盡量采集靜態頁面,不采用多線程技術,減少被采集源的運行壓力。
除了常規的醫學信息文本數據的獲取,還可對其他醫學類的多媒體數據進行采集,如表格、圖片、動畫、音頻、視頻、腳本文件、網絡文檔及多格式文檔等內容批量獲取(word,excel,txt,pdf等)。
由于特殊條件的限制及研究需要,我們會用到一些較為高級的信息獲取技術,包括文件加解密,軟件逆向工程、網絡數據監測、數據轉換與解析[4]、多站點采集技術[5]、網絡爬蟲技術[6]等。此類技術研究應遵循開放知識獲取的準則[7],以開放知識為采集對象,在獲得信息提供者的許可和不損害他人利益的情況下開展。
基于上述的采集策略和技術方法,對醫學信息的采集工作過程作出歸納。醫學信息數據的采集流程如圖2所示。
醫學信息采集大致分為以下5步:第一步是確定醫學信息的采集范圍,利用搜索引擎和數據庫確定相關內容,從中選擇利于研究工作開展的數據源;第二步是分析醫學信息采集對象的數據結構,制定合理的采集方案,選擇合適的采集策略和方法;第三步是對研究數據進行開放獲取[8],確保數據的完整性,并對數據進行整理、歸類;第四步是對不同形式或格式的數據進行標準化轉換,確保數據格式的統一,進行數據清理工作;第五步是對數據進行存儲,建設對應的數據庫,便于數據的積累和長期利用[9],實現云端的數據共享[10]。
國家在萬眾創新大數據工程中的“知識服務大數據應用”明確提出:“利用大數據、云計算等技術,對各領域知識進行大規模整合,搭建層次清晰、覆蓋全面、內容準確的知識資源庫群”。可見,醫學信息的數據采集工作是一項長期、持續、復雜的工作。目前醫學信息的數字化建設仍處于發展階段,醫學信息應用及建設基礎薄弱。隨著醫療信息化建設工作的深化,大數據及云計算的深入應用[11],作為數據積累的必要過程和手段,醫學信息的數據采集必將發揮越來越重要的作用。