大數據背景下電子病歷信息模型語義構建分析

2016-03-21 11:36:04，，

中華醫學圖書情報雜志 2016年9期

，，

大數據環境下，知識的流動性和開放性都大幅增加。醫學數據不僅對整個醫學領域的發展具有強大推動作用，而且對人類每個個體的健康發展也具有十分重要的意義。

醫學數據內容包括分子數據、細胞和組織數據、臨床和患者數據、生物醫學知識庫數據[1]4個層次，醫學數據結構分為結構化、半結構化和非結構化3種。醫學數據是醫學知識的證據，也是醫學進步的基石。在法律框架下，醫學數據的開放為循證醫學(Evidence based medicine,利用良好設計和實施的臨床研究產生的證據優化臨床決策的醫學實踐方法[2])、轉化醫學(Translational medicine,實驗臺、床旁和社區為支柱的生物醫學交叉學科[3])和精準醫學(Precision medicine，醫療決策、實踐或產品專門為患者個體定制的醫療模式[4])提供更充分的數據支持和保障。

電子病歷(EHR)作為醫學數據鏈中重要的一環，是結構化醫學數據的主體，其數據內容和數據結構的標準化研究啟動較早，系統已趨于成熟，并且已開始影響臨床研究、臨床實踐指南和臨床路徑系統數據內容和結構的建立。因此，理清電子病歷信息模型的發展脈絡對整個醫學數據開放體系的構建具有重要意義。

1 電子病歷定義

電子病歷的名稱在國外有不同的表達方式，不同名稱所對應的定義也有不同。即使是同一名稱，也因在不同國家和不同醫學領域，其含義也會有一些差異[5]。EHR通常是作為一個電子病歷的通用名稱，包括和代表了各種類型的電子病歷。目前，電子病歷沒有統一的定義主要是因為各個國家、地區、機構的電子病歷內容、形式和結構都有很多不同，而完整的電子病歷定義很難將所有這些不同方面都包括在內。因此，國際ISO/TC健康信息組織ISO/TC 215從電子病歷的結構方面給出了頂層定義[6]：EHR is a repository of information regarding the health of a subject of care, in computer processable form(電子病歷就是以計算機可處理形式存在的，有關診療對象健康的信息庫)。

這一頂層定義簡單而通用，保證了廣泛的適用性，適合各類電子病歷在現階段和將來的使用和開發。它可以作為所有類型電子病歷的基本通用頂層定義，也就是所有類型電子病歷都可以在這一基本通用定義的基礎上制定出來。

2 電子病歷信息模型語義結構研究

電子病歷信息模型是在數字環境下，其所需概念及其關系、約束、規則等的結構表達。電子病歷信息模型研究初期，以建立龐大、復雜的包含成百上千個實體及約束的模型為主[7]。這種模型應用于電子病歷系統后，很快暴露出一系列問題，如系統建立難度大，數據更新不易，系統運行效率低等。

20世紀80年代末期，許多電子病歷系統逐步采用通用模式建立患者數據庫，利用“數據字典”管理編碼數據元素，增加了數據更新的靈活性和面向患者查詢的可行性[8]。從這一時期開始，對電子病歷信息模型的研究逐步深化，形成了以采用核心數據集方法、模塊化方法和兩層建模方法建立電子病歷信息模型的研究路線。

2.1 核心數據集方法

核心數據集方法形成于較早時期。核心數據集就是電子病歷中某領域所必須的，具有統一標準的基本數據元素集合，又稱為最小數據集或最少數據集(minimum data set)[9]。美國自60年代末開始就制定了一系列電子病歷相關核心數據集[10]，如統一出院數據集(Uniform hospital discharge data set)、家庭治療最小統一數據集(Minimum uniform data set for home care)、電子病歷核心數據集(Health record core data set)、護理最小數據集(The nursing minimum data set)等。早期的核心數據集主要是各特定領域制定的最小數據集，雖然它們在特定領域內達到統一化、標準化，但不同領域之間，最小數據集往往存在相同概念數據元素名稱、定義等不一致的情況。因此，最小數據集又進一步發展為通用數據集(common data set)，即電子病歷系統中各個特定領域都通用、統一的基本數據集。目前許多國家和機構都制定了標準電子病歷通用核心數據集。

美國的ASTM_E1384-07標準《電子病歷內容與結構規程(Standard Practice for Content and Structure of the Electronic Health Record (EHR))》中就建立了電子病歷的通用數據模型和通用數據集[10]，并從實體(entity)、類別(segment)和利用(use)三維角度揭示了電子病歷元數據的內容結構[11]。

2.2 模塊化方法

模塊化是標準化的高級形式，它以“模塊為基礎，綜合了通用化、系列化、組合化的特點，是解決復雜系統類型多樣化、功能多變的一種標準形式”[12]。在醫學領域，信息量之巨大遠遠超出了其他領域產生的信息量，對這樣海量信息的處理往往令計算機系統也束手無策。目前就有大量的電子病歷信息埋藏在計算機系統中，難以被再次利用。而模塊化的方法將復雜系統分解為簡單的、標準的模塊，若干模塊可按照一定規則組合為各種復雜系統。正是這種模塊化的方法使復雜系統標準化、結構化程度提高，并易于構建，大大提升了計算機處理信息的能力。

在醫學信息領域，利用模塊化方法建立的電子病歷信息模型統稱為詳細臨床模型(Detailed Clinical Model，DCM)。20世紀90年代初，老牌電子病歷系統HELP為了能夠發展自然語言處理(Natural-Language Processing，NLP)能力，支持異構系統間的數據和知識交換，開始研究被稱為“事件模型”(event model)的一種通用模型[13]。最初的事件模型主要由事件模板、模板屬性和術語3類實體構成。其中，最重要的實體是事件模板，它是描述臨床數據邏輯結構的框架模塊，若干事件模板可組合形成更復雜的結構。在其后的發展中，事件模型更加完善，能夠表達有關患者的任何信息；更加靈活，能夠增加模型中的元素和屬性而不需要對軟件有任何改變；采用可擴展置標語言(eXtensible Markup Language，XML) 作為形式化語言，能夠增強人機可讀性和通用性[14]。事件模型下可以嵌套多級子類型，由元素和屬性進行描述(圖1)。元素包括概念(concept)、限定(qualifier)、值(value)或集合(set)，屬性包括實例標識符(instanceIdentifier )、背景控制(contextControl)。

圖1 事件模型結構圖

韓國建立的臨床內容模型( Clinical Content Model，CCM)、蘇格蘭建立的臨床模板(Clinical Templates Scotland，CTS)、荷蘭建立的詳細臨床模型實例(Detailed Clinical Model instances，DCM)都是利用模塊化方法建立的電子病歷信息模型[7]。

2.3 兩層建模方法

兩層建模方法(two-level modeling)歸根結底也是一種模塊化方法，可以說它是模塊化方法的延伸。兩層建模法構建的信息模型由信息語義層與知識語義層構成。信息語義層就是軟件對象模型和數據庫模型層，是通用結構，通常被稱為參考模型(reference model)或參考信息模型(reference information model)，用于構建信息系統結構，其中參考模型包含最基本、最穩定的信息結構；知識語義層往往應用于特定專業或領域，約束、限定參考模型，具有自身的形式和結構，是專用結構，通常被稱為約束模型、原型(archetype)或模板(template)，容納豐富的、易改變的領域概念[15]。

模塊方法中的HELP系統建立的事件模型經過進一步發展形成的臨床元素模型(Clinical Element Model，CEM)，就采用了兩層建模的方法[16]。CEM分為抽象實例模型(Abstract Instance Model)和抽象約束模型(Abstract Constraint Model)。抽象實例模型就是參考信息模型，表達的是醫學數據實例結構；抽象約束模型定義抽象實例模型中值的約束規則(圖2)。

圖2 臨床元素模型結構圖

目前利用兩層建模法建立的最著名的標準為開放電子病歷(openEHR)標準和ISO13606健康信息學-電子病歷通信標準(ISO13606 Health informatics-Electronic health record communication，簡稱“ISO13606標準”)。

這兩種標準都是用參考模型來定義電子病歷通用模塊中類別的等級結構，而用原型(archetype)來明確和約束具體模塊的結構、名稱、數據類型、值域等屬性[17]。

OpenEHR的信息語義層稱為參考模型(Reference Model，簡稱RM)。參考模型層包括核心(core)、模式(patterns)和領域(domain)3個部分，其核心部分由數據結構信息模型(Data Structures Information Model)、數據類型信息模型(Data Types Information Model)和支持信息模型(Support Information Model)等組成，其模式部分包括安全信息模型(Security Information Model)和通用信息模型(Common Information Model)，其領域部分包括電子病歷信息模型(EHR Information Model)、電子病歷摘要模型(EHR Extract Information Model)等。其中，電子病歷信息模型是參考信息模型層中最關鍵的部分，它定義了電子病歷信息的抽象結構和語義[18]。

OpenEHR的知識語義層即原型模型(Archetype Model，簡稱AM)，定義了原型(Archetype)和模板(Template)的結構和語義，包括原型定義語言(Archetype Definition Language，簡稱ADL)、原型對象模型(Archetype Object Model，簡稱AOM)和原型配置文件(openEHR Archetype profile，簡稱oAP)[17](圖3)。

圖3 openEHR電子病歷宏觀結構圖

以上采用兩層建模法建立的電子病歷信息模型標準既包括參考模型又包括原型模型。另外，還有一類兩層建模法標準是表達信息語義層的參考模型和表達知識語義層原型或模板分開建立。如HL7組織發布的HL7參考信息模型(HL7 Reference Information Model，HL7 RIM)就是一個有關電子病歷的參考模型標準[19]。HL7 RIM采用業務角度(Business View)的模型方式，將健康和診療相關信息分為行為區(Acts)、實體區(Entities)和職能區(Roles)3個最基本的主題區(Subject area)。其核心部分為6個“關鍵(back-bone)”類及其的結構化屬性，6個“關鍵”類為：行為(Act)、參與(Participation)、實體(Entity)、職能(Role)、行為關系(ActRelationship)和職能關系(RoleLink)(圖4)。

圖4 HL7 RIM宏觀結構圖

我國頒布的《電子病歷基本架構與數據標準(試行)》也主要采用了模塊化的方法，建立電子病歷的通用結構和數據內容。

3 結語

在信息模型構建過程中，核心數據集方法、模塊化方法和兩層建模方法并不是獨立使用的，許多現階段研究的模型標準往往是幾種方法結合使用，如OpenEHR和ISO13606標準。一般來說，在頂層設計時，首先建立電子病歷信息模型的框架結構(即參考模型)、必備元素(即核心數據集)和模型構建的實施規范，然后在框架結構標準下建立各醫學概念、醫學專業以及各科室專用的信息原型。

在大數據背景下，電子病歷數據的二次利用問題及電子病歷信息模型與其他醫學信息模型，如臨床研究、臨床實踐指南和臨床路徑信息模型的整合問題，成為醫學數據交換、共享和易于挖掘分析的關鍵。因此，在設計電子病歷信息模型時，模型的通用性至關重要。為了使中國電子病歷信息模型與整個中國醫學信息標準化一致，需遵循目前衛生領域已有的成熟標準。為了使中國循證醫學信息模型與整個國際化標準相適應，同時也要遵循國際相關標準。