馮牧青 毛云鵬 王于峰 王崢洋 黃勃 高雪建 馮昌琪



摘 要:由于衛生健康軟件企業難以知曉和掌握衛生信息數據元的增加、更新和修訂,衛生健康軟件企業跟蹤衛生健康信 息標準的變化并執行是一件極為困難的事情。反之,衛生健康企業按衛生信息標準建立企業自已的信息(數據)標準體系相 對比較容易。本文嘗試利用數據本身屬性建立企業自已的衛生健康信息(數據)標準體系,如數據元目錄及其元數據標準、數 據元值域代碼、數據集(子集)以及與衛生行業信息標準的對照體系,既滿足企業自身研發應用軟件需要,又為執行國家衛生 信息標準找到了可行的方法。
關鍵詞:數據屬性,企業,衛生健康,信息標準,數據標準
DOI編碼:10.3969/j.issn.1002-5944.2024.06.005
執行國家衛生健康信息(數據)標準大勢所 趨。由于從事衛生健康領域信息化的軟件企業無 法知曉和掌握國家《衛生信息數據元目錄》標準的 制修訂,衛生健康軟件企業獲得最新《衛生信息數 據元目錄》標準非常困難。因此,衛生健康軟件企 業有必要構建自己的《企業衛生健康信息數據元目 錄》,有利于自身軟件產品開發和行業信息標準的 執行。企業衛生健康信息(數據)標準體系包括企業在開發衛生健康信息系統(軟件)過程中使用的 數據元目錄(數據元及元數據)標準、數據元值域 代碼、數據集(子集)、統計指標等。
1 數據類型
建立企業衛生健康數據元目錄首先要確立數 據元分類及其編碼,分類包括大類和小類。由于軟 件企業不熟悉衛生健康業務,所以軟件企業按衛生 健康業務域對數據元進行分類是困難的,但利用數 據天然屬性分類就容易得多。
1.1 數據屬性分類
常用主流數據庫都有各自的數據類型及其描 述,定義差異不大,常見關系數據庫系統的數據類 型多達數十種,據不完整統計,SQL Server不少于22 種[1],Oracle不少于9種[2],MY SQL不少于18種[3]。從 文獻1-3中不難發現,這些數據類型可歸為字符、數 值、日期時間和二進制四類,由這四類派生出多個 子類,這就為數據元分類提供了可能,而且容易被 學習和接受,這些數據類型完全滿足衛生健康信息 應用系統對數據類型的需求。
1.2 數據分類代碼
利用關系型數據庫系統提供的數據類型屬性, 對數據大類和小類進行分類并賦于代碼,即得到企 業衛生健康數據元分類及編碼表(見表1),該分類 表含蓋了SQL Server、Oracle和MY SQL絕大多數數 據類型,完全滿足數據元分類需求。
2 數據元標識符與企業數據元目錄
2.1 數據元標識符
數據元標識符是數據元目錄中為數據元分配與 語言無關的唯一標識。將表1作為數據元分類架構, 采用WS363.1—2011[4]中數據元標識符(DI)編碼規 則編制《企業衛生健康數據元目錄》(見表2),其代 碼結構與WS363.1—2011中數據元標識符編碼結構 一致,既符合衛生行業信息標準,又滿足企業對建 立企業衛生健康信息(數據)標準體系的要求。
2.2 企業數據元目錄
《企 業 衛 生健 康數 據元目錄》是 企 業自己 建立的數據元目錄。建立《企業衛生健康數據元 目錄》的目的是為了避免企業花大量人力和財力 去跟蹤行業WS 363.1—2011《衛生信息數據元目 錄 第1部分 總則》等16項標準的變化,利用企業 數據元標識符編碼規則(見表2),按WS/T 303— 2023[5-6]和WS 363.1—2011編制《企業衛生健康信 息數據元目錄》(見表3)。數據元的元數據包括數 據元標識符、數據元名稱、定義、數據元值數據類 型、表示格式和數據元允許值,內容與WS/363.1- 2011等16個標準要求一致。
3 企業標準數據集(子集)
企業衛生健康數據集(子集)是企業采用自己 的《企業衛生健康數據元目錄》中數據元及元數 據構建的數據集(子集),供企業自己開發使用, 其表達形式分為數據集(子集)的標準表達和生 產表達兩種。標準表達是書面表達形式,主要用于 書面交流和閱讀,而生產表達則是直接用于系統 開發的數據庫表。企業在確定開發一個衛生健康 應用信息系統時,必須先設計出該系統數據集(子 集)的標準表達,然后再將數據集(子集)的標準 表達轉換成生產表達。對數據元內部標識符作用 研究[7]提示:應將數據集(子集)標識符和數據元 內部標識符建立緊密聯系,有利于數據溯源、治 理、組織和分析,有利于區塊鏈的應用,有利于數 據安全傳輸和存儲。
3.1 數據集(子集)標識符
數據集是數據子集的總稱。按照WS/T 306— 2023《衛生健康信息數據集分類與編碼規則》[8]中 “主分類框架與代碼規則”和WS 370—2012《衛生 信息基本數據集編制規范》[9]中“數據集標識符編碼 規則”進行數據集(子集)標識符編制(見圖1)。
本文定義的數據集(子集)標 識符結構(規 則)與衛生行業信息標準一致,只是編碼含義不同, 更有利于企業信息系統軟件產品的開發。標識符第 1-3位代表衛生信息領域用HDS表示(與衛生行業 標準一致),第4位在GB 4757—2017[10]中明確衛生 行業代碼為L,第5位為應用系統數據庫代碼,第6位為數據庫中數據子集(數據表)代碼的百位代碼, 第7位為小數點,第8-9位為數據庫中數據子集代碼 的十位+個位代碼。按這個規則,一個應用系統中的 數據庫可用代碼空間為0-9,意味著一個應用系統 中最多可有10個數據庫(Database)存在,每個數據 庫最多允許999個數據子集或數據表(Table),數據 庫和數據表的代碼容量足夠衛生健康行業應用系 統開發使用。
3.2 數據元內部標識符
筆者認為,一個數據元內部標識符不僅在該數 據集(子集)中具有唯一性,還應內含該數據元所 在數據集(子集)和所在數據庫的標識,應該將數 據集(子集)標識符作為數據元內部標識符的組成 部分,這樣的數據集標識符和數據元內部標識符才 具有應用價值。比如可以通過數據元內部標識符來 改變源數據表的形態進行存儲和傳輸,使用時再還 原成源數據表,這樣可以增加數據存儲和傳輸的安 全性;還可通過數據元內部標識符對數據進行溯 源,對數據標準符合性檢驗,數據治理手段和方法 更多更科學,更有利于區塊鏈模式的應用。因此, 在數據集(子集)標識符編碼(見圖1)后加上4位(1 位小數點和該數據元在該數據子集中的3位流水 號),則構成該數據元在該數據集(子集)中內部標 識符,且滿足WS/T 306—2023和WS 370—2012中 對數據元內部標識符的結構(見圖2)。
3.3 數據集的標準表達
設計出數據集(子集)的標準表達的目的是為 了方便地獲得數據集(子集)的生產表達形式,以 便軟件開發者轉換成在關系數據庫中的生產用數 據表(生產表達)。表4是作者的一個軟件產品,根 據自己的《企業衛生健康數據元標準目錄》設計的 一個衛生機構基本信息子集的標準表達。
從表4中可知,HDSL10.02代表機構基本信息子 集。在子集HDSL10.02中,第3列第4行“組織機構代 碼”的內部標識符是HDSL10.02.004,其中HDS為 保留字,L為衛生行業代碼(GB 4757—2017),1是該 系統第一個數據庫(Database)代碼,02是該數據庫 中第2個數據子集(Table)代碼,003是這個子集中 數據元(字段)序號,本方法編制出的數據元內部 標識符與《衛生信息基本數據集編制規范(WS370 2014)》中數據元內部標識符結構完全一致,同時 又滿足將數據集(子集)標識符作為數據元內部標 識符組成部分的目的。
3.4 數據集的生產表達
數據集(子集)的標準表達形式并不能被數據 庫設計者或程序員直接使用,還需要將數據表(子 集)的標準表達轉化成數據集(子集)的生產表達 (可用于程序員編程的數據表),如SQL Server、 Oracle、MY SQL、DB2等的數據表。如果開發使 用數據庫系統是SQL Server,則機構基本信息子集 (HDS101.02)數據表的標準表達轉化成生成表達 形式后,方可用于開發(見表5)。
需要指出,使用不同數據庫系統,其數據表的 生產數據表的表現形式有所不同,數據庫設計者需 要了解各關系數據庫系統的差異,針對不同數據庫 系統,將設計的數據集(子集)標準表達轉換成生 產數據表,才能供編程人員使用。
4 映射和對照
執行衛生健康信息標準是衛生健康信息化發 展剛性需求。因此,企業衛生健康信息標準體系理 應與國家已頒布的衛生信息標準體系建立對照或 映射。在衛生健康信息標準體系的數據類標準中, 《企業衛生健康數據元目錄》中數據《衛信息數據 元目錄第2部分:標識》(WS363.22011)等16個標 準中數據元標準建立對照或映射;企業信息標準體 系中S3類型(可枚舉字符型)數據代碼必須與《衛 生信息數據元值域代碼第2部分:標識》(WS 364.2 2011)[11]等16個值域代碼標準建立映射或對照建 立映射或對照。此外,同時還應與其他不同政府部 門,不同統計口徑的S3類型(可枚舉字符型)數據代碼建立映射或對照,如醫療保險、公安戶籍、人口 計生、法定調查、臨床科研等。做到內部運行完全 執行企業信息(數據)標準體系,外部交換執行國 家衛生健康信息(數據)標準體系。
5 結 語
(1)嚴格企業衛生健康信息數據元目錄入選 條件
建立《企業衛生健康數據元目錄》的目的是為 了快速從數據元目錄中找到該數據元及元數據的 標準和描述,以便高效設計生產數據表,提高開發 效率。因此,入選企業數據元目錄的數據元要嚴格 限制,由于數據元目錄中的數據元并不具有業務場 景,因此,只收入具有高度概念聚合能力的一元詞, 避免或少用二元概念詞進入目錄。如中文姓名、醫 生姓名、護士姓名、技師姓名等含有“姓名”二字的 詞,本質上它們的元數據標準是一致的,只是在不 同應用場境或角色才有這些不同的稱謂,而收入數 據元目錄的數據元的基本要求就是不具有任何場 境、角色和語義。因此,在企業數據元目錄中只需收 入“姓名”,并定義其元數據及表達標準,其它就不 必收入目錄,避免造成數據元概念交叉,目錄“雍 腫”導致混亂,嚴格控制入選數據元目錄的數據元 對信息標準體系建立極為重要。
(2)企業數據標準體系是執行衛生信息標準 橋梁
主觀上,醫療衛生軟件企業都愿意執行行業衛 生健康信息標準,但在實際中難以落地。其原因是 衛生健康信息標準量大,新的數據元和值域表不斷 增加,就WS 363.1—2011《衛生信息數據元目錄 第 1部分:總則》等16個數據元目錄標準而言,10多年 來新增的數據元個數已遠遠超過2011年發布時的數 量,而WS 363.1—2011至今沒有最新修訂版發布,醫 療衛生軟件企業完全不知究竟新增了多少個數據元 和數據集(子集)。在這種現況下,按照編制《衛生 信息數據元目錄》的上位標準建立企業自己的衛生 健康信息(數據)標準體系,并建立與行業衛生信息 標準的對照和映射,并可方便地進行管理,不失為 執行衛生信息標準的有效方法。
(3)軟件企業必須建立自己的衛生數據標準 體系
從軟件企業自身長遠發展來看,建立自身的衛 生健康信息(數據)標準體系極為重要。軟件企業有 了自己的衛生健康信息(數據)標準體系,輸出或上 傳符合行業或國家數據標準的數據就不是難事了。 所以,有關部門應倡導醫療衛生軟件企業建立企 業衛生信息(數據)標準體系,并將其視為衛生健 康信息系統基本功能的重要組成部分納入監督范 籌,為執行衛生健康信息(數據)標準提供保障。
(4)衛生健康信息(數據)標準管理必須信息化
《企業衛生健康數據元目錄》和《企業衛生健 康數據元值域標準》等企業信息(數據)標準體系用 人工完成制修訂是不現實也是難以做到的,更難長 期維護,必須采用信息化手段設計和開發相應的管 理軟件或管理模塊。有人嘗試了這方面的研究[12]。 其軟件功能模塊至少具有數據元及元數據、S3類數 據元值域表、基本數據集(子集)、信息(數據)統 計指標、國家和行業信息(數據)標準參照體系等管 理,并具備自檢自測功能;應鼓勵或要求醫療衛生 健康軟件企業在其產品中建立“信息(數據)標準體 系管理”模塊。
參考文獻
楊曉春,秦婧,劉存勇.SQL Server 2017數據庫入門到實戰 (第一版)[M].北京:清華大學出版社,2020.
王英英,李小威.Oracle 12C從入門到精通(第一版)[M]. 北京:清華大學出版社,2018.
胡同夫.MY SQL 8從零開始學(第一版)[M].北京:清華大 學出版社,2019.
中國衛生信息標準委員會.衛生-信息數據元目錄:WS 363.1—2011[S].2011.
中國衛生信息標準委員會.衛生-信息數據元標準化規 則:WS/T 303—2023[S].2023.
中國衛生信息標準委員會.衛生信息數據集元數據標 準:WS/T 305—2023[S].2023.
馮牧青,賀云,嚴梅,等.數據集標識符與數據元內部標識 符現狀和應用研究[J].醫學信息雜志,2022(8):47-51.
中國衛生信息標準委員會.衛生-信息數據集分類與編碼 規則:WS/T 306—2023[S].2023.
中國衛生信息標準委員會.衛生信息數據集編制規 范:WS/T 370—2012[S].2011.
國家統計局.國民經濟行業分類和代碼:GB/T 4754— 2017[S].2017.
中國衛生信息標準委員會.衛生信息數據元值域代碼第2 部分:標識:WS 364.2—2011[S].2011.
馮牧青,賀云,高雪健,等.衛生信息標準服務平臺設計[J]. 醫學信息雜志,2021(7):48-52.
作者簡介
馮牧青,本科,工程師,主要研究方向為衛生健康信息標準 的應用與管理。
(責任編輯:張瑞洋)