◆劉 璇 王 坤
(吉林省藥品檢驗所 吉林 130033)
近年來,以大數據、物聯網、人工智能、5G為核心特征的數字化浪潮正席卷全球,我們迎來了大數據時代,與檢驗相關的各類信息系統日益成熟,更多的系統數據每天以數以萬倍的速度不斷增長。2015年8月,國務院印發《促進大數據發展行動綱要》中指出,大數據已成為“提升政府治理能力的新途徑”。十九大以來,習總書記對建設網絡強國、數字中國、智慧社會高度重視。2018年《“數字吉林”建設規劃》也提出“完善相關標準體系,建設互聯協同、滿足監管需求的行政審批、監管檢查等應用系統”。因此,加快推進檢驗信息系統數據的規范化建設,是行業持續健康發展的重要保障。
目前,我國藥品領域檢驗信息系統數據的利用度不高,缺乏科學、深入的規范化分析與管理,過往的管理方式僅僅是對采集到的數據進行簡單的歸類,缺少有意義、有價值的深度挖掘。之所以出現這樣的現象,是由于這些檢驗數據存在實時、孤立、多源、異構、龐雜、無序的特征,從技術層面分析,其根本原因在于缺乏先進的數據管理手段。因此,通過數據分類及編碼等技術手段,將數據進行有效整合形成豐富的數據庫,對檢驗信息系統的規范化管理和標準提高都具有巨大的應用價值和實際意義。
檢驗信息系統是對實驗室“人機料法環測”六個主要因素進行信息化管理,是實驗室信息管理系統(LIMS)(Laboratory Information Management System)的重要組成部分(見圖1)。在系統的構建中,通過對數據和流程進行規范,解決因含糊業務邏輯、不規范編碼和無實際意義等出現的數據(又稱“臟數據”)質量低等問題(見圖2)。“臟數據”產生的原因是因其來源不同,它的表述方法、單位、數據格式可能大相徑庭。“臟數據”不能直接進行采集、分析和統計,必須進行數據清理、數據挖掘,以保證LIMS各系統的一致性和完整性,同時保證有效、準確的檢驗數據能被高質量的利用,實現數據資源應用最大化。

圖1 檢驗信息系統
檢驗信息系統數據規范化管理的構建,有利于行業內部縱向信息的整合,實現互聯互通,還有利于跨系統的政府橫向信息整合,實現資源共享、業務協同,為藥品行業市場監管提供可靠的數據保障。

圖 2 “臟數據”樣例
數據元(Data element):通過定義、標識、表示以及允許值等一系列屬性描述的數據單元,是不可再分的最小數據單元,這里規定了檢驗數據元的標識符、中文名稱、短名、定義、數據類型和值域等。表1列出了數據元的所有屬性。

表1 數據元屬性
舉例如表2所示:

表2 數據信息數據元
標識符:為數據元分配的與語言無關的唯一標識。
DE:Data Element,表示數據元。
業務領域代碼:用2位數字表示,數字大小無含義,從01開始編碼。
順序號:用3位數字表示,數字大小無含義,從001開始編碼。業務領域代碼和順序號之間加“.”隔開(見圖3)。
數據元值域:數據元通常有一個允許值的集合,這個集合被稱為值域,數據元允許值的類型和所允許的最大和/或最小長度、數據元值的表示格式。表3列出了數據類型,表4列出了數據格式,這里規定了檢驗數據分類規范、編碼規范以及相關信息的數據元值域。

圖3 數據元標識符結構

表3 數據元值的數據類型

表4 數據元值的數據格式
舉例如表5:

表5 標準類型代碼表(CV05.005)
代碼表格式及標識:數據元值域代碼表應以表格的形式列出,表格由值和值含義兩欄組成。代碼表具有唯一標識符,用來識別和表示數據元值的編碼體系。
CV:Coded Value,表示數據元值域。
業務領域代碼:2位數字,表示檢驗信息系統數據管理規范基礎數據元中業務領域的代碼。
順序號:用3位數字表示,代表每一類別下值域代碼表對應的數據元在基礎數據元中的序號。業務領域代碼和順序號之間加“.”隔開(見圖4)。

圖4 數據元值域代碼表標識符
隨著藥品檢驗行業的蓬勃發展,檢驗信息系統無論是在日常生活,還是在生產工作中都發揮著難以替代的作用,檢驗數據的橫向寬度與縱向高度也在擴大,實驗室的信息化建設越深入、使用的信息系統越多,各種業務數據也積累越多,因此構建統一規范的數據管理體系,保證可靠準確的檢驗數據能被高質量的利用是重中之重。當前民營第三方檢驗檢測機構略顯規模、生產企業自檢實驗室逐漸壯大,對出具的檢驗數據、工作程序的規范都提出更高的要求。
檢驗信息系統的數據規范化管理,一方面可實現數據高效、準確的傳輸和應用,提高信息系統的易維護性、可重復性、和可集成性,加快整個行業的信息化進程;另一方面打破各個系統自為政的現象,提高檢驗數據的利用率,為產業大數據的高效應用積累數據,為各級主管部門提供及時、有效、權威的數據支撐,使宏觀控制、局部調整有據可依,更為各行業的信息化發展摸索經驗,提升信息化在檢驗工作中的重要地位,使信息系統真正在產品檢驗、監督管理中發揮保障作用。