孫衛星
湖州市中心醫院設備科,湖州市,313000
隨著計算機技術在醫學領域廣泛應用,醫學裝備管理信息化日益引起人們的關注,面對海量的信息,怎樣及時、有效、準確、可靠收集到有用信息,利用信息抽取技術將半結構化、非結構化的文本、電子和網頁信息轉化和提取為結構化的行業基礎數據,形成共享平臺并加以有效利用,已成為醫學裝備信息化建設的關鍵。自2006年起,在完成衛生部委托的“全國大型醫用設備管理信息系統”和浙江省衛生廳委托的“浙江省醫學裝備管理平臺(www.zjyxzb.org.cn)”等信息化項目的同時,我們對醫學裝備基礎信息進行收集和數據挖掘。不僅建立了滿足醫學裝備信息化管理項目所需要的基礎信息數據庫,更有價值的是探索了其獲取的方法和策略。
醫學裝備基礎信息,其涉及內容廣泛、數據龐雜、邊緣模糊、標準化程度低。在收集時,確定信息對象是非常重要的基礎工作。為保證信息收集的質量和利用價值,必須做到所收集信息的準確性,全面性和時效性。包括收集時間、地域、國別和語言等。該項目確定的基礎信息有:
(1) 醫療器械命名、分類與代碼 國家衛生部頒布《全國衛生行業醫療器械、儀器設備(商品、物資)分類與代碼》 (WS/T118-1999);國家食品藥品監督管理局頒布《醫療器械分類目錄》(國藥監械[2002]302號);《醫療器械分類目錄》2005版(征求意見稿,食藥監械函[2004]96號);國際標準化組織公布《ISO/FDIS5225命名-用于管理資料交流的醫療器械命名系統規范》;
(2) 生產企業信息 包括境內、外的生產企業信息,獲得國家食品藥品監督管理局醫療器械生產許可證企業的官方網站等;
(3) 經營企業信息 取得屬地食品藥品監督管理局醫療器械經營許可證的經營公司的信息;
(4) 醫療器械產品信息 獲準在我國上市的醫療器械產品信息,包括產品注冊證、產品標準(國際標準、國家標準、行業標準和企業標準)、醫療設備技術參數(Datasheet)等;
(5) 市場銷售信息 包括醫療器械產品的價格(對應醫療器械具體型號及配置)、市場分布、代理公司及銷售人員;
(6) 醫療設備應用信息 醫療設備操作規程,預防性維護模板,各種應用分類:高風險醫療器械、醫用計量器具和管理ABC等;
(7) 維修和售后服務信息 境內、外醫療器械產品的售后服務機構信息(含原廠、授權機構和第三方)及維修工程師信息。配件信息:包括生產商、供應商、配件的代碼等。維修資料:包括維修手冊、故障代碼和故障排除案例;
(8) 報廢和淘汰設備信息 已報廢和淘汰醫療設備信息,特別是大型醫用設備,包括設備類別、規格型號、制造商、使用單位等;
(9) 常用表格模板 提供大型醫用設備配置和使用管理所需常用表格,包括采購選型、裝機驗收、效益分析、故障排除和安全質控等工作流程的模板;
(10) 人員和機構信息 省內醫學工程、設備使用部門(影像醫學技術等)人員信息。機構信息:包括招標、資產評估和計量檢測機構等;
(11) 相關政策法規 省級及以上行政主管部門頒布的,與醫學裝備管理有關的政策法規(包括等級醫院標準);
(12) 其它 包括與醫學裝備有關的主要網站、行業協會、研究機構、學術團體和報刊雜志等。
醫學裝備信息收集,包括搜索、整合、保存和利用,是數據挖掘的基礎工作,直接關系信息應用的質量。信息從來源可以分為:實物型、文獻型、電子型和網絡型。根據不同信息類型,采取不同的收集策略。
搜索是網絡信息收集重要的一步,搜索引擎是當今主要的網絡信息檢索工具。隨著互聯網技術的發展,搜索引擎數量越來越多,功能越來越強,包括通用和專業的。收集醫學裝備信息,需要選擇合適的搜索引擎。對于比較專業的信息,用通用搜索引擎,會存在搜索結果數量過大、相關性不強、利用率底的局限性,所以要找到和選用專業的搜索引擎,特別是與醫療器械有關的專業搜索引擎,即“垂直搜索引擎”的概念。由于醫學裝備是一個交叉的學科,我們所要的信息,可能是通過醫學或者藥品專業,甚至是與商業有關的搜索引擎中得到。目前,我們能使用到的搜索引擎已有100余個,大部分是商業化的,相對管理方面的信息要少。
醫學裝備信息具有全球性,大部分高精尖設備產自發達國家,對于收集的信息,有語言翻譯處理要求。現在很多知名的搜索引擎都帶有在線網頁翻譯的功能,且提供的語種較多,如谷歌有50多種。這些工具雖然為解決語言問題提供了途徑,但性能不夠穩定,對網站整體翻譯時有阻塞現象,更困難能是專業化程度不高,特別是專業和縮寫詞匯誤譯嚴重,因此需要人工處理。
另外,醫學裝備信息還可以通過一些國外與醫學裝備有關的網站取得:包括專業數據庫(產品、標準、專利和企業),以及各個國家政府的醫療器械監管(FDA、SFDA),學術團體、協會和研究機構等非盈利機構。因為在這些系統中,也有類似的搜索引擎功能存在。當然,這些網站的發現也與搜索引擎有關。目前,我們已收集到了與醫學裝備相關專業網站7000余個,涉及120余個國家,30多種語言。通過對這些網站的在線翻譯,為我們收集信息提供豐富的基礎素材。
我們所收集的信息,特別是依靠軟件自動獲取的,必須經人工處理,包括甄別、剔除、補充和組合等。這項工作也貫徹于數據挖掘的整個過程,也是信息的價值所在。通過用人工智能的方法,獲取有價值的信息,一直是人們追求的目標。但就目前而言,醫學裝備基礎數據的挖掘必須用計算機和人工相結合的方法,采取更合理的解決方案,更多利用現有的技術。
搜索引擎的工作過程為我們提供一個信息處理的思路。首先,搜索引擎派出一個稱之為“蜘蛛”的程序,在網上發現新網頁并“抓取”,存入數據庫中。在這個過程中還會跟蹤網頁中的鏈接,訪問更多的網頁,我們稱為“爬行”。這些新的網址又會被存入數據庫,等待抓取。其后,蜘蛛抓取的頁面文件,經分解、整理,并以表格形式存入數據庫,這個過程稱為“索引”,在索引數據庫中,網頁文字內容及關鍵詞信息都有相應記錄。然后,用戶在搜索引擎界面輸入關鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理。最后,對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并根據排名算法進行排序。我們從搜索引擎的工作過程可以看出,搜索引擎技術策略是建立在手工收集信息方法的基礎上,所以再好的搜索引擎也無法與人的智慧相比,為了要取得最相關、最權威、最有用的信息,就要不斷根據應用的實際需求,對搜索引擎進行優化。同樣道理,搜索引擎及其優化方法的反向應用,成為取得醫學裝備管理基礎信息的策略之一。
在有合適的搜索引擎后,關鍵詞又是一個我們關注的問題,如稱謂不同但內容相近:醫療器械、醫療設備、醫療儀器、醫學裝備;稱謂不同但內容相同:CT、X射線計算機斷層掃描儀;西門子、德國西門子、西門子醫療等。對此,我們收集和建立了相關的關鍵字庫。另外,有些詞需要專業人員來分析之間的關系,如一些醫療設備的品牌與制造商,對于飛利浦品牌,其制造商除了荷蘭飛利浦醫療系統公司,還有在美國、芬蘭、英國、以色列及中國的醫療設備制造企業。這些詞建立關系后,我們在系統中稱之為“基礎字典”。數據挖掘結構示意圖如圖1所示。

圖1 數據挖掘結構示意Fig.1 Data mining structure schematic diagram
醫學裝備基礎信息,具體到實物型、文獻型、電子型,其來源:(1) 醫學工程相關文獻、出版物等。對于文本信息的處理,首先要將其電子化,目前主要使用光學字符識別技術(OCR軟件),對文本資料進行掃描,用電子設備(例如掃描儀或數碼相機)檢查紙上的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字。(2) 醫學工程相關的管理系統,如醫療設備管理信息系統。使用導出方法,或經整理生成一定格式的數據。(3)網絡資源。
收集信息時,會涉及到數據的存儲,保存在某個指定的關系數據庫中。如果醫療器械產品基本信息是電子文檔,則產品名稱(英文名稱)、規格型號、制造商、產地、性能與組成、適用范圍、注冊證號及有效期等,建立一個對應的product表,然后,將對應的信息保存到表中。我們稱其為結構性數據。
所謂非結構性數據,是不能用一個表中的字段就能對應的:包括辦公文檔、文本文獻、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。一般是建立一個包含三個字段的表,通過編號引用,通過內容描述檢索。這種對非結構性數據的處理,突破了關系數據庫結構定義不易改變和數據定長的限制,支持重復字段、子字段以及變長字段,并實現了對變長數據和重復字段進行存儲和管理,在處理包括連續信息在內的非結構化信息時,有著傳統關系型數據庫所無法比擬的優勢。
除了結構和非結構性數據外,還有其它數據,如在用醫療器械不良事件管理中,其進行持續改進(PDCA)的情況大不相同。有的處理過程很簡單,有的很復雜,還有可能有一些預料外的信息。雖然其數據具有結構化的特點,但變化很大,無法簡單建立一個表與其對應。而這些數據,互相有關系,要查看細節,無法按照非結構性數據處理。解決方式如下:
(1) 化解為結構化數據,對現有的對象中的信息進行整理分析,總結出不良事件中信息所有的類別,同時提取關鍵的信息。對每一類別建立一個子表,比如上例中我們可以建立計劃子表P、實施子表D、檢查子表C和改進子表A,并在主表中加入一個備注字段,將不關聯和未考慮到的信息保存在備注中。這樣處理,優點是查詢統計比較方便,但不能適應數據的擴展及其檢索,特別是不能對信息管理系統設計階段沒有考慮到的,同時又是要關心的信息的利用。
(2) 借助XML來存儲數據,在考慮一定的數據檢索效率情況下,同時為了能夠靈活進行數據擴展,采用更改XML中對應的DTD或者XSD,將不同類別的信息保存在相應的節點中。目前雖然要借助XPATH來完成查詢統計,但隨著數據庫對XML的支持提升,性能有望很好地解決。同時,將XML數據保存到數據庫的相應字段,完成信息的存儲,達到非結構性數據的利用。
目前,我們將挖掘到的醫學裝備基礎數據,不斷應用到與醫學裝備有關的信息管理系統中,包括,醫療機構的設備科信息管理系統、醫療器械物資管理系統,衛生行政部門的醫療器械集中招標采購管理系統、大型醫用設備管理系統,食品藥品監督局醫療器械監督管理系統、醫療器械不良事件管理系統等。為醫療機構和行政管理部門提供信息化管理和決策支持,也推動管理的規范化進程和信息共享。但從目前應用的廣度設深度來看,醫學裝備基礎數據的挖掘與應用工作尚處于起步階段,需要進一步完善和擴展,使其更具實用價值,以滿足信息化管理的更高需求,服務于人民群眾健康。隨著計算機技術的發展和實踐探索深入,我們相信醫學裝備基礎數據,在醫療器械的生產,流通、使用及監管等方面將會發揮出積極作用。
[1] 謝松城,徐偉偉,孫衛星.醫療設備管理與技術規范[M].杭州:浙江大學出版社,2004.
[2] 沈光寶,張映芳.醫藥信息檢索與利用 [M].北京:中國醫藥科技出版社,2007.
[3] 倪穎杰,王律科,張軍.基于高性能數據挖掘的網絡海量信息處理平臺[J].計算機工程與科學,2009,(S1):129-132.
[4]呼萬秀,陸濤,焦強.數據挖掘技術在制藥行業中的應用[J].信息技術,2012,10:63-66.
[5] 俞凱君.淺談醫療器械標準信息的檢索[J].科技情報開發與經濟,2010,20(21):109-110,119.