王大鵬,張麗天
(內蒙古醫(yī)科大學第二附屬醫(yī)院,內蒙古 呼和浩特 010030)
隨著“大數據時代”的來臨,信息化技術作為新時代的全新技術,已經全面存在于各大領域,其中,數據挖掘技術得到了最廣泛的應用[1]。醫(yī)院作為面向所有人民的一種基礎服務機構,每年接收的病人以萬為單位,對于每一個病人,對其信息都要進行詳細的記錄。并且,隨著醫(yī)院醫(yī)療制度、醫(yī)療設備的完善,醫(yī)院醫(yī)療水平的不斷提高,醫(yī)院所需要記錄的信息越來越多。可想而言,經過幾十年來歷史信息的積累,醫(yī)院的信息數據是極其龐大的。這些數據是寶貴的,不僅是對于醫(yī)院本身來說,對于國家的醫(yī)療科研工作亦是如此。因此,傳統(tǒng)的統(tǒng)計分析方法已經無法滿足現在的需求,必須引入新技術,而信息化技術是一個很好的選擇。
通過應用信息化技術,對醫(yī)院數據進行數據挖掘,分析和發(fā)現出其中的一些有深度的、潛藏的問題或者有價值的內在規(guī)律,并對這些問題進行解決、對這些內在規(guī)律進行分析應用,就能夠不斷的提高和完善醫(yī)院的各個方面,例如醫(yī)院的人員管理、對病人治療效果、各種信息的管理等。
數據挖掘技術,也被稱為“數據采集”和“資料探勘”,作為一種全新的技術,它屬于信息技術領域,可以實現對數據的處理和分析,從而幫助人們建立全方位的、完整的信息框架,做到信息的規(guī)范化[2-3]。數據挖掘技術經歷了四個階段,其中包括電子郵件階段、信息發(fā)布階段、電子商務階段、全程電子商務階段,到現在該項技術已經基本完善,并逐漸形成一門學科。
醫(yī)院面對這長久以來積累的數據資源和臨床信息,即使是對信息進行整理、規(guī)范化,傳統(tǒng)的統(tǒng)計分析方法都幾乎難以實現,更別奢想從這龐大且復雜的、數以萬計的信息中發(fā)現問題,獲取內在規(guī)律了。所以,必須充分應用數據挖掘技術,才能從海量的數據中發(fā)現潛在的問題、提取對于醫(yī)院來說有價值的信息,從而為醫(yī)院在以后各方面管理的科學決策提供數據基礎。
(1)信息目標的確定。根據醫(yī)院的實際情況,確定所需要解決的問題、或是想要了解醫(yī)院某些方面的情況,從而確定進行數據挖掘的數據對象。確定數據對象后,進而在醫(yī)院信息系統(tǒng)中進行相應的查詢,找出所有有關的數據,并提取出來進行單獨保存,以方便后續(xù)的工作[4]。
(2)數據清理。由于查詢出來的數據各式各樣,格式盡不相同,再加上醫(yī)院的數據本身就存在一定的冗余性和重復性,所以必須在數據分析前進行相應的數據清理,也就是數據挖掘技術中的數據預處理工作[5-6]。對于數據中一些不需要的字段、或者重復的、錯誤的字段進行刪除,對一些與此次數據挖掘目的不相干的數據特征剔除掉,從而減少數據的特征維度、數據的樣本個數,避免在后期對數據進行分析時,造成時間上的浪費。
(3)數據轉換。在選定好數據挖掘模型后,根據模型對數據格式的需求,在必要情況下,對數據進行變換,例如對數據行歸一化或者數據概化,如果模型只能分享離散型數據,還得對數據進行離散化[7]。
(4)數據挖掘。這是最關鍵、最重要的一步,根據實際目標,選擇好合適的模型與挖掘算法,從而對數據進行挖掘、分析。實現數據挖掘的方法有很多,例如回歸模型、決策樹模型、關聯(lián)分析、分類與預測模型、神經網絡和偏差分析等。對于挖掘出來的結果,在實際運用前,還需要進行多次檢驗,以保證其正確性。
(1)對數據進行匯總。統(tǒng)計匯總方式有兩種,一種是單向統(tǒng)計,另一種是復合統(tǒng)計[8]。根據醫(yī)院的實際需求情況,選擇合適的統(tǒng)計方法,對一段時間內的數據進行綜合整理。例如想對醫(yī)院的工作質量進行匯總的這種單方面工作,就采用單向匯總;想對醫(yī)院中的不同護理模式進行比較,就采用復合統(tǒng)計。
(2)對數據進行分析。數據得到匯總之后,就可以對其進行統(tǒng)計分析。統(tǒng)計分析有兩個部分,一種是統(tǒng)計描述,它是對特定的統(tǒng)計指標進行統(tǒng)計,主要功能是指標的計算和統(tǒng)計制圖,統(tǒng)計描述的特點就是“描述”二字,可以通過圖表或者圖形對現實情況的規(guī)律進行描述;另一種是統(tǒng)計推斷,是通過一部分樣本的信息和規(guī)律推斷到總體的一種方法,它主要包括對總體未知數的估計、假設和檢驗,比如邏輯斯特回歸分類模型、EM算法和馬爾科夫模型等,它們都是以概率論或者統(tǒng)計學為基礎[9-10]。
(3)為科學決策提供數據。通過數據統(tǒng)計分析,獲取了許多有價值的信息。在醫(yī)院的未來規(guī)劃和發(fā)展上、在醫(yī)院的一些人事管理上、在醫(yī)院的醫(yī)療制度的改善上等,通過統(tǒng)計分析得到的規(guī)律和結論都能得到應用,為醫(yī)院提供更為合理的、有數據根據的科學決策。
近年來,隨著我國信息科學領域的不斷進步,促進了醫(yī)院信息系統(tǒng)的智能化,記錄了更多全面詳細的數據。這些數據對于醫(yī)院來說是寶貴的經驗財富,要想這些數據不被浪費掉,就必須引入數據挖掘技術,醫(yī)院可以根據這些數據進行數據挖掘和統(tǒng)計分析,從中獲取大量值得深究的數據信息,這樣不僅能大幅度提高醫(yī)院的醫(yī)療質量、推動醫(yī)院的進步,而且還能幫助醫(yī)院在今后的發(fā)展規(guī)劃上,為醫(yī)院提供多種科學的決策,供醫(yī)院進行參考,從而做出合理的決策,讓醫(yī)院少走彎路和更好地為人們服務。