謝彬
(綿陽市中醫醫院 四川省綿陽市 621000)
數據挖掘是指從已有的眾多數據中將人們沒有發現但是極具研究價值、隱藏的數據或信息發掘出來的過程,發掘出來的信息與數據,通過進一步的分析與研究,可得出相應的規律或其他重要結論。隨著信息技術的不斷發展,數據挖掘已經成為一門應用性較高的新興學科,加之,數據挖掘涉及數據庫、統計學、并行計算、模式識別等多個學科內容,因此,數據挖掘也成為計算機領域的一個重要研究方向。具體地,數據挖掘可從數據庫、系統存儲的文件、網頁信息等多方面著手,主要通過可視化、神經計算和統計方法來加以實現。由于數據來源的主要途徑——數據庫的種類多種多樣,例如,多媒體型、時間型、空間型、特定對象型等,如圖1所示。因此,必須切實掌握各種數據挖掘的方法。
數據挖掘主要是由數據準備、開采操作、結論的表述和解答三部分組成。大部分數據挖掘總結出來的重要結論,主要是通過不斷地、反復操作以上三個過程所得。首先,數據準備這一部分又可細分為數據集成、數據選擇以及數據預處理這三個步驟。其中,數據集成主要是對處于多數據庫和多文件狀態下的數據進行整合,并將數據中的無效數據和不完整數據進行相應的處理;而數據選擇主要是為了甄別出被處理數據的集合,盡可能縮小被處理數據的范圍,讓數據挖掘更加高效;數據預處理的主要作用是為了解決數據挖掘自身存在的局限性。其次,開采操作主要是進行實質性的數據分析工作,在開采操作過程中,可通過數據挖掘系統幫助用戶進行預設,該方法被稱為發現型數據挖掘,或者通過用戶自主完成預設,該方法被稱為驗證型數據挖掘,這兩種方式都能促進假設的產生。隨后,通過具體分析,選擇合適的挖掘工具進行數據挖掘,并進行適當的驗證。最后,結論的表述和解答主要是根據人們的需求情況,將相對有用的信息提取出來,并通過相應的工具和途徑進行傳輸。結論的表述和解答不但需要通過可視化處理等辦法將結論表達出來,還需進一步對信息進行篩選,如果用戶沒有得到滿意的結果,數據挖掘這一過程將反復進行。
數據挖掘的作用主要有以下五種,分別是:
(1)相關性分析。數據的相關性主要是指數據庫中的部分數據之間存在重要聯系,但是還沒有被人們發掘。通常情況下,如果兩個或者兩個以上的數據存在一定的規律,則稱數據之間具有相關性。經細分,相關性可分為一般相關、因果相關和時序相關。總之,數據挖掘中的相關性分析主要是為了找出數據之間隱藏的關系。
(2)聚類。聚類主要是指將數據庫中記錄的數據劃分為相應的子集,在數據挖掘中,聚類主要是幫助人們提高對客觀事實的了解,同時,聚類是誤差分析和概念描述的重要基礎。
(3)誤差檢測。數據庫中的數據會出現偏離正常數據的情況,因此對數據庫中的數據進行誤差分析具有重要作用。誤差數據包含著許多重要信息,例如,不符合一般條件的特殊情況、數值會隨時間發生變化、觀測數據與模型預測值存在偏差等。誤差檢測主要是將實際測量值與參考值進行對比,進而總結出數據間存在的誤差。
(4)概念描述。大體上,概念描述可分為區別性描述和特征性描述,區別性描述主要是針對不同類型的對象進行描述,而特征性描述主要是為了描述某一類對象共有的特點。
(5)自主實現趨勢和行為的預測。數據挖掘可通過主動在數據庫中進行分析,進而完成趨勢和行為的預測,打破傳統手動整理、分析數據才能得出結論的局限。
隨著我國醫療水平的不斷提高,以及醫院信息系統的不斷完善,已經積累了相應的物質資源和人才儲備,其中,所積累的大量數據更是為數據挖掘提供重要基礎。加之,為適應信息化時代的發展,方便統一管理、資源共享,國家更是大力提倡醫院信息化建設,這為數據挖掘與分析贏得更多的資金支持和政策支持,為數據挖掘提供更佳的“成長”環境。
雖然,我國與醫療業務相關的數據資源較為豐富,但是,由于我國數據挖掘與分析起步較晚,當前仍處在初級階段,再加上許多醫療領域的工作者認為數據挖掘與分析是非常復雜的過程,需要涉及許多專業的數學工具和數據處理程序等,因此,對數據挖掘與分析只是敬而遠之,不敢大膽嘗試,諸多因素的作用下,導致我國數據挖掘與分析發展較為緩慢。很少有人知道,當前的數據挖掘與分析通過使用相應的軟件就能加以實現,并且操作起來并不復雜。
數據挖掘與分析在醫療業務中的應用主要體現在醫院財務與業務、科室運營績效考核、個人績效考核、資源配置和患者治療效益分析這幾方面。
在該領域運用最多的是數據挖掘方法是時間序列挖掘,該方式是常用數據挖掘與分析技術之一,主要是通過數據挖掘與分析對某些情況出現的次數進行總結、剖析,從而總結出相應的規律。針對醫療業務領域的數據挖掘與分析,其核心部分是對醫院財務數據進行進一步的挖掘和分析,以財務管理的視角對醫院不同時間段的投入和產出進行歸納、總結,所得出的結論不僅可成為選取醫院投資發展側重點的關鍵依據,還能成為劃分醫院經營淡季與旺季的參考節點,并以此為參考進一步對醫院的資金進行合理規劃,從而確保醫院能正常運轉。通過對醫院業務數據進行挖掘和分析,能更好地發現醫院的長處和短處,據此,在業務處理上能及時做到取長補短,優化醫院業務結構,充分發揮醫院優勢,進而增加醫院的經濟收入,提高醫院經濟效益。
在醫療業務中加入數據挖掘與分析,不僅能夠記錄醫院各科室的運營績效,還能將各科室的歷史運營績效和當前運營績效進行相應的對比分析,讓人們能夠更加直觀、清晰、公正地對各科室進行評價,以實現對醫院各科室運營績效的考核,同時,以數據挖掘和分析的結論為基礎,能更加客觀地對各科室的未來運營效果進行預估。但是,在進行醫院各科室運營績效考核之前,必須確定相應的考核機制,例如,在開單科室和執行科室運營績效進行考核時,主要利用數據挖掘與分析,對開單科室和執行科室對運營績效的貢獻情況來進行合理、公平地評估,再利用評估結果反推各科室的工作情況,從而使得評估結果更加合理、公正。
醫院作為公共服務系統,其組成架構龐大且復雜,因此,對工作人員的考核難度較大,但是,在醫院人力資源系統中利用數據挖掘與分析技術,醫療人員考核難度大的問題就能迎刃而解。數據挖掘與分析技術的應用不僅能對醫療工作人員的工作水平、工作效率、工作內容進行全方位的評價和分析,還能對醫療人員的醫德醫風進行評估,從而方便各個科室對工作人員進行獎懲處理。針對個人績效的考核主要有以下兩種評價標準,第一種標準是醫院短時間內所采用的關鍵績效指標;第二種標準是醫院長期發展的戰略目標。因此,對個人績效進行考核時,主要運用數據挖掘中的關聯規則技術,通過總結績效名列前茅醫護人員共有的特點,同時,還需要找出個人績效不達標的共有缺點,并排除一些無法進行績效評估的指標等,多種條件綜合考慮,進而確定個人績效考核的統一標準,以此考核醫療人員,從而實現公平、合理地對個人績效進行考核和評估。
醫院資源主要包括藥品、醫療器械以及醫院的基礎設施等,優化醫院資源配置,能緩解醫院資源的需求壓力,提高資源利用率,并能適當減少資金的投入和浪費。就目前而言,醫院資源配置中最為緊缺的是床位問題,利用數據挖掘與分析搜集不同患者的住院信息,例如,住院時間、住院人數、預計出院時間等,來進一步判斷床位的使用情況,從而實現對醫院床位的空缺情況進行判斷,以數據挖掘和分析為媒介,結合各個患者住院時間節點,充分協調各個科室,以實現醫院床位高效、合理的配置,進一步提高醫院床位的利用率和周轉率,盡可能地提高醫院對患者的收容量,讓需住院治療的患者能及時入院,不因排隊等待而耽誤病情,達到更好服務于患者的目的。
在醫療業務領域運用數據挖掘技術主要可從以下兩方面入手,一方面是住院期間所產生的醫療費用,另一方面是住院時間的天數。首先利用數據挖掘中的分類挖掘,對住院患者的信息進行初步地掌握,緊接著以分類挖掘為基礎進行再次挖掘,總結出住院患者的相應特征,并把有價值的數據記錄在只有決策功能的數據庫中。往后,如果有新的住院患者,工作人員可通過歷史記錄中相關患者的特征與當前患者的特征進行吻合度分析,從而便能預估新的住院患者需要支付的醫療費用以及住院時間。讓患者能較為準確地了解治療成本的投入,進一步做好準備。對醫院而言,能夠創造更多的經濟收益,提高資源的利用率,促進各個科室進行輔助檢查和咨詢,讓患者的治療更加透明化,提高患者對醫院治療的滿意度,提高經濟效益和社會效益的同時,能進一步減少醫療糾紛,緩解醫患關系。
通過數據挖掘與分析,對各類疾病患者年齡、性別、生活環境、職業等進行全面分析,總結出患該疾病人群的共有特征,進而,為相關疾病人群制定相應的體檢和預防方案,這樣不僅能有效預防疾病的產生,還能大大拓寬醫院業務范圍,提高醫院主動掌握并及時干預特定人群患病風險的能力。就以教師這一人群為例,由于教師的工作原因,需要長時間的站立,因此容易患腰椎和頸椎疾病。此時,醫院可以與學校合作,通過醫院公眾號等線上平臺,借助數據挖掘與分析,為教師人群提供養身保健知識及健康咨詢服務等,并定期為教師這類人群提供預防腰椎、頸椎這類疾病的治療。由點帶面,許多疾病人群都存在共性,所以要充分利用數據挖掘與分析,進而行之有效地拓寬醫院業務范圍。
綜上所述,數據挖掘與分析在醫療業務中的應用極為廣泛,主要運用在醫院財務和業務、個人績效考核,資源配置、患者收治效益、科室運營績效分析等方面。醫療業務在數據挖掘的輔助下,變得更加方便、快捷、高效,但目前我國數據挖掘和分析仍處在初級階段,需要人們共同努力,促進數據挖掘和分析技術的飛速發展,進而讓醫療業務的開展更加方便,助力醫療領域突飛猛進。