



摘要:隨著醫院信息系統的普及和規模的擴大,其中蘊藏的大量信息卻并沒有得到有效利用。對這些數據的挖掘可助醫院更高效地對醫院資源進行合理分配、管理,提高醫療效率和質量,并為患者帶來更及時、舒適的服務。本文嘗試使用分類的數據挖掘方法,利用R3.2.0軟件對2013年山西省某三甲醫院住院病案首頁信息進行分類算法建模,并對2014年的醫療費用及住院期長度進行預測,最終得到相關結論及建議。
關鍵詞:病案首頁 分類算法 醫院管理
一、引言
醫院在運營過程中積累了海量病案首頁數據,僅利用簡單的統計方法無法滿足深入研究的需要。而在數據庫基礎上逐步發展起來的數據挖掘技術,能夠發現隱匿在數據背后的那些具有醫療價值的信息。由此,將數據挖掘技術應用在病案首頁數據的處理和分析的過程中可能會有新的知識發現,故本文采用了分類的挖掘方法對影響醫療費用與住院期長度的因素進行分類算法建模,并對2014年的樣本數據進行預測。
二、文獻綜述
劉炳麟(2012)在探究住院費用的影響因素時建立了決策樹模型,并且在預測醫院門診工作量時采用Microsoft時序模型;李鵬(2009)采用結構方程模型對患者住院費用的影響因素進行分析;張云洋(2009)結合數據的特點采用改進的Apriori算法分析醫院的醫療質量情況;付學宇(2009)在選取能夠衡量醫療質量指標的基礎上構建貝葉斯網絡模型探究病案首頁數據中潛在的、未知的因果關系。觀察先前的研究方向發現,從醫院管理的角度進行挖掘的研究并不多,因此結合此次研究的數據,本文嘗試建立分類算法模型,預測醫療費用以及住院期長度兩個指標,試圖幫助醫院更高效、合理地配置醫療資源,提高病患收治效益。
三、數據預處理
數據預處理是在對數據進行主要的處理之前進行的一些處理。由于所研究的大多數數據是參差不齊的,所以可能會導致后續的數據分析出現問題,嚴重時會導致結論偏差較大,故數據預處理是極為必要的,其可以提高數據挖掘模式的質量和效率。
(一)數據預處理
本文數據來自2013與2014兩年山西省太原市某三甲醫院真實的住院病案首頁數據,共計病案數38181條,涉及近160個指標。本文僅選取與研究目的相關的一些指標,并進行隱私過濾、異常值與極端值的處理、屬性轉換與缺失值的處理。
(二)變量離散化
對于住院期長度、醫療費用等數值型變量,本文進行離散化處理;對于付費方式、戶籍所在地等類別變量,本文對其進行賦值。
四、模型的構建
(一)模型的選擇
選擇模型時,因為貝葉斯分類對指標間獨立性要求過高,本文未做考慮。實際操作過程中,本文選取了決策樹、隨機森林、人工神經網絡、支持向量機等四種算法來做研究比較。
(二)訓練集的構建
機器學習的分類方法需要有一個已知分類的訓練集作為模型學習的基礎,為滿足分類模型的訓練和測試要求,本文對經過預處理的2013年的樣本構造五折交叉驗證集。
(三)變量的選取
訓練集產生后,本文將匯總離散化產生的11個變量數據集讀入R軟件中,用不同分類模型進行了試算,發現有些變量在有些模型中不參與運算或作用很小,說明這些變量在分類中作用不大。本文采用信息增益的方法進行特征選擇,實驗結果表明,優化后的變量集對各個分類模型的分類效果(識別精度)均有很大改善。
表1 最終使用變量列表
(四)各算法分類結果比較
1.醫療費用(EIH)為因變量的分類模型結果比較。本文首先使用已得到的訓練集和測試集在R中分別在不同的分類模型上進行了具體實現,由于分類的水平值較多,本文只列出訓練集與測試集的錯分率:
表2 五折交叉驗證結果
從表中可以看出,各個模型在訓練集上和測試集上的錯分率都較低,除決策樹測試集以外,均低于10%,且測試集上的錯分率均略高于訓練集。其中,隨機森林的錯分率最低。
接著,本文使用以上四種算法對2014年的樣本數據組成的預測集進行了預測,結果見表3。
表3 各模型預測結果比較(1)
隨機森林模型預測結果與實際數據最為接近,支持向量機的預測結果也較優于其他兩類。但是二者的錯分率都在5%以上。
2.住院期長度(LOS)為因變量的分類模型結果比較。與1中的分類方法相同,本文直接列出各分類算法的預測結果比較:
表4 各模型預測結果比較(2)
支持向量機與隨機森林的預測結果與實際數據最為接近,但是二者也都具有5%以上的錯分率。就醫情況隨著年份的增長變化較大,如人們的收入增高,對就醫與醫療效果的質量更為看重,因此投入更多;亦或因為現行醫療體制存在不健全的地方,過度醫療的現象屢禁不止。
五、本文的不足與建議
(一)本文的不足
1.本文所采用的數據均來自于病案首頁的信息,數據不夠豐富,得到的分類模型并不能更高效地對未分類樣本進行預測。
2.醫療情況隨著技術的進步以及人們對待醫療的態度變化較快,故采用前一年的數據建模,泛化能力并不強,分類預測結果一般偏低。
3.數據量不足。本文只取一家三甲醫院的數據,各醫院的專長以及構成的不同可能影響對總體的判斷,因此預測僅限于同一醫院。
4.部分變量缺失。本文數據取自某三甲醫院的病案首頁,其一些關鍵信息雖在病案首頁體現,但本文研究時并未得到這些數據,在一定程度上影響了結果的可靠度與深度。
5.對患者及醫院的行為分析還不夠深入,一定程度上影響了變量的構建。
這些問題都有待在今后更深入的研究中逐步完善、改進。
(二)對分類算法在醫院管理中運用的建議
1.通過對大量病例信息的統計與挖掘,建立病例組合,對已有的大量相似病案聚類,當有新患者入院時,可找到與其最相似的病案,因此可以提前告知患者大概的費用、住院時間和治療過程等,可起到輔助診斷的作用,并在一定程度上可有效監督醫療費用的上漲問題。
2.逐步建立基于山西省的病案管理系統,并結合數據挖掘技術實現輔助診斷以及合理管理醫院資源、提高病患收治效益的目的。
3.完善現有的法律、法規、制度,并對所研究的數據進行加密處理,以保護被調查者的隱私。
參考文獻:
[1]劉炳麟.數據挖掘技術在病案信息管理中的應用研究[D].山東大學,2012.
[2]張文彤,竺麗明,王見義,鮑培芬.基于BP神經網絡的中醫醫院住院費用影響因素分析[J].中華醫院管理雜志,2005(03):20-24.
[3]陳虹.某軍醫大學附屬醫院住院費用結構、影響因素及費用標準研究[D].第三軍醫大學,2008.
[4]羅仁夏,吳彬.醫療保險住院費用調查及多因素分析[J].中國醫院統計,2006(01):47-49.
(作者單位:山西財經大學統計學院)