基于K-means聚類算法的住院費用數據挖掘

2017-10-18 03:44:31謝筱筱

現代計算機 2017年26期

關鍵詞：數據挖掘

謝筱筱

（廣西大學計算機與電子信息學院，南寧 530004）

基于K-means聚類算法的住院費用數據挖掘

謝筱筱

（廣西大學計算機與電子信息學院，南寧 530004）

目前，我國醫療費用快速增長，人均門診和住院費用的增長幅度遠遠大于人均收入增長幅度，醫療保險費用支出也大幅度提升。如何實現醫療保險費用控制是我國社會保險行業研究的一大熱點問題。運用K-means聚類算法，對醫保信息系統中記錄的住院病人等信息進行挖掘，研究分析之間存在的內在聯系，為合理控制醫療費用的過快增長提供參考。

數據挖掘；醫療保險；聚類算法；費用控制

0 引言

社會醫療保險是我國社會保障體系的重要組成部分。在我國通過國家立法形式確立了社會醫療保險制度，并建立起相應的保險基金，用以補償參保人因治療疾病所發生的費用。近年來，我國醫療費用快速增長，人均門診和住院費用的增長幅度遠遠大于人均收入增長幅度，人均醫保基金支出費用更呈現出了逐年上升的趨勢。如何將醫保基金支出費用控制在一個較低水平而又合理的范圍內，實現醫保醫療服務監督管理精細化，是當前社保事業工作中的一個關鍵。本文運用K-means聚類算法，對醫保信息系統中記錄的住院病人年齡、住院時間、住院總費用等關鍵信息進行挖掘，研究分析三者之間存在的內在聯系，尋找規律，為合理控制醫療費用的過快增長提供參考。

1 數據預處理

數據預處理作為數據挖掘算法實現和可視化展示的基礎，其處理結果直接影響算法的運行效果，是數據挖掘中非常重要的一個環節。預處理能剔除大量“臟數據”，提供更為干凈、準確、具有針對性的數據。本次實例研究以某醫院2016年住院數據為例，在醫保信息系統中導出包括病人信息表、住院信息表、住院費用明細等大量表格，從中選取對醫院住院費用影響較大的年齡、住院時間和總費用三個內容整合成病人住院信息表，并通過K-means算法進行聚類分析。為了保證結果的普適性，本次實例剔除了某些費用過高的異常數據。最終選取數據庫中年齡在80歲以下、總費用在10000元以下的樣本數據進行聚類分析。

2 基于K-means聚類算法的住院費用數據分析

本次實例研究在SPSS Modeler平臺上通過K-means聚類算法來完成。SPSS Modeler是一個業界領先的數據挖掘平臺，以圖形化的界面、簡單的拖曳方式來快速構建數據挖掘分析模型著稱，它提供了完整的統計挖掘功能，包括來自于統計學、機器學習、人工智能等方面的分析算法和數據模型，包括如關聯、分類、預測等完整的全面挖掘分析功能。K-means聚類算法是一種應用廣泛的聚類算法，它是以k作為輸入參數，把n個對象的集合劃分為k個聚類，相同聚類的對象相似度高，而不同聚類的相似度低。算法的優點為：（1）對屬性值有很好的統計和幾何意義；（2）對順序不太敏感。缺點為：（1）聚類結果依賴于初始聚類中心，對初始聚類中心敏感。（2）容易陷入局部最優。本次實例研究將通過K-means聚類算法完成。首先將經過預處理的病人住院信息表導入SPSS Mod?eler中，以便于對這些住院病人數據進行K-means聚類分析，找出不同年齡的發生住院行為的病人的行為特征，從而為以后識別出在住院中存在醫療保險欺詐的行為提供依據。

由于運用K-means聚類方法時，首先需要確定聚類數k值，但是k值平時主要還是主要依靠醫院專家的經驗，通常在聚類分析前難以確定，因此選擇自動聚類方法（如圖1所示）進行處理。

圖1 聚類過程示意圖

SPSS Modeler平臺中K-means聚類默認k為5，將聚類結果導出Excel表格，整理后如表1：

表1 K-means聚類結果（k=5）

從表1可初步得出:

（1）對于聚類-1，這類人員平均年齡為7.88歲，屬于青少年時期，所占比例20%，平均住院時間為7天，平均費用為363.30元。青少年時期身體素質好，恢復較快，符合表格中體現的人數較少、住院時間偏短、費用中等偏上等特征，但費用較高并不符合醫保基金費用控制中的要求，這就需要醫院醫生配合在開藥中進行適當控制，起到在保證身體恢復健康的基礎上節約國家醫保資源的目的。

（2）對于聚類-2，這類人員平均年齡為62歲，屬于中老年時期，所占比例為21%，平均住院時間為19天，平均費用為139.69元。老年時期身體較為虛弱，需要經常住院檢查，身體恢復健康需要時間較長，符合表格中體現的住院時間較長、費用中等等特征。

（3）對于聚類-3，這類人員平均年齡為23.18歲，屬于青年時期，所占比例為36%，平均住院時間為5天，平均費用為117.13元。青年時期正是身體最為健壯的時期，經過治療恢復健康的時間需要較短，相對來說需要住院費用較低也是顯而易見的。但這類人員住院人次較多，推測可以通過加大日常生活健康知識宣傳、樹立運動員典型和號召全民運動等措施來緩解，此外，造成這情況的另一種可能性為存在通過住院以達到刷醫保卡來頻繁買藥等醫保欺詐行為。

（4）對于聚類-4，這類人員平均年齡為63.11歲，屬于中老年時期，所占比例為10%，平均住院時間為11天，平均費用為575.71元。該類人員年紀較大，住院時間較長，平均費用超過500元，可能病人病種復雜、病情重、生命危險，故而必須采用費用高昂但是療效較好的藥物來緩解病情。

（5）對于聚類-5，這類人員平均年齡為27.10歲，屬于中青年時期，所占比例為13%，平均住院時間為24天，平均費用為353.65元。該類人員人數較少，費用偏高但住院時間較長，推測極為可能為患有慢性病人群，住院主要為起到療養作用，為能讓身體各項指標恢復到正常水平，從而選擇更為高效但價格偏高的藥物。另有一種可能性為存在過量開藥、代他人刷醫保卡買藥等醫保欺詐行為，這類人群值得重點關注。

以上分析顯示，需特別關注處于青壯年時期的病人，謹防出現醫保欺詐行為。

3 結語

社會醫療保險基金的費用控制問題一直是一道世界性難題，同時也是我國醫療保險研究領域的一大熱點。而運用數據挖掘等網絡信息智能化手段從長期以來積累的大量醫保數據信息中挖掘出門診、住院各個部分中的內在聯系，尋求費用控制方法，遏制醫保欺詐等不法行為的發生為解決這一老大難問題提供了一個新思路。

[1]高宇彤.基于離群點檢測的新農合醫保欺詐識別的研究[D].哈爾濱：哈爾濱商業大學，2015.

[2]樓磊磊.醫療保險數據異常行為檢測算法和系統[D].浙江：浙江大學，2015.

[3]戴子卿，陳俐.基于聚類方法的醫療費用數據挖掘研究[J].中國病案，2014，15（10）：66-68.

[4]李如平.數據挖掘中決策樹分類算法和研究[J].東華理工大學學報(自然科學版)，2010，33（2）：192-194.

[5]馮麗蕓.數據挖掘在我國醫保方面應用綜述[J].電腦知識與技術，2014，10（5）：880-901.

Abstract：At present,the hospitalization expenses in China is increasing rapidly,and the increasing range of per capita outpatient and hospitalization expenses is far greater than the increasing range of per capita income,thus medical insurance expenses is increasing significantly as well.How to realize the medical insurance expense control is a hotspot in the research of social insurance industry in our country.Adopts K-means clustering algorithm to mine information of hospitalized patients recorded in medical insurance system,so as to study and analyze the inner relations and provide reference for rational control of the excessive rapid growth of hospitalization expenses.

Keywords：Data Mining;Medical Insurance;Clustering Algorithm;Expense Control

Data Mining of Hospitalization Expenses Based on K-means Clustering Algorithm

XIE Xiao-xiao

（College of Computer and Electronic Information,Guangxi University,Nanning 530004）

1007-1423（2017）26-0054-03

10.3969/j.issn.1007-1423.2017.26.014

謝筱筱（1988-），女，廣西南寧人，本科，研究方向為數據挖掘

2017-07-06

2017-09-10