◎龔錦道
隨著國內醫療保險行業的飛速發展,覆蓋面也正在持續擴大,醫療保險基金欺詐騙保形勢也隨之越來越嚴峻。由于違規騙保的方式非常多,而且違規操作隱秘,加上國內針對醫保基金防騙防詐的有關經驗略微落后,因此一直以來醫?;鸱莉_防詐的任務都面臨比較嚴峻的考驗。當前階段對醫保欺詐行為的審核,很大一部分仍然需要依靠醫保管理機構的相關工作人員檢查大量的醫保記錄,根據以往的工作經驗進行查驗。這種查驗過程不但工作量非常大、效率較低下,而且不足以完全確保騙保行為被正確判斷,因此需要構建醫保防欺詐智能審核系統從而強化信息審查,改善醫保防欺詐工作的技術水平,為醫保欺詐審核與監管提供現代技術支撐。本論文主要介紹醫保防欺詐智能審核系統的總體設計、主要功能模塊設計及成果預測展示。
針對目前存在基本醫療保險基金監管乏力,同時全國醫院信息化系統中存儲了大量患者的醫保數據,醫保數據資源并沒有得到充分利用的現狀,對海量醫保使用的病例數據進行異常識別,實現智能化的醫保數據智能審核、醫保數據查詢、新醫保記錄預測、醫保基金趨勢預測、醫保基金統計分析,以及基本醫療保險基金收支預警,構建能夠減少基金欺詐、分辨醫保騙保的技術支撐。提供基本醫療保險醫療服務管理和質量控制服務的決策依據和技術支持,為政府多部門聯合決策提供數據支撐,通過海量復雜的已知醫保數據建立某種數據模式,從而預測騙保行為的可能趨勢,進一步保證基本醫療保險基金的合理有效利用提供有力的技術支撐。
基于醫保欺詐數據,醫保防欺詐智能審核系統選取目前Python的主流Web開發框架Django進行醫保審核系統的實現;使用MySQL作為底層的數據庫以及醫保數據的持久化管理軟件。該系統主要的功能模塊包括:智能分析模塊、智能服務模塊、可視化模塊,本文所設計的系統架構如圖1所示:

圖1 醫保智能審核系統架構
醫保智能審核系統框架主要包含數據處理層、數據智能分析層、應用展示層和用戶層。數據處理層通過對從數據庫中提取的數據進行數據清洗,主要包含缺失值處理、噪聲處理以及數據規約與壓縮,再對清洗過后的數據進行特征處理,主要包含特征選擇、特征降維、特征工程三個步驟,得到最終可直接用于分類模型訓練的醫保數據。數據智能分析層是系統的核心算法層,主要利用本文提出的改進算法ALO-KM、KM-LR,以及傳統的機器學習算法GradientBoosting、隨機森林等算法對處理過后的醫保數據集中費用異常和違規行為進行檢測,并給出檢測結果供相關審核人員進行決策。應用展示層通過構建醫保數據管理及搜索、醫保分類模型訓練、新記錄上傳審核、審批基金趨勢預測、醫?;鸾y計分析以及醫保基金篩選預警等可視化模塊,為相關用戶提供應用服務。最后用戶層中為相關用戶如醫務人員、智能部門等提供系統的使用接口,幫助用戶對醫保費用異常等行為進行高效檢測。
在對醫保防欺詐智能審核系統的總體結構和功能模塊進行分析時,應該通過從一個用戶進行使用的角度來將系統中所有相關的功能與服務來設計規劃,從而對系統的模塊進行進一步的分析設計,通過對該系統的分析與研究,從而對醫保智能審核系統有更進一步的了解。功能模塊分析就是在設計系統功能模塊的基礎上把它細化、分化,在這個過程中找到問題并解決問題,發現缺陷并彌補缺陷,在完成各個功能模塊的基礎上優化每個模塊接口的處理過程。本文搭建的醫保防欺詐智能審核系統中各功能模塊大致可分為智能分析模塊、智能服務模塊、可視化模塊。
基于醫保大數據的分析審核,能夠提供對結算數據,電子病歷數據,藥品進銷存數據,參保人參保數據,經辦數據等全體量的數據綜合分析挖掘,將數據挖掘和機器學習技術應用到醫保欺詐檢測中,挖掘病人就診記錄中的潛在價值,對醫保使用記錄中欺詐與違規等不合理的行為進行查驗。
智能分析模塊主要是利用多種算法所組成的智能分析算法核心。智能分析算法核心主要分為兩部分,一部分包含對現有醫保欺詐數據進行模型擬合的算法,如本文提出的KM-LR、ALO-KM算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機森林等算法,用經過數據處理和特征處理后的醫保樣本進行訓練并進行優化,最終得到用于醫保防欺詐審核的分類模型;另一部分主要是針對醫保數據中醫保基金的審批趨勢情況進行預測,該功能使用自回歸整合滑動平均模型(AutoregressiveIntegratedMovingAverageMode,ARIMA)來實現,它是一種用來進行時間序列分析預測的模型,利用ARIMA算法對醫?;饠祿M行建模,對基金審批情況進行預測。
(1)醫保審核模型在線訓練模塊。
醫保審核模型在線訓練模塊主要基于處理過后的醫保數據,對本文提出的ALO-KM、KM-LR算法,以及SpectralClustering、GradientBoosting、KNN、決策樹、隨機森林等算法進行在線擬合,得到可靠高效的醫保異常審核模型,為后續的醫保數據審核提供模型基礎,醫保審核模型在線擬合模塊處理流程如圖2所示。

圖2 醫保審核模型在線擬合模塊處理流程
如圖2所示,用戶可以根據自己的需求選擇不同的算法,對當前數據庫中經過處理的醫保數據進行在線模型擬合,以規避反復使用一個陳舊的模型對日益累積的新數據進行審核時效果有所下降的弊端。新訓練好的模型會暫存在系統中,以供后續的新醫保記錄進行審核,到下一次模型訓練時將會被自動覆蓋。進行模型擬合時,把經過數據預處理和特征處理之后的醫保欺詐數據樣本劃分為訓練集和測試集兩部分,其中訓練集用來訓練分類模型,再用測試集對模型進行測試可以得到當前模型在測試集上的G-mean、BER、分數與混淆矩陣,使用戶可以方便清晰的了解到當前模型的分類性能,為后續對其他新的醫保樣本審核結果提供可靠的依據。之所以采用這四種分數作為各個算法優劣的評價指標,是因為醫保欺詐數據屬于正負樣本不平衡的數據,而這幾種分數是評估一個不平衡類分類算法綜合性能的評價指標,可以同時考慮到多個方面。
(2)醫保報銷審批基金在線預測模塊。
醫保報銷基金審批金額的趨勢預測模塊,主要是通過對醫保數據進行統計提取后,對提供的按審批日期進行排序的醫?;饒箐N審批金額,利用ARIMA算法對基金的審批金額趨勢進行預測,通過提前對基金審批趨勢的了解,可以根據最近的基金審批情況,在一定程度上模擬出接下來的審批金額變化,從而讓決策部門更早的發現基金運行中潛在的問題,并及時調整政策進行處理,其處理流程如圖3所示。

圖3 醫保審批基金在線預測處理流程
智能服務模塊主要是以底層的智能核心算法為支撐,實現醫保智能審核系統中圍繞審核醫保欺詐數據的相關核心功能及服務,主要包括醫保數據展示及搜索、醫?;鸾y計分析、醫保記錄上傳審核以及醫保基金費用預警等服務。
(1)醫保數據展示及搜索模塊。
你遇到困難了?那是一件好事!為什么?因為,通過不斷地克服困難所取得的一次又一次勝利是你成功的階梯,每一次勝利都會幫助你增長智慧和積累經歷,每次你遇到困難都用積極的心態克服困難,那么,你就會成為一個更好、更重要、更成功的人.
本模塊通過MySQL作為底層數據庫,可以為用戶分頁顯示現有的醫保數據記錄。并且可以通過騙保記錄單號或個人編碼來搜索查看相應的記錄,對當前頁面的醫保記錄進行打印或導出。
(2)醫保基金統計分析模塊。
本模塊能提供層次豐富、維度多樣的統計分析圖表,從不同的維度將數據轉化為更容易理解的圖形解釋,使數據更容易被理解,對基金的使用情況進行側面的分析展示。提供的維度包括對患者的藥品費、檢查費、治療費、床位費、手術費等各種費用。通過這些不同的維度對基金報銷的審批情況進行分析,能更好地讓決策部門掌握醫?;鹗褂玫娜?,并更好地定位其中存在的問題,為制定科學有效的決策提供強有力的數據報表分析支持??梢圆捎每梢暬ぞ甙虻谌娇梢暬ぞ邔χ虚g結果和最終結果進行數據可視化展示,本文中該模塊使用Highcharts圖表庫設計了有一定交互性的柱狀圖和餅狀圖,對比了騙?;颊吲c沒有騙保的患者在藥品費、檢查費、治療費、床位費、手術費等費用上的差異,以及各項費用占總費用的比例,形成了簡潔明了的匯總分析,有助于更好地識別異常行為。
(3)醫保記錄上傳審核模塊。
本模塊主要是利用醫保審核模型在線擬合模塊中訓練得到的分類模型,對新上傳的醫保樣本進行在線的快速審核。由于上傳的醫保數據多為沒有經過處理的原始數據,因此需要先對上傳的樣本數據進行預處理,再進行預測,最終向用戶分頁展示出審核結果,即是否涉及騙保,本系統中僅支持上傳。csv格式的醫保數據文件。醫保記錄上傳審核模塊的處理流程如圖4所示。

圖4 醫保記錄上傳審核處理流程
(4)醫保基金費用預警模塊。
對各模塊進行可視化,主要是為用戶提供清晰、簡潔、明了的可視化界面,為用戶提供方便有效的醫保智能審核服務交互并展示各個服務的結果,醫保系統界面一致、可靠、高效,有良好的用戶體驗,以便用戶能輕易上手進行操作并且保證用戶操作的有效性,主要包括醫保數據展示,模型訓練結果展示,新記錄審核結果展示,醫?;饘徟痤~趨勢展示,統計圖表展示,醫保基金篩選預警展示等。
醫保防騙智能審核系統的可視化模塊使用主流Web開發框架Django及其MTV模式進行可視化界面的實現,前端頁面使用了JavaScript、Bootstrap、Ajax等技術。
(1)醫保數據展示界面可以通過在搜索框輸入騙保記錄的順序號或個人編碼來查詢數據庫中相應的醫保記錄信息。
(2)醫保審核模型訓練模塊分成兩部分,一部分集成A LO-KM、SpectralClustering、AgglomerativeClustering等算法對無監督模型進行訓練;另一部分集成KM-LR、GradientBoosting、KNN、決策樹以及隨機森林等算法,對有監督模型進行訓練,并進行測試。通過選擇不同的算法來擬合醫保數據分類模型。
(3)醫保記錄上傳審核模塊利用已經訓練好的機器學習算法模型,對新上傳的醫保樣本數據進行審核,預測醫保樣本是否涉及騙保。
(4)醫療保險基金審批金額趨勢預測模塊通過應用ARIMA算法,對醫保報銷審批金額時間序列進行預測。首先利用大數據挖掘算法、統計分析技術對醫保數據集按時間進行匯總分析,得到按時間排序的每天醫保審批金額的總值,然后把該基金審批金額的總值應用在ARIMA算法中,對基金的消耗趨勢進行了解,可以得到真實值和預測值變化的擬合過程。
(5)醫?;鸾y計分析模塊使用Highcharts圖表庫提供了層次豐富,維度多樣的統計分析報表,從不同的維度,側面對基金的使用情況進行分析展示。為用戶展示了經過醫保數據樣本的詳細特征信息,包括個人編碼、交易時間、檢查費發生金額、手術費發生金額、本次審批金額等相關信息。并提供了多樣的數據分析對比圖表,更好地讓決策部門掌握基金使用的全局情況,并更好地定位其中存在的問題,為制定科學的決策提供強有力的數據報表分析支持。
(6)醫?;痤A警篩選模塊通過系統定義的記錄篩選指標,并對每個指標設置一個閾值,當指標的值超過閾值則篩選出異常樣本,此處該模塊定義的篩選指標包括藥品花銷,治療花銷,住院花銷,床位花銷,手術花銷等。
本文主要初步研究設計了人工智能在醫保防欺詐數據的智能審核應用,對其進行了初步的總體設計、功能模塊設計與實現??傮w劃分為智能分析模塊、智能服務模塊、可視化模塊,并對其中的每個功能模塊進行了介紹闡述。本文的實現證實基于醫保欺詐數據的醫保防騙智能審核系統具備可行性,為醫保欺詐審核與醫?;鸬暮戏ɡ锰峁┈F代化、智能化的技術支持,為醫療保險管理機構制定及修改政策、有效利用醫保數據資源、提升審核查驗質量提供數據支持,具有一定的現實意義。