999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的醫保欺詐主動發現模型

2016-05-14 03:34:10王超韓可欣黃登一
數字技術與應用 2016年5期

王超 韓可欣 黃登一

摘要:本文闡述了運用自組織競爭型神經網絡(SOM)與BP神經網絡相結合,建立醫保欺詐主動發現模型的原理和過程。主要介紹醫療數據的特征,海量數據初步分類和精選樣本對BP神經網絡進行訓練的方法,最后采用遺傳算法對BP神經網絡的權值和閾值進行優化。研究成果較好地實現了對醫保欺詐行為的主動識別。

關鍵詞:SOM神經網絡 BP神經網絡 醫保欺詐 識別模型

中圖分類號:TP399 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00

Abstract:In order to build a model for detection of fraud in medical services, the paper proposes a new algorithm by combining self-organized map neural network(SOM) with back-propagation artificial neural network(BP).The authors firstly introduce the characteristic of medical data, and then investigate approach based on SOM to select samples for the training of BP neural network. At last, the paper applies genetic algorithm into the model, so as to optimize initial weights and biases. It turns out that the model is highly effective in intelligent recognition of fraud.

Key Word: SOM neural network; BP neural network; Fraud in medical; Model for detection

1引言

隨著我國醫療保險普及率的提高,醫保基金的安全問題日漸引人關注。自城鎮職工醫療保險和新型農村合作醫療制度實施以來,騙取醫保基金的案件不斷發生[1]。據不完全統計,在許多國家醫保欺詐和濫用每年造成的損失都達數億美元甚至更多,嚴重妨礙了各國醫保政策的順利實施[2][3]。因此,構建一個相對準確的醫保欺詐主動發現和預警機制,對保障參保人員權益、提高醫保基金使用效率都具有重大意義。

目前,反醫保欺詐的研究是一個世界性的課題。由于醫療數據的海量信息和欺詐行為的隱蔽性,有效識別欺詐行為是反欺詐研究的重點和難點。國外學者的研究中,美國的Fen-May Lion對Logistic回歸模型、神經網絡和決策數等三種方法用于醫療數據挖掘,的方法和效果情況分析比較[4];美國的Kweku-Muata和Osei-Bryson分析了目前數據挖掘中存在影響因子過多的問題,并提出VFT和GQM的解決方法[5]。國內針對醫保欺詐的研究,目前多數停留在社會和法律層面的分析;關于醫保欺詐行為識別方法,主要有楊超等提出的統計回歸和神經網絡相結合的方法[6],研究的深度和廣度都有待進一步拓展。

本研究采用自組織競爭型神經網絡,對海量醫療數據按疑似欺詐數據和非欺詐數據兩類進行初步篩選;在此基礎上,人工精選一些分類后的數據作為BP神經網絡的訓練樣本,并用遺傳算法對BP神經網絡進行優化。經驗證,優化后的BP神經網絡對醫保欺詐具有良好的識別效果。

2 醫保欺詐的概念及數據特點

2.1醫保欺詐定義和類型

醫療保險欺詐一般是指醫療保險制度的相關利益主體以騙取醫療保險基金或醫療保險待遇為目的,采取各種形式隱瞞自己的真實身份或實際診療情況,從而騙取相關利益的行為。本研究所指的醫保欺詐采用廣義的定義,即任何因不符合正常就醫規律的行為而導致的對醫保基金的濫用或騙取都被視為醫保欺詐。

根據嚴重程度的不同,醫保欺詐可分為兩類:一類是對醫保基金的濫用,如小病住院,開高價藥,過度檢查等造成的醫保資源的浪費;另一類則帶有明顯的欺詐故意,如非投保人使用投保人的證件,醫院開具虛假的住院證明、藥品清單或就診發票等。

2.2醫療數據特征

本研究所用數據來源于深圳市南口區南山、西麗、蛇口三家大型醫院2014年一月份的病人數據和就診記錄,共計約35萬條數據。每條醫療數據有100多個字段,包含病人資料、就診明細、住院信息、藥品信息等海量數據,具有明顯的大數據特征。這些數據中既沒有明確標記為騙保行為的記錄,也沒有一套用來界定異常數據的完整規則,而且其中不乏錯誤的、殘缺的和無效的數據。因此,研究前期利用SAS和SPSS等工具對數據進行清洗和提取,構建了有效信息數據庫。

3 相關算法簡介

3.1 自組織神經網絡

自組織神經網絡(SOM)屬于層次結構網絡,有多種類型,其共同特點是都具有競爭層。最基礎的網絡僅有一個輸入層和競爭層。假定輸入層由N個神經元,競爭層有M個神經元。網絡的連接權值為且滿足約束條件:所有連接權值之和為1。在競爭層中,神經元之間互相競爭,最終只有一個神經元獲勝,以和當前的輸入樣本相適應。在這種競爭機制中,競爭層中具有最大加權值的神經元贏得競爭勝利。競爭勝利的神經元可以代表當前輸入樣本的分類模式。競爭后各層神經元之間的權值還要按照一定規則進行修正。通過不斷調整網絡中與各神經元相關的權值和閾值,網絡得出當前樣本下誤差最小的最佳分類模式。

自組織神經網絡最大的優勢是具有自主學習能力,可以通過分析事物的內在規律和本質屬性建立相應規則,進而對具有不同特征的事物進行分類。其事先無需已明確分類的樣本進行訓練,能滿足對海量醫保數據進行初步篩選的要求。據此,我們采用的自組織神經網絡對原始數據進行一次篩選,初步分離具有騙保行為特征的數據和沒有騙保行為的數據作為BP神經網絡的訓練樣本。

3.2 BP神經網絡算法

BP網絡[7](Back Propagation),是一種按誤差逆傳播方法訓練的多層前饋網絡,是目前應用最廣泛、研究最充分的神經網絡模型之一。BP網絡無需事前揭示描述事物之間映射關系的數學方程,它通過學習和存貯大量的輸入-輸出模式映射關系,采用最速下降法的學習規則,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。

BP網絡的缺陷是學習收斂速度過慢、無法保證收斂到全局最小點,網絡結構難以確定。另外,網絡結構、初始神經元之間連接的權值和閾值的選擇對網絡訓練的影響很大,而且需要不斷的測試和調整才能獲取。不過一旦找到合適的參數,BP網絡將具有很高的精確度。針對這些特點,我們采用遺傳算法對神經網絡BP算法的參數,即連接權值和閾值進行優化,選擇出最佳的網絡模式,大大減小了人工選擇參數帶來的誤差。

3.2 遺傳優化算法

遺傳算法借鑒于生物進化論,它將要解決的問題模擬成一個生物進化的過程:初始種群通過復制、交叉、突變等操作產生下一代的解,種群中適應度較高的個體被保留下來,適應度函數值低的個體被自然淘汰。這樣進化多代后就很有可能會進化出適應度函數值很高的個體。在對醫保欺詐數據挖掘實例中,我們利用遺傳算法對BP神經網絡進行優化,把預測數據與期望數據之間的誤差作為適應度函數,這樣當進行數代的進化,變異,選擇之后,得到最優的初始權值和閾值。利用得到的最優初始權值和閾值建立BP神經網絡,此時建立的即是判別誤差最小的網絡模式。這樣,當有新的數據輸入神經網絡,便可以較準確的實現對它的分類,即判斷是否屬于醫保欺詐數據。

4 主動發現模型的搭建

4.1 樣本和變量

對比所給數據和醫保欺詐種類,前述醫保欺詐的行為反映在數據上主要有以下幾種表現:單張處方藥費極高、同一醫保號短時間內反復多次大量拿藥、病人ID和醫保號不符、小病長時間住院等。提取數據與醫保欺詐行為識別相關的特征,包括“患者年齡”“住院情況”“就診總金額”“就診次數”,構建就醫行為數據庫,最終得到10050個樣本。部分示例下表1所示。

通過自組織神經網絡算法的計算,找出了欺詐患者在就診總金額、就診次數和住院人數比例上與非欺詐患者有明顯的區別:欺詐患者的就診平均總金額達到1254.63元、平均就診次數為3次、住院人數比為32%,而非欺詐患者就診平均總金額為289.49元、平均就診次數1.58次、住院人數比為19.5%。欺詐患者的三項指標明顯高于非欺詐患者。

改變訓練的步數,得到不同步數下欺詐人群的人數如下表2所示。

從表中可以看出,隨著訓練步數的增加,自組織神經網絡分類出的欺詐人數呈現先增加后減少的趨勢。在20步的時候,欺詐人數遠遠小于30步的人數,這是神經網絡學習不完全的結果。當訓練步數增加到300時,欺詐人數較之前有一定下降,這可能與神經網絡過度學習有關,使得數據的泛化能力下降。30步以后,神經網絡分類結果基本穩定,欺詐人數的波動率僅為0.35%。綜合考慮網絡的學習效果和分類所需時間,我們最終選定訓練步數為200,即將欺詐人數為569人作為初步分類結果。

通過查閱參考資料,應用經驗判斷法對分類后的欺詐數據進行人工核查。考慮到老年人容易患病住院和患嚴重疾病的患者醫藥費極高的特殊情況,從569位疑似欺詐患者中排除89人,從9481個非欺詐患者中新確定出35位可能欺詐的患者。最終確定疑似欺詐人數為471,非欺詐人數9579,自組織神經網絡的誤判率僅為0.98%。

由于分類結果的波動率和誤判率都很低,可以認為該分類有效,能夠作為BP神經網絡的訓練樣本。

4.2 BP神經網絡創建

對于一般的模式識別問題,三層網絡即可很好地解決問題。在三層網絡中,隱含層神經網絡個數和輸入層神經元個數之間有近似關系[9]:

在建立的模型中,由于樣本有4個輸入參數,2個輸出參數,所以這里取值為31,設置的神經網絡結構為4-9-2,及輸入層有4個節點,隱含層有9個節點,輸出層有3個節點,共有49+92=54個權值,9+2=11個閾值。

遺傳算法對BP神經網絡的優化如下:首先計算適應度并對神經網絡的權值和閾值編碼,從而得到初始種群;通過解碼得到權值和閾值并并利用其建立新的BP網絡;使用訓練樣本和測試樣本來訓練和測試網絡,得到相應的測試誤差;利用遺傳算法對適應度高的染色體進行復制、交叉、變異,得到新群體,然后循環上述過程。最后得到測試誤差最小的那一組權值和閾值,作為用來醫保欺詐數據主動發現模型網絡結構中的最佳參數。

為了確保模型的有效性,我們從初步分類的欺詐數據和非欺詐數據中分別選取271條和400條數據,共計671條數據作為訓練樣本來訓練BP網絡。然后將確定為欺詐的剩余200人和非欺詐人群中再次選出的200人作為測試樣本,來驗證網絡的識別效果。將樣本的測試誤差的范數作為衡量網絡的一個泛化能力(網絡的優劣)的指標,優化前后仿真誤差的結果對比如下表3所示。

由上表可見,優化初始權值和閾值后的測試樣本誤差由15.536%減小到5.545%,訓練樣本的誤差由3.5687%減小到3.1256%,即測試樣本正確率最高可達到1-5.545%=94.094%。表明優化后BP神經網絡的訓練和測試效果都得到了較大改善,遺傳算法的優化具有良好的效果。

5結語

本研究創新性地將單層競爭型神經網絡與BP神經網絡結合使用:采用單層競爭型神經網絡對海量數據的初步分類,得到的結果經檢驗具有較好的穩定性和一定的準確性;利用BP神經網絡需要用部分已知分類的樣本進行訓練的特性,將單層競爭型神經網絡的分類結果作為BP神經網絡的輸入,從而使兩種神經網絡相結合、優勢互補,對于建立一種醫保欺詐行為主動發現的模型具有較大的參考價值。本研究的不足之處在于:無法獲知準確的欺詐數據或者判別標準,當數據量增加時會更難以判斷自組織神經網絡初步分類的精準度,對BP網絡學習的準確度造成一定影響。因此,本研究成果適合開發成一款醫保欺詐預警系統,由系統直接從海量數據中篩選出疑似欺詐數據,并對疑似數據進行實時監測和報警,這樣可以大大縮小人工核查的范圍,為醫保欺詐的調查和最終判別提供極大的便利。

參考文獻

[1]牛曉輝.新農合住院費用的分析及異常值篩檢方法研究[D].華中科技大學,2012.

[2]Pflaum B B,Rivers J S. Employer strategies to combat health care plan fraud.[J].Benefits quarterly,1990,71:.

[3]Leonardo, J. A. "Health care fraud: a critical challenge."Managed care quarterly?4.1 (1995): 67-79.

[4]Liou F M, Tang Y C, Chen J Y. Detecting hospital fraud and claim abuse through diabetic outpatient services[J]. Health care management science, 2008, 11(4): 353-358.

[5]Osei-Bryson K M. A context-aware data mining process model based framework for supporting evaluation of data mining results[J]. Expert Systems with Applications, 2012, 39(1): 1156-1164.

[6]楊超.基于BP神經網絡的健康保險欺詐識別研究[D].青島大學,2014.

[7] 朱敏,劉學廣.內燃機排氣噪聲半主動控制技術研究[D].哈爾濱:哈爾濱工程大學,2010.

主站蜘蛛池模板: 国产特级毛片aaaaaa| 71pao成人国产永久免费视频| 538精品在线观看| 无码精品福利一区二区三区| 国产第八页| 青青草原国产免费av观看| 香蕉视频在线观看www| 国产视频一区二区在线观看| 亚洲无限乱码| 欧美日韩va| 最新午夜男女福利片视频| 亚洲国产午夜精华无码福利| 国产午夜精品一区二区三区软件| h视频在线观看网站| 中文国产成人精品久久| 久久77777| 三级欧美在线| 五月天久久综合国产一区二区| 伊人久久精品无码麻豆精品 | A级毛片无码久久精品免费| 全部免费特黄特色大片视频| 一本大道在线一本久道| 久久这里只精品热免费99| 青草视频在线观看国产| 免费视频在线2021入口| 国产精彩视频在线观看| 欧美三级不卡在线观看视频| 欧美日韩精品在线播放| 亚洲区视频在线观看| 熟妇人妻无乱码中文字幕真矢织江| 精品国产美女福到在线直播| 国产精品亚洲片在线va| 四虎影视库国产精品一区| 无码AV日韩一二三区| 欧美日韩v| 久久久久久尹人网香蕉| 91久久性奴调教国产免费| 国产资源免费观看| av性天堂网| 日韩精品一区二区三区免费| 国产福利在线免费| 亚洲伊人久久精品影院| 国产理论最新国产精品视频| 欧美成人国产| 亚洲天堂免费在线视频| 国产无码制服丝袜| 日韩福利视频导航| 无码高潮喷水专区久久| 欧美亚洲日韩中文| h网站在线播放| 日本在线亚洲| 久久黄色一级片| 四虎精品免费久久| 黄色网页在线播放| 国产精品自在在线午夜区app| 91小视频版在线观看www| 另类综合视频| 欧美成人一级| 久久精品娱乐亚洲领先| 久久男人资源站| 国产自产视频一区二区三区| 亚洲欧美成aⅴ人在线观看| 国产AV无码专区亚洲精品网站| 国产在线观看一区精品| 国产视频你懂得| 国产第三区| 在线观看免费AV网| 在线播放精品一区二区啪视频| 亚洲欧美不卡| 国产精品视频白浆免费视频| 2021国产精品自产拍在线| 亚洲色图在线观看| 日本91在线| 亚洲AⅤ综合在线欧美一区| 无码专区第一页| 91精品国产无线乱码在线| 亚洲人成亚洲精品| 亚洲国产成人麻豆精品| 亚洲人成网站色7799在线播放| 91丝袜在线观看| 亚洲激情99| 精品国产成人av免费|