傅亦安 賈洸怡
(上海市醫療保險事業管理中心 上海 200040)
2019年起,上海市醫保局通過智能監控、日常監督檢查、舉報調查等方式,啟動了對醫保醫師違規行為的記分管理。按違規行為情節輕重,對醫保醫師分別記1 至12 分,對于被扣分的醫保醫師分別采取納入監管對象名單、通報批評、停崗培訓、暫停醫保結算等不同程度的管理手段,初步建立了醫保醫師信用評價體系。本文通過大數據挖掘方法構建醫保醫師畫像模型,為進一步完善醫保醫師信用評估體系、規范醫保醫師診療行為提供數據基礎。
本研究主要使用的方法有:(1)標準化:對數據特征進行歸一化處理,消除量綱影響,使不同指標之間具有可比性。(2)相關性分析:研究變量間的關系,消除可能存在的多重共線性。(3)層次聚類:通過計算兩類數據點間的相似性,對所有數據點中最為相似的兩個數據點進行組合,并反復迭代這一過程。(4)K-Means 聚類:將給定的數據集劃分成個簇,并給出每個數據對應的簇中心點。(5)邏輯回歸:將醫保醫師根據不同特征劃分為多個不同類型,而且各個類別無次序關系。(6)主成分分析:找出數據中的主成分,并利用這些主成分表示原有數據,達到降維目的。(7)決策樹模型:自上而下對樣本數據進行樹形分類。從頂部根結點開始,將樣本分到不同的子結點中,再根據特征進一步劃分,直至所有樣本都被歸到某一類別中。
本研究主要統計工具是SAS 9.4 版本中EM 建模專用模塊和BASE 基本模塊。
本研究基于傳統數據挖掘流程,整體研究流程見圖1。

圖1 整體研究流程
本研究選取上海市醫療保險數據庫中醫保醫師為研究對象,共47373 名。選取25 個變量,分為四大類:醫師個人信息、醫師資格信息、醫師出診信息以及病人門急診就診、復診、轉住院信息(見表1)。

表1 預處理變量
本研究使用相關性分析,根據相關系數過濾出14 個變量,分別是年齡、性別、是否包含本院、所在醫院數、透析資格、抗排異資格、肝移植資格、進修標志、最高學歷、人均費用、病人平均年齡、本月醫師接診三個月內的復診病人數占比、三個月內門診轉住院病人數占比、藥費占比。
2.3.1 確定最佳分類數。利用模型算法得出最佳分類數,即至少需要多少類才能將不同醫師區別開。本研究采用的AGNES 層次聚類算法依次嘗試1—10 個簇數,選取表現最好的模型作為最終的簇數。根據統計量確定分類個數,期望找到一個模型既具有較低的“偽t 方”和“半偏R 方”,又具有相對較高的“偽F 統計量”。對比不同簇數的模型性能可知,當層次聚類模型簇數設定為8 時,模型性能最佳(見圖2)。

圖2 層次聚類模型不同簇數關鍵統計量對比
2.3.2 模型構建。利用無監督大數據機器學習算法,對醫師進行歸類處理,并得出每一類醫師的特征。本研究選擇K-Means 算法將被觀測醫師分為無重疊的8 類,并分析模型結果以判定這種分類方式是否合理。表2 給出了所有進入模型的14 個變量統計量。表3 和表4 分別展示了八個類別中所有變量在不同類別內的均值和標準差。可以看出,變量“透析資格”“抗排異資格”“人均費用”“進修標志”“本月醫師接診三個月內的復診病人數占比”的類間差異較大,這5 個變量能更好地將醫師進行分類。表6 給出了八個類別的醫師的整體特征。

表2 變量統計量

表3 變量均值

表4 變量標準差

表6 初步分類各指標特征
2.3.3 畫像模型驗證。為了驗證分為八類是否合理,選用無序多分類邏輯回歸模型進行回歸驗證。在邏輯回歸模型中,將70%被觀測的醫師作為訓練集,剩余30%作為測試集。由于此次變量中包含“連續型”和“離散型”兩種變量,因此用不同的方法構建兩個邏輯回歸模型。其中一個模型利用Gini 統計量對特殊變量做分箱操作,另一個不對特殊變量做分箱。根據AIC信息準則(Akaike information criterion,赤池信息量準則)衡量統計模型擬合優良性,比較分析兩個模型的性能。
模型結果顯示,R-Square 和Adj.R-Square 兩者的值相差不大,模型擬合效果比較好。其中Adj.R-Square 達到0.69,效果理想,即將醫師分為8 類是合理的分類方式。
進入模型的變量為14 個,數量較多,有必要進行降維處理,讓各類醫師的特征更為突出。
2.4.1 變量重要性排序。為了更好地解釋模型,根據醫師特征對醫師變量進行了降維,降維常用的方式為主成分分析法和決策樹算法。
主成分分析法一般需要挑選信息含量累計值的模型。結果顯示,經過主成分分析法模型降維后,仍需要選取9 個維度的變量才能包含75%有用的信息,并沒有將數據降維到更低的維度,沒有達到預期期望。因此考慮利用大數據決策樹模型,選出主要變量以及對變量重要程度進行排序。由于構建決策樹模型的目的是將變量根據其重要性排序,所以只設定了決策樹停止生長的條件:最小觀測數為5,并沒有對分類結果做過多的約束條件。
表5 展示了參與決策樹構建的所有參數的重要程度。該決策樹模型一共只調用了14 個變量中的8個,其中最能區分醫師類別的特征是“藥費占比”變量。該特征在整個決策樹搭建的流程中被使用了2次,重要性為1,說明不同醫師用藥差別非常明顯。

表5 變量重要性
2.4.2 醫師畫像結果描述。綜合模型結果,本研究最終使用了8 個變量將所有被觀測醫師分成8類。表7 給出了被觀測醫師的最終分類信息,其中第四類和第六類醫師數量最多。

表7 分類結果
2.4.3 聚類特征描述。根據上述分類結果和關鍵變量的特征值,結合相關業務,具體分析每一類醫師的特征,總結各類醫師在各級醫院不同科室出診的醫藥費用明細等具體信息(見表8)。
本研究充分利用醫保大數據優勢,綜合運用決策樹、聚類、邏輯回歸、主成分分析等多種挖掘算法,結合門診醫師的基本信息、接診信息以及接診病人人群特征信息等指標,進行了較為深入的醫師畫像分析,是多重挖掘算法在醫保領域的探索,為大數據技術在醫保其他業務的應用提供借鑒。
根據醫師畫像分類結果(即每一類醫師的特征信息),在醫保經辦服務系統已有的醫師信用體系下,采取監測或有針對性的規范措施,細化記分管理手段,為后續完善醫保系統中醫師記分體系提供依據,進一步提升醫保經辦的數字化管理水平。
第一類醫師在三級醫院診療行為多,進修和透析、抗排異資格都比較高,藥費占比高,主要集中于腎病內科的“內科用藥(中成藥)”(見表8)。經辦機構可以請相關醫學專家評估用藥行為是否合理,并聯合衛健委等部門,對醫師不合理用藥行為采取針對性措施,在日常審核體系中加強監測和預警,規范醫師診療行為。

表8 特征描述
第五類醫師是所有分類中的特異值,對醫保審核有一定意義。
本研究在醫保審核部門的大力協助下,對個案進行了研究。其中部分醫師是由于診治血友病等特殊疾病,所以發生費用較高,屬于合理醫療行為。但有的醫師是將急診觀察結算納入了普通門急診結算,造成了異常結果。醫保經辦部門發現后對相關機構的醫保實時結算進行規范,提高了醫保審核效率。
醫師畫像提升了醫保醫師信用體系建設的水平,但本次醫師畫像模型構建在目標醫師的確定和模型選取上仍存在一定不足。一是因為大數據算力不足,對門診醫師做畫像分析時,僅選用了一個月的數據,沒有對醫師行為做時序分析預測。下一步可以根據醫師行為數據,區別不規則變動、循環變動、季節變動等不同時間的動勢,特別是連續的長期動勢。從系統原則出發,綜合分析時間序列,反映曾經發生過的所有因果聯系及影響,分析各種作用力的綜合作用。運用數學模型求出時間序列以及將來的各項預測值,如移動平均法、季節系數法、指數平滑法。二是本研究采用無監督K-Means 聚類算法,分類數K 是通過層次法選出的,但是目前數據挖掘比較常用的方法為手肘法和輪廓系數法,本次研究受模型工具限制,未采用這兩種方法。今后條件許可的情況下,將嘗試使用手肘法和輪廓系數法進一步完善醫保醫師畫像模型。