楊婷婷
(如皋市人民醫(yī)院, 江蘇, 如皋 226500)
患者流向監(jiān)測是實現(xiàn)分級診療制度的關(guān)鍵。目前,患者流向監(jiān)測主要依靠統(tǒng)計性指標,但由于醫(yī)療信息化水平的提高,采用該方法進行流向監(jiān)測存在效率低、可靠性差等問題。因此,為提高患者流向監(jiān)測效率和可靠性,研究以數(shù)據(jù)產(chǎn)生源頭為出發(fā)點,通過大數(shù)據(jù)聚類分析和異常檢測,挖掘異常的醫(yī)院患者流向及其異常流向原因。現(xiàn)今,常用的數(shù)據(jù)聚類分析方法包括DBScan、Hierarchical Clusterer、k-means算法等,如武煒杰等[1]、張巧等[2]、李玥等[3]分別采用上述算法,完成了各個領(lǐng)域海量數(shù)據(jù)的分類,更好地實現(xiàn)了目標跟蹤等目的;異常檢測方法主要為基于偏差法檢測,如孫宇豪等[4]、秦婉亭等[5]基于偏差法完成了對微信和颶風軌跡異常的檢測。基于上述研究,綜合考慮醫(yī)院患者流向異常數(shù)量巨大等特殊因素,本文決定首先采用k-means算法對患者數(shù)據(jù)分類,然后借助偏差法進行識別,實現(xiàn)患者流向異常檢測。
k-means算法是一種常見的劃分聚類分析算法,其聚類思想是對給定的樣本集,按照樣本間的距離大小劃分為k個類簇,并盡量使每個類簇間的距離最大。該算法初始k值為隨機設置,且通常以所有點平均值作為質(zhì)心,故其對含有噪聲的數(shù)據(jù)集聚類效果差[6]。本研究中,醫(yī)療患者數(shù)據(jù)復雜且噪聲明顯,因此為提高聚類效果,提出兩個階段的k-means改進算法。
第一階段,確定聚類個數(shù)k1和初始質(zhì)心進行聚類。研究采用最大最小距離法確定初始質(zhì)心,以保證每次選擇的質(zhì)心均遠離已經(jīng)選擇的質(zhì)心。最后,根據(jù)確定k1值和質(zhì)心,進行聚類,得到聚類結(jié)果。
第二階段,根據(jù)第一階段聚類結(jié)果劃分為常見患者、罕見患者、極罕見患者集合。由于極罕見患者數(shù)量較少,因此研究對其進行刪除處理,并采用k-means算法分別對常見患者和罕見患者集合進行聚類,并輸出結(jié)果。
改進的k-means算法流程如圖1所示。

圖1 改進k-means算法流程
基于改進k-means的醫(yī)院患者流向異常檢測流程主要分為兩步,具體如下。
(1) 異常聚類。根據(jù)基層患者特征,采用改進k-means算法進行聚類。首先,對不同k取值進行反復實驗,確定最優(yōu)k值,并將其作為最終聚類簇個數(shù);然后,采用最大最小距離法選擇初始質(zhì)心;最后,選取最優(yōu)的指標進行聚類并存儲聚類結(jié)果。
(2) 異常識別。假設患者跨級就診均為合理,則患者靠近特殊簇,遠離基層患者簇。采用歐氏距離d量化“靠近”和“遠離”的關(guān)系;采用向量表示跨級患者x的11維特征[x1,x2,…,x11],標記每個類簇的質(zhì)心c為向量[c1,c2,…,c11],則通過式(4)可計算x到每個類簇質(zhì)心c的距離,標記距離最近的類簇i到質(zhì)心c的歐式距離為dxi,
(1)
上述患者流向異常檢測流程如圖2所示。

圖2 異常識別流程
研究以2020年住院病案首頁及人口信息庫650多萬條記錄為原始數(shù)據(jù)集,并從中任意抽取連續(xù)10天的病案數(shù)據(jù)約20萬條記錄作為實驗數(shù)據(jù)集。考慮到數(shù)據(jù)集中存在無關(guān)或冗余或缺失的字段,研究對實驗數(shù)據(jù)集進行了數(shù)據(jù)清洗、缺失值填補、標準化預處理。
對于格式錯誤的數(shù)據(jù),采用正則表達式進行查找并進行人工修正;對于重復數(shù)據(jù),研究采用刪除保留一條數(shù)據(jù);采用模糊匹配[7]和推理填補[8]的方式對缺失字段進行填補;采用標準差標準化(z-score)[9]對所有數(shù)據(jù)進行標準化。標準化公式如下:
(2)
式中,μ為均值,σ為標準差。根據(jù)上述標準化處理,得到均值為0,標準差為1的標準正態(tài)分布數(shù)據(jù)集。
3.1.1 特征選擇
為更好地識別患者流向異常,根據(jù)患者健康狀況、經(jīng)濟狀況、社會因素等關(guān)鍵特征進行篩選,最終確定了跨級流向的患者特征,如表1所示。

表1 跨級流向患者特征
選取誤差平方和(SSE)、鄧恩指數(shù)(DVI)、戴維森堡丁指數(shù)(DBI)作為評估基于改進k-means算法的醫(yī)院患者流向異常檢測方法效果,其計算方法如式(3)~式(5)[10]:
(3)
(4)
(5)

3.3.1 算法驗證
為驗證本研究改進k-means算法的有效性,研究對比傳統(tǒng)k-means算法,在相同參數(shù)設置下進行了實驗,結(jié)果如圖3、圖4所示。

圖3 不同k值下算法性能

圖4 改進k-means與傳統(tǒng)k-means聚類結(jié)果統(tǒng)計
由圖3可知,隨著算法第一階段k值增大,算法運行時間逐漸上升,迭代次數(shù)逐漸增加,誤差平方和逐漸減小。當k<200時,誤差平方和下降幅度較大;當k>200時,誤差平方和下降幅度逐漸趨于平緩,因此可確定本研究提出的改進k-means算法第一階段k=200。由圖4可知,相同聚類個數(shù)條件下,取任意k值,改進k-means算法的誤差平方和均低于傳統(tǒng)k-means算法的誤差平方和,且隨著類簇個數(shù)的減小,優(yōu)化效果更明顯。
3.3.2 算法比較
為進一步驗證本研究算法聚類效果的優(yōu)越性,研究對比cobweb、DBScan、Hierarchical Clusterer算法進行聚類實驗,結(jié)果如表2所示。由表2可知,不同算法的聚類時間和聚類結(jié)果不同。其中,Hierarchical Clusterer算法因復雜度較高,無法完成建模分類;cobweb、DBScan算法聚類時間較長,且聚類個數(shù)較多;傳統(tǒng)k-means算法聚類時間最短,但其聚類效果最差;改進k-means算法建模時間略長于傳統(tǒng)k-means算法,但其聚類效果優(yōu)良。因此,綜合考慮算法聚類時間與聚類效果,本研究提出的改進k-means算法性能優(yōu)于cobweb、DBScan、Hierarchical Clusterer和傳統(tǒng)k-means算法。

表2 不同算法結(jié)果對比
為驗證本醫(yī)院患者流向異常檢測方法的有效性,分別在不同臨界值(dxi)下進行實驗。不同臨界值下患者分布如圖5所示。由圖5可知,當臨界值dxi≤max(i)時,有59%的患者跨級異常但不屬于特殊簇,會被判斷為異常流向;當dxi≤max(i)/2時,有18%的患者跨級異常但不屬于特殊簇,會被判斷為異常流向。由此說明,目前就醫(yī)情況異常跨級的醫(yī)院患者較多。

(a) dxi≤max(i)條件下患者分布

(b) dxi≤max(i)/2條件下患者分布圖5 不同臨界值下患者分布
選取dxi≤max(i)時,被判斷為異常跨級的醫(yī)院患者與正常跨級的醫(yī)院患者進行疾病難度等多維度對比,結(jié)果如表3所示。由表3可知,在年齡、入院病情、疾病難度等多維度特征分布上,本研究檢測方法對異常流向的跨級醫(yī)院患者的判定結(jié)果與預期基本相符,說明該檢測方法合理。

表3 正常跨級與異常跨級患者對比
為進一步評估本研究提出的醫(yī)院患者流向異常檢測模型的準確性,研究抽取400條數(shù)據(jù)進行專家審核。根據(jù)專家評審結(jié)果可知,采用本研究提出方法標記的跨級就診中,被判斷為異常流向的患者均被專家評審為異常流向,判斷準確率為100%;有31.83%異常流向的醫(yī)院患者被判斷為正常流向,判斷準確率為68.17%;有14.73%被判斷為異常流向的患者屬于合理跨級就診,判斷準確率為85.27%。由此說明,本研究提出的醫(yī)院患者流向異常檢測模型可有效識別出政策難以界定的患者流向。
為分析造成醫(yī)院患者流向異常的原因,研究將未納入政策評判的收入水平、住址與醫(yī)院距離等指標加入模型進行深入分析。根據(jù)分析結(jié)果可知,85.92%的異常跨級就診患者收入水平高于該省平均收入水平;64%的異常跨級就診患者在距離大型醫(yī)療機構(gòu)10 km范圍內(nèi)。由此可知,中高等收入或居住地在大型醫(yī)療機構(gòu)附近的人群很可能選擇越過基層醫(yī)療機構(gòu),直接到大型醫(yī)療機構(gòu)就診。
通過上述分析可知,本研究提出的基于醫(yī)療大數(shù)據(jù)的醫(yī)院患者流向異常檢測模型,可根據(jù)正常流向患者聚類結(jié)果,有效識別出跨級異常流向的患者,并結(jié)合異常流向患者特征找到造成異常流向的原因,提出改善異常流向的對策。