,, ,,,
患者投訴是在醫療活動過程中,醫務人員及機構未能滿足患者的預期而導致患者產生的抱怨[1]。醫院收到的患者投訴過多將會影響醫院的形象,及時處理患者投訴一方面可以發現容易導致醫患糾紛或醫院暴力事件的原因,從而對可能發生的醫療糾紛事件進行早期預警;另一方面醫療機構可以根據患者投訴有針對性地改進醫療服務質量,提高患者滿意度。因此對患者投訴進行分析和解讀十分必要[2-3]。
患者安全是評估醫療服務質量的重要指標,旨在將與醫療保健相關的不必要傷害風險降低到可接受的最低水平。患者安全事件是可能導致或已經導致對患者不必要傷害的事件或情況[4]。患者投訴中涉及安全事件的投訴表明患者及其家屬認為患者經歷了不該遭受的痛苦。患者安全事件容易導致醫患矛盾進一步惡化,甚至引起醫療糾紛事件或醫療暴力事件[5-6]。
醫療機構每天都會收到大量的患者投訴,涵蓋醫院各個方面。人工分析這些投訴文本并將其分類,不僅成本高且效率低。其中大量投訴涉及醫患溝通、醫務人員服務態度和醫院環境等問題[7]。患者安全的投訴在所有患者投訴中占比較少,不均衡的文本會導致分類器性能下降。因此,如何在患者投訴類別分布不均衡的情況下,提高文本分類的性能是一個亟待解決的問題。
本文擬采用混合采樣方法改善患者投訴語料分布不均衡的狀況,對某醫院的患者投訴進行文本分類,以有效識別患者投訴中的安全問題。
研究者利用自然語言處理的方法分析患者投訴。Gillespie[8]根據患者投訴的主題將患者投訴分成臨床、管理、關系3個大類,細分為質量、安全、環境、管理制度、傾聽、溝通和尊重患者權利7個子類,并在此基礎上形成了分類框架體系(Healthcare Complaints Analysis Tool,HCAT);Elmessiry[9]搜集了來自范德比爾特大學及相關機構的患者投訴,使用6個分類器對投訴進行分類,用以判斷投訴內容是否與醫生相關,找出需要醫生改進的患者投訴意見;Harrison R[10]通過對患者投訴進行主題分析,發現投訴主要存在臨床、管理和關系3個領域(表1)。
患者投訴的不均衡分類主要有算法改進和數據處理兩種解決方案。數據處理易實現,是處理不均衡數據的主流方法。數據處理是對數據集進行重新采樣,使不均衡比達到期望比例,以提高分類器的性能,處理方法有欠采樣、過采樣和混合采樣。欠采樣是對多類樣本進行有選擇的刪減操作未降低數據的不平衡程度,方法有Ramdom Under Sampling,Tomek Links Removal以及Edited Nearest Neighbor等。欠采樣使得訓練集規模變小,訓練時間更短,但舍棄樣本易導致模型無法捕捉數據特征造成欠擬合。過采樣是人工合成少數類樣本平衡數據集,過采樣生成新樣本后訓練時間變長,容易造成過擬合。Chawla提出了用SMOTE算法[11]合成樣本,后來的學者對SMOTE算法容易造成過擬合的缺點進行了改進。如Han[12]提出了Borderline-SMOTE1和Borderline-SMOTE2算法,對邊界樣本進行處理。
混合采樣是同時運用過采樣和欠采樣方法,解決單獨使用欠采樣和過采樣的不足,常用方法有SMOTE結合Tomek Links Removal與SMOTE結合Edited Nearest Neighbor。

表1 患者投訴分類體系
本文選用了來自醫院隨訪系統及微信應用程序搜集到的某醫院2012-2017年的患者投訴文本,去除內容重復、投訴無明確意義、投訴文本不完整等語料后,得到實驗語料7 009條。
根據患者安全事件的定義及Heather Sherman等的分類標準[4],結合實際使用的投訴語料,本文將涉及以下4類主題的患者投訴視為患者安全事件投訴(表2)。

表2 患者安全事件投訴納入標準
根據患者安全事件投訴納入標準進行人工標注,得到“患者安全”類的投訴文本660條,其他投訴6349條,二者不均衡比為1∶9.62。其中將“患者安全”投訴列為小類,“非患者安全”投訴為大類。
本文的實驗過程如圖1所示。
標注團隊由兩名醫學生與1名自然語言處理專家組成。先由醫學生對投訴文本內容進行標注,然后由專家對標注結果進行審核,對不一致的標注結果則由專家給出最終意見。經過反復核對與修正,使最終標注結果的一致性達到100%。
采用Python平臺的jieba分詞工具,對文本進行了分詞和詞性標注。由于文本中包含了一些醫學術語,因此加入自定義詞表以強化分詞效果(自定義詞表包括ICD-10疾病名稱與中文MeSH主題詞),最后將分詞的結果利用Word2vec映射到向量空間中。

圖1 實驗研究過程
考慮不同的不均衡比例會影響分類器的分類結果[13],本文設置1∶1、1∶2、1∶3、1∶4等4種不均衡比例,利用支持向量機(Support Vector Machine,SVM)、隨機森林(Random forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和AdaBoost 4種分類器,對利用某一采樣方法平衡后的數據集進行分類。對分類結果采用十折交叉驗證的方法進行評價,即將數據集分為10份,輪流將其中9份作為培訓集,1份作為測試集進行試驗,取10次試驗結果的平均值作為最終的性能測試結果。
通過對比以下幾種方法,找到最佳分類配置:方法1,對原始數據集不做任何數據的平衡處理;方法2,對數據集采用無放回的隨機欠采樣(Random Under Sampling)的處理,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法3,使用過采樣方法對數據集采用Borderline-SMOTE 2合成少數類樣本,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法4,使用混合采樣方法采用SMOTE-ENN[14]算法,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4。
本文使用精確度(Precision)、召回率(Recall)、F值(F-measure)對分類器的性能進行評價。精確度代表被正確分類的小類占所有預測為小類樣本的比例、召回率代表被正確分類的小類樣本占實際小類樣本的比例,F值則是上面兩個值的加權平均和評價分類器的常用評估指標。
考慮到不均衡問題,不能只從準確率即所有被正確分類的樣本占總樣本的比例來考察分類器對少數類的分類能力,因為當類別極不均衡時,分類器會傾向識別多數類。此時準確率雖然很高,但是少數類識別的準確率較低。為此引入G均值(G-mean)、受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)、曲線下面積(Area Under Curve,AUC)以及PR曲線下面積(Area Under the PR Curve,AUC-PR)[15]綜合考量分類器對于少數類識別的準確性。G均值是小類和大類精確度乘積的平方根,ROC曲線下面積值用來綜合考慮大類和小類的分類結果和評估分類器的整體性能,PR曲線下面積值則更多的關注小類分類結果。
6個指標值的范圍都在0-1之間,分類結果高于0.8,說明分類模型性能良好,越接近1,說明分類模型性能越好。
無處理的數據分類結果見表3。4個分類器中,RF的總體表現優于其他分類器,召回率均低于50%,4個分類器的分類性能均不理想。
表3無處理的數據分類結果/%

分類器精確度召回率F值G均值AUCAUC-PRRF83.2845.3058.4866.7292.5970.52SVM100.004.097.7919.6465.8551.59AdaBoost61.5929.3839.5852.9375.5742.80GBDT77.7326.4439.0750.0981.3349.82
欠采樣數據分類結果見表4。欠采樣方法中的召回率均低于70%,分類性能一般,說明隨機欠采樣方法不適用于本文數據。與其他不均衡比例相比,不均衡比例為1∶1時,分類結果最優。
表4欠采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF75.2767.3870.7072.2482.5584.85SVM100.005.7610.7723.2467.5279.58AdaBoost70.5067.6368.8569.7276.1478.77GBDT74.3967.1870.3571.5880.7583.051∶2RF91.4841.4256.7763.5681.3975.78SVM100.006.6012.2224.9468.8272.28AdaBoost66.3154.5559.4968.3078.7572.30GBDT82.4047.1059.7966.7582.5876.131∶3RF95.6238.4454.3861.5582.3071.42SVM100.006.2411.6724.5868.3465.87AdaBoost66.6747.6655.1966.0880.2867.62GBDT89.0740.7555.6963.1882.5170.921∶4RF95.8236.4052.6060.1082.3267.66SVM100.006.1711.5224.1868.8263.95AdaBoost68.1043.6453.0764.2278.8061.51GBDT89.9938.0053.3161.1884.0569.02
過采樣數據分類結果見表5,處理后的數據樣本不均衡比例為1∶1時,RF的G均值為97.93%、AUC為99.07%,AUC-PR為99.34%,相較于其他分類器都達到了較好的水平。同時與欠采樣數據同樣印證了在不均衡比例為1∶1時,分類結果最好。
表5過采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.5396.3597.9197.9399.0799.34SVM99.9877.1787.1087.8398.7199.21AdaBoost91.5393.4192.4592.3697.4097.85GBDT97.3195.7096.5096.5298.6799.061∶2RF99.2991.8895.4395.6998.0597.76SVM99.9451.3967.8571.6797.2797.57AdaBoost86.7685.1385.9089.1795.3493.57GBDT97.2787.8692.3193.1597.4296.901∶3RF99.0184.3091.0691.6897.0295.60SVM99.8735.7652.5559.7195.7495.49AdaBoost83.0975.6179.1184.6792.7486.90GBDT96.7776.3785.3387.0095.7493.341∶4RF98.0472.1383.0884.7695.5091.81SVM100.0024.8239.6949.7493.4392.37AdaBoost80.7968.7674.2481.1991.5782.37GBDT96.6966.0178.4080.9994.0489.04
混合采樣數據分類結果見表6。不均衡比例為1∶1時,RF的精確度和PR曲線下面積相較于其他分類器基本持平,召回率96.27%、F值97.91%、G均值97.97%、受試者工作特征曲線下面積99.82%,相較于其他分類器結果最好。
表6混合采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.6296.2797.9197.9799.8299.81SVM100.0054.0470.1273.4999.7899.84AdaBoost91.9391.7491.8192.5697.9997.88GBDT97.1493.3395.1895.5199.2099.141∶2RF99.7790.5294.9095.0999.7199.55SVM100.0040.1657.2663.3499.0899.11AdaBoost91.2688.5589.8692.2197.8496.47GBDT97.9787.6192.4993.1999.2198.701∶3RF99.8081.3489.5690.1399.3198.47SVM100.0031.9948.4056.5098.0797.80AdaBoost92.2486.1489.0291.8198.0795.89GBDT98.3883.8190.4791.3499.1097.891∶4RF99.6778.4887.7188.5199.2398.19SVM100.0028.2243.8452.9798.0697.63AdaBoost93.7185.0089.1191.5598.1295.73GBDT99.5480.4988.9889.6699.2497.89
實驗結果說明,患者投訴不均衡比越大,分類結果越差。使用不同的采樣方法與同一種分類器結合,其性能從高到低依次是混合采樣、過采樣、欠采樣。
對于患者投訴數據集而言,過采樣方法總體表現優于欠采樣方法,可能是因為欠采樣刪除部分多類樣本后,丟失了部分關鍵的數據特征。過采樣與混合采樣相比性能較差,可能是因為過采樣依據現有少量樣本合成少類數據,產生了過擬合問題。而混合采樣同時對多類數據和少類數據進行處理,使得數據趨于均衡,避免了數據特征丟失和過擬合問題,從而能夠獲得較好的少數類分類效果。本文使用文本分類和混合采樣的方法處理患者投訴,相對于未采用不均衡數據處理的數據,分類性能獲得極大提升,召回率由45.30%提升為96.27%,F值由58.48%提升為97.91%,G均值由66.72%提升為97.97%,PR曲線下面積由70.52%提升為99.81%。
從機器學習方法的角度看,綜合對比3種采樣方法4種比例的12種不同組合,根據每個組合中分類器取得最高指標的次數確定最優結果,統計得出RF分類器、GBDT分類器和AdaBoost分類器分別取得最優結果為9次、2次、1次。其中RF分類器取得最優結果次數最多,并在3種采樣方法下均有最優結果。
使用混合采樣方法在比例為1∶1時,性能達到最優,顯著優于其他分類器,證明RF相較于其他分類器更適合不均衡下患者投訴分類。原因在于,與其他分類器相比,RF分類器更擅長處理高維數據、泛化能力更強,適合分類由高維、稠密的詞向量映射成的句向量[16]。
本文利用了混合采樣的算法在數據層面進行了處理,這樣減少了因單一采樣方法而導致的過擬合問題;使用了領域語料映射詞向量,映射成的向量包含更加豐富的語義信息;采用了適合患者投訴分類的機器學習方法隨機森林,從而達到了更好的分類性能。
患者投訴中涉及安全投訴的文本少,會出現樣本不均衡問題,導致分類器性能降低,無法有效識別“患者安全”類投訴。本文提出了一種基于混合采樣的數據處理方法平衡原始數據集,利用多種分類器對“患者安全”類別數據進行分類的結果表明,混合采樣方法可以有效提升不均衡數據的分類性能,使用混合采樣法不均衡比為1∶1時,RF的分類效果可以滿足實際應用的需要。
本文所使用的方法具有復雜程度低、容易實現、便于醫療機構使用等優點,可以有效識別涉及患者安全的投訴文本,提高處理患者投訴的效率。準確識別患者安全事件相關的患者投訴,便于醫療機構管理者及時干預,先于醫療糾紛或暴力事件發生前對不良因素進行防范、改正,避免醫療糾紛的發生。