999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合采樣的患者投訴中安全事件的自動識別

2018-03-21 08:11:46,,,,,
中華醫學圖書情報雜志 2018年8期
關鍵詞:分類文本方法

,, ,,,

患者投訴是在醫療活動過程中,醫務人員及機構未能滿足患者的預期而導致患者產生的抱怨[1]。醫院收到的患者投訴過多將會影響醫院的形象,及時處理患者投訴一方面可以發現容易導致醫患糾紛或醫院暴力事件的原因,從而對可能發生的醫療糾紛事件進行早期預警;另一方面醫療機構可以根據患者投訴有針對性地改進醫療服務質量,提高患者滿意度。因此對患者投訴進行分析和解讀十分必要[2-3]。

患者安全是評估醫療服務質量的重要指標,旨在將與醫療保健相關的不必要傷害風險降低到可接受的最低水平。患者安全事件是可能導致或已經導致對患者不必要傷害的事件或情況[4]。患者投訴中涉及安全事件的投訴表明患者及其家屬認為患者經歷了不該遭受的痛苦。患者安全事件容易導致醫患矛盾進一步惡化,甚至引起醫療糾紛事件或醫療暴力事件[5-6]。

醫療機構每天都會收到大量的患者投訴,涵蓋醫院各個方面。人工分析這些投訴文本并將其分類,不僅成本高且效率低。其中大量投訴涉及醫患溝通、醫務人員服務態度和醫院環境等問題[7]。患者安全的投訴在所有患者投訴中占比較少,不均衡的文本會導致分類器性能下降。因此,如何在患者投訴類別分布不均衡的情況下,提高文本分類的性能是一個亟待解決的問題。

本文擬采用混合采樣方法改善患者投訴語料分布不均衡的狀況,對某醫院的患者投訴進行文本分類,以有效識別患者投訴中的安全問題。

1 患者投訴及不均衡分類的相關研究

1.1 患者投訴分類

研究者利用自然語言處理的方法分析患者投訴。Gillespie[8]根據患者投訴的主題將患者投訴分成臨床、管理、關系3個大類,細分為質量、安全、環境、管理制度、傾聽、溝通和尊重患者權利7個子類,并在此基礎上形成了分類框架體系(Healthcare Complaints Analysis Tool,HCAT);Elmessiry[9]搜集了來自范德比爾特大學及相關機構的患者投訴,使用6個分類器對投訴進行分類,用以判斷投訴內容是否與醫生相關,找出需要醫生改進的患者投訴意見;Harrison R[10]通過對患者投訴進行主題分析,發現投訴主要存在臨床、管理和關系3個領域(表1)。

1.2 不均衡數據的處理方法

患者投訴的不均衡分類主要有算法改進和數據處理兩種解決方案。數據處理易實現,是處理不均衡數據的主流方法。數據處理是對數據集進行重新采樣,使不均衡比達到期望比例,以提高分類器的性能,處理方法有欠采樣、過采樣和混合采樣。欠采樣是對多類樣本進行有選擇的刪減操作未降低數據的不平衡程度,方法有Ramdom Under Sampling,Tomek Links Removal以及Edited Nearest Neighbor等。欠采樣使得訓練集規模變小,訓練時間更短,但舍棄樣本易導致模型無法捕捉數據特征造成欠擬合。過采樣是人工合成少數類樣本平衡數據集,過采樣生成新樣本后訓練時間變長,容易造成過擬合。Chawla提出了用SMOTE算法[11]合成樣本,后來的學者對SMOTE算法容易造成過擬合的缺點進行了改進。如Han[12]提出了Borderline-SMOTE1和Borderline-SMOTE2算法,對邊界樣本進行處理。

混合采樣是同時運用過采樣和欠采樣方法,解決單獨使用欠采樣和過采樣的不足,常用方法有SMOTE結合Tomek Links Removal與SMOTE結合Edited Nearest Neighbor。

表1 患者投訴分類體系

2 實驗數據

2.1 語料來源

本文選用了來自醫院隨訪系統及微信應用程序搜集到的某醫院2012-2017年的患者投訴文本,去除內容重復、投訴無明確意義、投訴文本不完整等語料后,得到實驗語料7 009條。

2.2 納入標準

根據患者安全事件的定義及Heather Sherman等的分類標準[4],結合實際使用的投訴語料,本文將涉及以下4類主題的患者投訴視為患者安全事件投訴(表2)。

表2 患者安全事件投訴納入標準

2.3 語料標注

根據患者安全事件投訴納入標準進行人工標注,得到“患者安全”類的投訴文本660條,其他投訴6349條,二者不均衡比為1∶9.62。其中將“患者安全”投訴列為小類,“非患者安全”投訴為大類。

3 方法流程

本文的實驗過程如圖1所示。

3.1 人工標注

標注團隊由兩名醫學生與1名自然語言處理專家組成。先由醫學生對投訴文本內容進行標注,然后由專家對標注結果進行審核,對不一致的標注結果則由專家給出最終意見。經過反復核對與修正,使最終標注結果的一致性達到100%。

3.2 數據預處理

采用Python平臺的jieba分詞工具,對文本進行了分詞和詞性標注。由于文本中包含了一些醫學術語,因此加入自定義詞表以強化分詞效果(自定義詞表包括ICD-10疾病名稱與中文MeSH主題詞),最后將分詞的結果利用Word2vec映射到向量空間中。

圖1 實驗研究過程

3.3 分類實驗

考慮不同的不均衡比例會影響分類器的分類結果[13],本文設置1∶1、1∶2、1∶3、1∶4等4種不均衡比例,利用支持向量機(Support Vector Machine,SVM)、隨機森林(Random forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和AdaBoost 4種分類器,對利用某一采樣方法平衡后的數據集進行分類。對分類結果采用十折交叉驗證的方法進行評價,即將數據集分為10份,輪流將其中9份作為培訓集,1份作為測試集進行試驗,取10次試驗結果的平均值作為最終的性能測試結果。

通過對比以下幾種方法,找到最佳分類配置:方法1,對原始數據集不做任何數據的平衡處理;方法2,對數據集采用無放回的隨機欠采樣(Random Under Sampling)的處理,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法3,使用過采樣方法對數據集采用Borderline-SMOTE 2合成少數類樣本,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法4,使用混合采樣方法采用SMOTE-ENN[14]算法,使少數類與多數類不均衡比分別達到1∶1,1∶2,1∶3,1∶4。

3.4 評估指標

本文使用精確度(Precision)、召回率(Recall)、F值(F-measure)對分類器的性能進行評價。精確度代表被正確分類的小類占所有預測為小類樣本的比例、召回率代表被正確分類的小類樣本占實際小類樣本的比例,F值則是上面兩個值的加權平均和評價分類器的常用評估指標。

考慮到不均衡問題,不能只從準確率即所有被正確分類的樣本占總樣本的比例來考察分類器對少數類的分類能力,因為當類別極不均衡時,分類器會傾向識別多數類。此時準確率雖然很高,但是少數類識別的準確率較低。為此引入G均值(G-mean)、受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)、曲線下面積(Area Under Curve,AUC)以及PR曲線下面積(Area Under the PR Curve,AUC-PR)[15]綜合考量分類器對于少數類識別的準確性。G均值是小類和大類精確度乘積的平方根,ROC曲線下面積值用來綜合考慮大類和小類的分類結果和評估分類器的整體性能,PR曲線下面積值則更多的關注小類分類結果。

6個指標值的范圍都在0-1之間,分類結果高于0.8,說明分類模型性能良好,越接近1,說明分類模型性能越好。

4 結果

4.1 無處理的數據分類結果

無處理的數據分類結果見表3。4個分類器中,RF的總體表現優于其他分類器,召回率均低于50%,4個分類器的分類性能均不理想。

表3無處理的數據分類結果/%

分類器精確度召回率F值G均值AUCAUC-PRRF83.2845.3058.4866.7292.5970.52SVM100.004.097.7919.6465.8551.59AdaBoost61.5929.3839.5852.9375.5742.80GBDT77.7326.4439.0750.0981.3349.82

4.2 欠采樣結果分析

欠采樣數據分類結果見表4。欠采樣方法中的召回率均低于70%,分類性能一般,說明隨機欠采樣方法不適用于本文數據。與其他不均衡比例相比,不均衡比例為1∶1時,分類結果最優。

表4欠采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF75.2767.3870.7072.2482.5584.85SVM100.005.7610.7723.2467.5279.58AdaBoost70.5067.6368.8569.7276.1478.77GBDT74.3967.1870.3571.5880.7583.051∶2RF91.4841.4256.7763.5681.3975.78SVM100.006.6012.2224.9468.8272.28AdaBoost66.3154.5559.4968.3078.7572.30GBDT82.4047.1059.7966.7582.5876.131∶3RF95.6238.4454.3861.5582.3071.42SVM100.006.2411.6724.5868.3465.87AdaBoost66.6747.6655.1966.0880.2867.62GBDT89.0740.7555.6963.1882.5170.921∶4RF95.8236.4052.6060.1082.3267.66SVM100.006.1711.5224.1868.8263.95AdaBoost68.1043.6453.0764.2278.8061.51GBDT89.9938.0053.3161.1884.0569.02

4.3 過采樣結果分析

過采樣數據分類結果見表5,處理后的數據樣本不均衡比例為1∶1時,RF的G均值為97.93%、AUC為99.07%,AUC-PR為99.34%,相較于其他分類器都達到了較好的水平。同時與欠采樣數據同樣印證了在不均衡比例為1∶1時,分類結果最好。

表5過采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.5396.3597.9197.9399.0799.34SVM99.9877.1787.1087.8398.7199.21AdaBoost91.5393.4192.4592.3697.4097.85GBDT97.3195.7096.5096.5298.6799.061∶2RF99.2991.8895.4395.6998.0597.76SVM99.9451.3967.8571.6797.2797.57AdaBoost86.7685.1385.9089.1795.3493.57GBDT97.2787.8692.3193.1597.4296.901∶3RF99.0184.3091.0691.6897.0295.60SVM99.8735.7652.5559.7195.7495.49AdaBoost83.0975.6179.1184.6792.7486.90GBDT96.7776.3785.3387.0095.7493.341∶4RF98.0472.1383.0884.7695.5091.81SVM100.0024.8239.6949.7493.4392.37AdaBoost80.7968.7674.2481.1991.5782.37GBDT96.6966.0178.4080.9994.0489.04

4.4 混合采樣結果分析

混合采樣數據分類結果見表6。不均衡比例為1∶1時,RF的精確度和PR曲線下面積相較于其他分類器基本持平,召回率96.27%、F值97.91%、G均值97.97%、受試者工作特征曲線下面積99.82%,相較于其他分類器結果最好。

表6混合采樣處理后數據分類結果/%

不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.6296.2797.9197.9799.8299.81SVM100.0054.0470.1273.4999.7899.84AdaBoost91.9391.7491.8192.5697.9997.88GBDT97.1493.3395.1895.5199.2099.141∶2RF99.7790.5294.9095.0999.7199.55SVM100.0040.1657.2663.3499.0899.11AdaBoost91.2688.5589.8692.2197.8496.47GBDT97.9787.6192.4993.1999.2198.701∶3RF99.8081.3489.5690.1399.3198.47SVM100.0031.9948.4056.5098.0797.80AdaBoost92.2486.1489.0291.8198.0795.89GBDT98.3883.8190.4791.3499.1097.891∶4RF99.6778.4887.7188.5199.2398.19SVM100.0028.2243.8452.9798.0697.63AdaBoost93.7185.0089.1191.5598.1295.73GBDT99.5480.4988.9889.6699.2497.89

實驗結果說明,患者投訴不均衡比越大,分類結果越差。使用不同的采樣方法與同一種分類器結合,其性能從高到低依次是混合采樣、過采樣、欠采樣。

5 討論

5.1 不同采樣方法的影響

對于患者投訴數據集而言,過采樣方法總體表現優于欠采樣方法,可能是因為欠采樣刪除部分多類樣本后,丟失了部分關鍵的數據特征。過采樣與混合采樣相比性能較差,可能是因為過采樣依據現有少量樣本合成少類數據,產生了過擬合問題。而混合采樣同時對多類數據和少類數據進行處理,使得數據趨于均衡,避免了數據特征丟失和過擬合問題,從而能夠獲得較好的少數類分類效果。本文使用文本分類和混合采樣的方法處理患者投訴,相對于未采用不均衡數據處理的數據,分類性能獲得極大提升,召回率由45.30%提升為96.27%,F值由58.48%提升為97.91%,G均值由66.72%提升為97.97%,PR曲線下面積由70.52%提升為99.81%。

5.2 不同分類器的自動識別性能

從機器學習方法的角度看,綜合對比3種采樣方法4種比例的12種不同組合,根據每個組合中分類器取得最高指標的次數確定最優結果,統計得出RF分類器、GBDT分類器和AdaBoost分類器分別取得最優結果為9次、2次、1次。其中RF分類器取得最優結果次數最多,并在3種采樣方法下均有最優結果。

使用混合采樣方法在比例為1∶1時,性能達到最優,顯著優于其他分類器,證明RF相較于其他分類器更適合不均衡下患者投訴分類。原因在于,與其他分類器相比,RF分類器更擅長處理高維數據、泛化能力更強,適合分類由高維、稠密的詞向量映射成的句向量[16]。

本文利用了混合采樣的算法在數據層面進行了處理,這樣減少了因單一采樣方法而導致的過擬合問題;使用了領域語料映射詞向量,映射成的向量包含更加豐富的語義信息;采用了適合患者投訴分類的機器學習方法隨機森林,從而達到了更好的分類性能。

6 結論

患者投訴中涉及安全投訴的文本少,會出現樣本不均衡問題,導致分類器性能降低,無法有效識別“患者安全”類投訴。本文提出了一種基于混合采樣的數據處理方法平衡原始數據集,利用多種分類器對“患者安全”類別數據進行分類的結果表明,混合采樣方法可以有效提升不均衡數據的分類性能,使用混合采樣法不均衡比為1∶1時,RF的分類效果可以滿足實際應用的需要。

本文所使用的方法具有復雜程度低、容易實現、便于醫療機構使用等優點,可以有效識別涉及患者安全的投訴文本,提高處理患者投訴的效率。準確識別患者安全事件相關的患者投訴,便于醫療機構管理者及時干預,先于醫療糾紛或暴力事件發生前對不良因素進行防范、改正,避免醫療糾紛的發生。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 中文字幕人妻无码系列第三区| 永久在线精品免费视频观看| 露脸一二三区国语对白| 久久semm亚洲国产| 不卡视频国产| 久久国产精品无码hdav| 亚洲精品自在线拍| 国产激情无码一区二区免费| 国产色爱av资源综合区| 日韩精品无码不卡无码| 夜精品a一区二区三区| 日韩第一页在线| 亚洲高清无码久久久| 国产精品19p| 国产成人高清精品免费| 国产精品浪潮Av| 91啦中文字幕| 99在线国产| 欧美精品v日韩精品v国产精品| 亚洲天堂高清| 亚洲天堂免费在线视频| www.av男人.com| 国产区在线观看视频| 国产91线观看| 亚洲视频一区在线| 一本一本大道香蕉久在线播放| 欧美亚洲日韩中文| 欧美成人免费一区在线播放| 国产亚洲高清在线精品99| 国产日韩欧美一区二区三区在线| 日韩区欧美国产区在线观看| 日韩欧美视频第一区在线观看| 亚洲精品国产综合99| 亚洲一区免费看| 久久男人资源站| 欧美一区日韩一区中文字幕页| 国产丝袜无码一区二区视频| 天天躁夜夜躁狠狠躁躁88| 免费毛片a| 狠狠ⅴ日韩v欧美v天堂| 欧美精品在线观看视频| 精品自窥自偷在线看| 国产日韩AV高潮在线| 亚洲综合天堂网| 日本不卡在线视频| 一本大道香蕉高清久久| 伊人久久大线影院首页| 日本91在线| 91区国产福利在线观看午夜| 精品人妻无码中字系列| 久久久久人妻一区精品色奶水| 成人在线视频一区| 日韩精品一区二区深田咏美| 国产精品页| 亚洲无码精彩视频在线观看| 国产精品99在线观看| 黄色网站不卡无码| 国产SUV精品一区二区6| AV无码无在线观看免费| 亚洲国产成人超福利久久精品| 色香蕉影院| 国产99精品久久| 日本免费福利视频| 色综合天天综合| 色网在线视频| 国内精品小视频在线| 国产永久无码观看在线| 在线va视频| 国产一区亚洲一区| 精品国产黑色丝袜高跟鞋| 日本成人不卡视频| 国产大全韩国亚洲一区二区三区| 沈阳少妇高潮在线| 91久久偷偷做嫩草影院电| 在线国产综合一区二区三区| 日韩成人在线一区二区| 中文字幕伦视频| 狠狠色噜噜狠狠狠狠奇米777| 日本午夜视频在线观看| 国产精品伦视频观看免费| 亚洲成人www| 亚洲乱码视频|