王本有,黃和平
(1.皖西學院 電子與信息工程學院,安徽 六安 237012;2.六安市人民醫院信息管理科,安徽 六安 237001)
我國人口眾多,擁有世界上五分之一的人口,因此所面臨的醫療問題非常嚴峻.我國政府對此高度重視,并不斷地推出新政策來促進我國醫療服務水平的提高和醫療資源的平衡[1],取得了長足的進步,但醫療資源和醫療壓力在城鄉和不同區域間的差距依舊沒有消除[2].本文對醫療垃圾數據進行統計分析,在時間上和空間上探討中國某地區不同醫院間的醫療壓力不平衡的現狀[3].
數據挖掘[4],即 DM(Data Mining),是從數據庫中發現知識,通過算法從海量數據中發現隱藏的、未知的,并有潛在價值的信息的非平凡過程.這包括數據集成、分類、聚類、預測變化、檢測異常等.文獻[5]提出了一種基于系統動力學技術的醫院廢棄物管理仿真模型,用來統計不同類型醫院的垃圾產生量,預測未來產生的廢物和治療費用,相關因數包括:床位數、服務水平、人口數量、出生率、死亡率等.文獻[6]發現衛生機構數量在不斷增加,一次性醫療產品的使用量也在不斷增加,導致了衛生保健廢物產生率的增加.研究發現醫療廢物的產生率與住院病人數有很強的線性相關性,與醫院的門診病人有較弱的相關性.文獻 [7]運用人工神經網絡(ANNs)和多元線性回歸(MLR)兩個預測模型,預測醫療廢物生成的速率.文獻[8]闡述臺灣醫院醫療廢物產生的相關因素,預測平均每天每床產生垃圾重量在2.6到4.1公斤.床位數量是重要的預測因素,發現在醫療中心,產生的污染廢物的平均數量是最高的.
參考以上文獻,本文旨在分析醫療壓力的不平衡性,增加了醫院職工數作為特征字段,將醫療垃圾分成3類分析,保留了醫院類型、床位數等字段,運用時間序列對垃圾產生量進行分析和預測,實證了不同類型醫院的貢獻度差異,發現了醫療保險報銷比例和病床數量是垃圾產生率的重要因素;發現了垃圾呈上升趨勢,但中心醫院的貢獻度增加很少,表明了分層醫療改革取得了較好效果.
本數據是中國某地區2010年10月至2016年8月的醫療垃圾處理記錄,總共有近64萬條.
1.1.1 醫療垃圾采集
該地區的醫療垃圾有授權定點處理單位,負責處理地區內68家醫療機構產生的垃圾.垃圾有專人進行分類包裝,用專用的包裝箱,包裝箱上粘貼有條形碼,該條形碼共有共5位信息,其中3位用作醫院代號,1位代表所在行政區,最后1位是垃圾分類.垃圾在處理前必須進行登記,通過專用的計算機進行掃描、記錄稱量,并自動錄入登記日期,數據格式如表1所示.然后交給專業技術人員通過專用設備進行處理.

表1 垃圾數據表字段及功能
1.1.2 醫療垃圾分類
醫療垃圾是指由醫院產生,是接觸過病人血液、肉體等的污染性垃圾.醫療垃圾的危害性是普通生活垃圾的成百上千倍[9].如果對醫療垃圾處理的不合適,將對環境造成嚴重污染,也會引發傳染病.本文將醫療廢物分成感染性,BCID為0;損傷性,BCID為1;病理性,BCID為2.
感染性廢物是指被血液和其他體液污染的廢物;損傷性廢物是指醫用針頭、縫合針、玻璃試管等;病理性廢物是指人體組織、器官或體液,被污染的動物尸體等.
1.1.3 醫療垃圾清理與集成
醫療垃圾有授權定點處理單位,通過計算機掃描條形碼,垃圾重量自動錄入數據庫,記錄有序.數據清理主要集中在:第一,數據重復,備份后的數據在錄入平臺沒有清理,部分數據重復,根據時間清理了重復記錄;第二,個別醫院沒有持續的5年數據,如企業改制,企業內部的醫院撤銷了,私立醫院倒閉了,去除了信息不完整的醫院有3家.
數據集成:第一,數據合并.行政區域的重新劃分,有4家醫院合并成2家,按日期將數據合并,歸屬到現在的醫院;第二,在垃圾數據匯總后,進行聚類和貢獻度等分析,數據庫中加入了醫院職工數和床位數,集成了新的數據庫.
本文中涉及的醫療機構數據由該地區衛生局提供,城市有17,046位專業技術人員,其中醫療服務和醫療管理部門有3,789位,如從事于血站,計劃生育,婦幼保健等,農村僅有2,233位.根據醫療機構床位數據,該地區城市醫院擁有床位數為14,661張,其中醫療服務和醫療管理部門有床位895張,農村醫療有床位數為3,035張.中國醫療資源高度集中于城市,農村醫療服務供給相對不足[10][11].
1.2.1 醫療機構基本情況
本次數據中所包含的醫療機構有68家,包括公立醫院、衛生院、婦幼保健院、血站、疾病控制中心、私立醫院等.其中有2家是三級甲等醫院,12家二級甲等醫院,6家二級乙等醫院,25家一級醫院,服務機構18家,數據處理剔除了5家信息不完整的醫院.醫院分布在市區、縣城和鄉鎮.
1.2.2 醫院編碼
BCID為醫院所在區域編碼,在垃圾數據表中定義為1位,取值1-9,代表行政區劃分,市區為1,市瞎8個縣區,分別為2-9.
BHID為醫院代碼,用三位阿拉伯數據表示,市中心醫院為001.
通過對垃圾數據的統計,展示了3類垃圾的分布情況,該地區的垃圾日產量,市中心醫院每類垃圾占總量的比例.

圖1 感染性垃圾時間重量曲線

圖2 損傷性垃圾的時間重量曲線

圖3 病理性垃圾的時間重量曲線
醫療垃圾由定點單位專門負責處理,政府監督,分類、包裝、運輸等環節規范有序.通過條形碼采集垃圾信息,計算機同步錄入垃圾重量,避免了手工操作的失誤.但在2016年5、6兩個月,企業設備維護,數據缺失.企業提供了手工記錄,記錄凌亂,信息不完整,如圖1-3為3類垃圾按日重量分布圖.
把采集的數據繪制出圖形,能直觀反映數據的變化,可以看出來感染性垃圾和損傷性垃圾整體呈慢慢增長的趨勢,感染性垃圾增長幅度更大一些.感染性垃圾平均每天產生的垃圾重量大于2500kg,損傷性垃圾平均每天產生的垃圾重量大于500kg,病理性垃圾平均每天產生的垃圾重量大于15kg.
為了解市中心醫院的醫療垃圾產量與該地區63家醫療機構垃圾產量的關系,分類對垃圾量進行了統計,垃圾重量采用年均值,如表2所示.

表2 所有醫院垃圾總重量的均值和市中心醫院垃圾總重量的均值及其比例
從表2可以看出,市中心醫院產生的垃圾量遠超過63家醫療機構產生的垃圾重量的平均數.其中感染性垃圾占比平均為15.46%,損傷性垃圾占比平均為23.88%,病理性垃圾占比平均為34.36%,最高達到38.38%,也就是說,該地區超過三分之一的病理性垃圾是由這一家醫院產生,而且,它所占的比例沒有下降的趨勢.市中心醫院產生的醫療垃圾的總重量占該地區的醫療垃圾總重量的比例雖然很高,但5年里比重總趨勢在不斷減小.
圖4可看出5年垃圾產量變化趨勢,用縱軸為年平均重量,橫軸為年份.藍色曲線為63家醫療機構總的醫療垃圾重量的年均值,紅色曲線為市中心醫院的醫療垃圾重量的年均值.

圖4 醫療垃圾總量的年平均重量曲線
從表2和圖5都顯示該地區醫療垃圾總量的年均值在隨年份不斷地增加,雖然市中心醫院的醫療垃圾總量的年均值也在增加,但斜率明顯小于所有醫院醫療垃圾總量的年均值增長斜率.可以說,醫療需求在不斷地增加,但市中心醫院的醫療壓力增長趨于平穩.隨著醫療改革的深入,部分醫院逐漸被市民接受,在醫療服務中承擔的任務逐步加大.
通過對垃圾數據的相關性、聚類、貢獻度和城鄉區別等方面的分析,掌握垃圾數據變化規律,為管理部門預算、決策和監管提供數據支撐.

圖5 三類垃圾重量占總重量的比例
從圖5可以看出感染性垃圾最多,占總量的79.96%,損傷性垃圾占總量的19.51%,而病理性垃圾只占0.53%.
相關性是指變量之間的一種非確定性關系.用相關系數表示變量之間的線性相關程度.相關系數(Correlation coefficient)是由著名統計學家卡爾·皮爾遜(Pearson)設計的統計指標[10].因為相關表和相關圖無法確切地表示兩個變量之間相關的程度,在二元變量的相關性分析過程中,皮爾遜相關系數是最常用的,其計算公式如下:

相關系數的值介于–1與+1之間,即–1≤r≤+1.一般可按三級劃分:|r|<0.4為低度線性相關;0.4≤|r|<0.7 為顯著性相關;0.7≤|r|<1 為高度線性相關.
對三類垃圾做了相關性的計算,得到如表3中的數據.我們發現感染性垃圾和損傷性垃圾高度線性相關,而病理性垃圾與感染性和損傷性垃圾顯著性相關.

表3 三類垃圾相互關聯系數
聚類分析(Cluster Analysis)是對樣品或指標進行分類的一種多元統計分析方法.劃分的原則是使得每個組內的樣本之間距離最小而每個組之間的距離最大.本文運用K-means算法對醫療垃圾數據進行聚類分析[10].本文聚類的特征數據為醫院級別,職工數,床位數,感染性垃圾重量,損傷性垃圾重量,病理性垃圾重量.聚類只對45家醫院,不包括18家醫療服務機構.根據實驗效果,本文K值取4.即從數據對象中任意選擇4個對象作為初始聚類中心,循環執行下面兩個步驟直到聚類不變為止.
(1)計算每個對象與中心對象的距離,將相應對象劃分到離他最近的中心.
(2)重新計算每個聚類的均值(中心對象),直到聚類中心不再變化.這種劃分使得表達式2最小:

聚類結果如圖6所示,結果證實了該地區居民最相信的2家醫院為一類,級別3A,其產生的垃圾量最多,也是醫療壓力最大的醫院;其次,該地區3家2A級醫院為一類,其報銷比例較高,產生的垃圾量和醫療壓力較大;第三類,是2A級縣人民醫院,為引導普通病人就診,緩解前2類醫院的就診壓力,增大了醫療保險報銷比例,其垃圾量和醫療壓力基本平衡;最后一類為鄉鎮和民營醫院,醫療垃圾產量很少.聚類所得出的結果驗證了醫療資源和醫療壓力的不平衡現象.

圖6 聚類中心圖
貢獻度分析又稱帕累托分析,帕累托規則是20/80定律[17],即80%以上的產出來自20%的生產單位.貢獻度分析只包括45家醫院,排除了18家醫療服務機構.

圖7 醫療垃圾重量、職工數、床位數的貢獻度曲線
圖7帕累托定律分析結果,可以看出前9家醫院占總垃圾比例的81.40%,占總職工比例的65.27%,占總床位比例的65.35%.這9家醫院集中在城區,9家醫院產出的垃圾量遠高于職工和床位比例.在地方醫療服務中,表現及其不均衡性.導致城區9家醫院承受很大的壓力,醫生負擔很重.
為證明城鄉醫院之間垃圾的產出、醫院的職工數、床位數,在各自的比例中是否基本保持一致,把醫院分為城區(市區和縣城)和鄉鎮,用以上三個特征進行對比分析.
3.5.1 城區

圖8 城區垃圾量,職工數,床位數比例圖
從圖8可以看出在該市市區前三家醫院垃圾量所占比例明顯高于職工數和床位數所占比例,其他幾家醫院垃圾量所占比例大致等于職工數和床位數所占比例,23家醫院中只有4家醫院垃圾量所占比例遠低于職工數和床位數所占比例,它們所面臨的醫療壓力較小,它們所擁有的資源相對多.
3.5.2 鄉鎮
從圖9可以看出,22家醫院中只有4家垃圾量比例高出職工人數和床位數比例,其他的衛生院比例相反.換句話說,鄉鎮醫院閑置,它們的醫療壓力很小,醫療資源被浪費了,同時鄉鎮醫務人員水平也得不到提高[11].

圖9 鄉鎮垃圾量,職工數,床位數比例圖
中國醫院之間醫療水平、服務質量差距太大,使得我國民眾都喜歡涌入大城市,去級別高的醫院看病.為緩解城市大醫院的壓力,中國的醫療改革在不斷完善分級診療體系,加大扶持定點醫院的人、財、物優質資源建設,加大優質醫療人力資源在城鄉間流動,加大在定點醫院消費的報銷比例,引導居民消費偏好,提高城鄉居民對醫療服務的受益度,緩解“看病難,看病貴”問題.
本文通過醫療垃圾數據的實證分析,了解到居民對不同類別醫院的信任度不同,就醫偏好也就不同,導致地方的中心醫院醫療負擔最繁重,城區醫院承擔區域內大部分醫療任務,鄉鎮醫院比較清閑,也造成了一定的資源浪費[12].通過5年內采集的醫療垃圾數據,結合醫院職工數和床位數,通過聚類和貢獻度分析,城鄉醫療壓力分析,垃圾量預測,有一定的實際意義,但由于數據不夠豐富、細致,后續研究將采集更加豐富的醫療數據,深入研究.