曹煜隆,單 嬌,包小源,金 夢,周 璐,張 超,孫慶芬,韓玲樣,高 燕,胡必杰
(1.北京大學人民醫院醫院感染管理辦公室,北京 100044;2.北京積水潭醫院疾病預防控制處,北京 100035;3.北京大學醫學信息學中心,北京 100191;4.北京中醫藥大學中醫學院,北京 100029;5.北京左醫科技有限公司,北京 100044;6.赤峰學院附屬醫院感染管理科,內蒙古 赤峰 024000;7.銅川市婦幼保健院醫院感染管理科,陜西 銅川 727007;8.復旦大學附屬中山醫院感染管理科,上海 200032)
近年來,互聯網技術的進步使人們的工作方式逐漸發生改變,人們通過網絡平臺更便捷的學習到新的知識,發表自己的觀點。在醫院感染管理領域中,上海國際醫院感染控制論壇(Shanghai International Forum for Infection Control, SIFIC)就是一個非常突出的例子,該論壇成立十余年來,越來越多的醫院感染控制專(兼)職人員參與到論壇中,與他人互動、分享各種內容。SIFIC論壇給全國醫院感染管理人員提供了高效的知識共享和交流平臺,同時也吸引了大量的醫院感染管理人員參與到相關內容的研究。網絡爬蟲被廣泛用于互聯網搜索引擎和其他類似的網站,通過代碼可以讓程序自動采集所有能夠訪問到的頁面內容,最終獲取或更新這些網站的內容和檢索方式。近年來人們利用Python對Twitter、Facebook 等知名社交平臺展開了一系列的分析[1-3], 但是目前尚無利用Python技術對醫學相關網站及論壇的研究,因為對不熟悉爬蟲技術的醫學研究人員而言這無疑是一個極大的挑戰。本文基于Python語言的scrapy(爬蟲框架)獲取SIFIC論壇的各板塊數據,并進行分析,以期回顧近十年來我國醫院感染控制電子信息服務系統的熱點,總結醫院感染管理人員關注熱點的趨勢變化,從而進一步提高對熱點問題的關注度,不斷提高醫院感染控制能力。
1.1 數據來源 選取SIFIC論壇2007年4月6日—2017年12月31日的數據作為此次數據來源。SIFIC論壇于2007年4月6日創建,論壇會員遍及國內幾十個省市,多個專業;現注冊會員近13萬人,專業版塊155個,是目前中國規模最大、原創資料最多、專家隊伍最強的醫院感染預防與控制論壇。
1.2 數據獲取 通過Python語言的scrapy獲取主題網絡,爬蟲從論壇某一個頁面開始,讀取標題內容,找到在網頁中的其他鏈接地址,然后通過鏈接地址尋找下一個網頁,這樣一直循環將2007年4月6日—2017年12月31日SIFIC論壇上所有的網頁標題進行抓取,將所提取的信息組合成DataFrame格式,自此完成所有數據的采集工作。
1.3 中文分詞及詞頻統計 為進行熱點詞的統計與分析,本研究使用基于Python Jieba(Chinese for “to stutter”,0.38版本)軟件包對爬取的發帖標題文本串進行分詞,分詞時利用停詞表對諸如 “的、嗎、和”非實意詞進行剔出,最后利用Python的Collections.Counter功能對分詞結果進行詞頻統計,并在此基礎上進行綜合分析。
2.1 基本概況 共爬取SIFIC論壇93個板塊共3 112 840條數據,其中主題帖155 576條,平均每個主題回帖19.01次,平均每日新增794帖;累計注冊會員共151 471名,其中管理員和超級版主131名,平均每人發帖20.55條。
2.2 年度熱點分析 按照發帖的時間逐年篩選每一年中出現次數位于前五的高頻詞頻進行分析,見表1。從年度發帖數量上看,2007—2013年呈逐年遞增的趨勢,2013年后論壇發帖數量有所下降,這與2013年底SIFIC論壇籌備開通官方微信有著極為密切的關系。從年度高頻熱詞來看,“消毒”、“監測”、“培訓”、“手術”、“手衛生”、“耐藥”等詞是醫院感染管理人員關注的永恒主題。2009年全球暴發新甲型H1N1流感,“甲型流感”成為年度第一熱詞;2017年10個醫院感染管理新規范正式施行,“規范”成為年度第二熱詞。
2.3 重點版塊熱點分析 在排除類似于“新手集結號”、“商城”、“休閑時光”等與醫院感染管理工作不相關的版塊和發帖數較少的冷門版塊后,對關注較多的8大重點熱門版塊中的31個子版塊進行高頻熱詞分析。對于每一版塊的熱詞篩選,排除該版塊或子版塊的題目詞及相關詞匯,如“重點部位—血流感染BSI”版塊,高頻詞匯則排除“中心”、“靜脈”、“導管”、“血流”、“感染”及“BSI”等詞,僅對有可能表現版塊關注方向的詞進行歸納整理,并合并類似于“洗手液”、“手消劑”等詞義相近的詞匯。從重點版塊橫向來看,每一專業版塊均有自己不同的側重方向,表現出醫院感染管理學科的復雜性與多樣性,見表2。
表12007—2017年SIFIC論壇年度前5位高頻熱詞分析
Table1Annual top 5 high frequency words in SIFIC in 2007-2017

年份總帖數熱點詞匯第1位第2位第3位第4位第5位20073 594消毒監測藥物標準預防微生物20086 540消毒監測抗菌藥物預防耐藥200911 391甲型流感消毒衛生部監測標準201015 582消毒監測手術滅菌預防201122 338消毒監測手術抗菌藥物培訓201233 909消毒監測手術培訓耐藥201337 466消毒監測培訓手術耐藥201427 291消毒監測培訓手術耐藥201526 290消毒監測培訓手衛生手術201626 825消毒監測培訓手衛生手術201728 101消毒規范監測培訓醫療廢物

表2 2007—2017年SIFIC論壇版塊前5位高頻熱詞分析

續表2 (Table 2,Continued)
MRSA:耐甲氧西林金黃色葡萄球菌(methicillin-resistantStaphylococcusaureus, MRSA); Ab:鮑曼不動桿菌(Acinetobacterbaumannii, Ab)
醫院感染與醫院的建立相依并存,是當前公共衛生領域的一個重要問題,并直接影響著醫療質量和患者的安全。醫院感染管理是一項復雜而龐大的系統工程,政策性、學術性及專業性均較強。專業方面既涉及衛生統計學和流行病學的知識,又涵蓋臨床醫學、微生物學、免疫學、藥學和護理學等諸多學科的知識。隨著醫學科學的進步與發展,尤其是日新月異的治療方法的開展,抗菌藥物的廣泛應用,新的演變趨勢使醫院感染管理變得越來越復雜化與多樣化[4],對從事醫院感染監控工作的專(兼)職人員知識更新的要求也變得越來越高。目前,醫院感染管理專業隊伍建設較為薄弱[2],從基層醫療機構到三級醫院,醫院感染管理人員隊伍很不穩定,多以兼職人員為主,工作強度較大,故醫院感染管理人員如何在緊張的工作中獲取、更新最有價值的知識內容便顯得尤為重要。
互聯網的持續發展將信息爆炸時代的知識交互帶入了一個全新的階段,使得溝通擺脫了空間的束縛,利用論壇這一渠道進行即時信息的傳遞與交流,實現高效率協作,強調人與人相互連接。SIFIC為中國醫院感染監控工作人員搭建了良好的交流平臺,使中國醫院感染預防與控制水平與國際接軌,其會員來自醫療領域的各個部門與專業,擁有旺盛的人氣、良好的交流氛圍及廣闊的交流空間。
以2009年為例,全球超過207個國家和地區報告了新甲型H1Nl流感實驗室確診病例,總數超過62萬例,包括7 820余例死亡病例,世界衛生組織將預警級別升至最高級別6級[5],2009年SIFIC論壇關注的熱點也隨之變為了“甲型流感”;而針對全球流感背景下,環境、物體表面如何進行清潔“消毒”;流感的“監測”與上報;醫護人員如何在流感大暴發的環境中采取“標準”預防的措施與應對這種緊急情況醫院感染專業人員采取什么樣的強化“培訓”則變為了該年關注頻次位于前5位的詞匯,較好的體現了論壇緊貼國際熱點變化的時效性。
從重點版塊橫向來看,每一版塊均有自己不同的側重方向,表現出醫院感染管理學科的復雜性與多樣性。以“重點部位—手術部位感染SSI”中的熱點詞匯為例,“切口類型”、“目標監測”、“術后預防SSI”、“剖宮產”等為SSI關注的熱點,關于手術后切口感染影響因素的研究較多,由于發生切口感染不僅給患者帶來身體的痛苦,也會對其心理造成不良影響,對治療失去信心,降低治療的依從性,更嚴重者會出現血液系統感染疾病,甚至增加死亡風險[6-7]。所以,醫院感染監控人員的關注點更多在如何預防手術切口感染的發生,對手術部位感染的切口類型和常發生手術部位感染的手術類型進行探討分析是極為必要的。
本研究將大數據的理念成功應用在爬蟲分析中,高效的識別出以往關注的熱點,對今后的研究提供了參考性的建議。但同時本研究也存在一定的局限性,由于數據所限,未能考慮使用和未使用本論壇的醫院感染管理相關人員的差異,因此分析出的結果可能存在一定的偏倚。此外由于本研究納入分析的數據量較大,涉及面較廣,不能對每一版塊的高頻詞匯逐一進行分析,僅為醫院感染管理工作人員描繪近年來國內醫院感染監控關注的方向,發現廣泛關注點在哪里,為日后研究提供新思路,每一版塊相對應的工作人員也可根據本研究所示的熱點結果找尋自己的研究方向[8-9]。SIFIC論壇創辦至今已十年余,標志著中國醫院感染管理已進入科學化、信息化的階段,本研究以實例說明爬蟲數據挖掘的研究意義,今后可以以大數據為基礎,探索更多的研究方向。
致謝:感謝上海國際醫院感染控制論壇(SIFIC)提供相關數據。