基于Single-Pass的部隊醫院網絡輿情監控系統設計

2015-01-16 05:26:48馬晨辰

電子設計工程 2015年4期

欒霞，馬晨辰

（1.解放軍第三二三醫院網絡中心,陜西西安 7 10054；2.中國人民解放軍68303部隊甘肅武威 7 33000）

隨著網絡技術的迅猛發展，網絡已成為信息的集散地和社會輿論的放大器，網民成為新的輿論監督力量，網絡輿情也成為社會輿論的主要組成部分。發現、追蹤、分析和研判網絡輿情，應對、引導、處置和預防負面輿情，是當前部隊醫院應該引起重視和正確對待的重要課題，也是緩解醫患關系、維護軍隊形象、構建和諧醫院的創新工作[1]。

網絡輿情是網民利益訴求和思想情緒在網絡上的集中體現。隨著醫療糾紛數量的增加，涉醫網絡輿情危機不斷涌現，嚴重影響了醫院的正常工作秩序，給醫院、患者和社會造成很大損失。從“天價住院費”到“南京徐寶寶”，從北大醫院“非法行醫治死北大教授事件”到寧波醫生“回扣清單網上曝光”等網絡突發事件，均成為各大媒體炒作的焦點，這其中網絡輿情起到了推波助瀾的作用。

網絡輿論是一把雙刃劍，如何有效展開網絡輿情監控工作，使網絡輿論成為監督、改進醫院管理和提高醫療質量的推動力成為當前亟需解決的關鍵問題。

1 系統總體功能

醫療網絡輿情的特點有突發性強、多元性強、控制難度大等特點。針對部隊醫院網絡輿情特點，本文設計利用網絡爬蟲技術、中文分詞技術、信息分析和處理技術、文本聚類和挖掘技術等的部隊醫院網絡輿情監控系統，實現對互聯網相關醫患信息的自動采集，并對海量數據進行分析和監控，挖掘動態輿情信息，把握處理突發事件的最佳時機。部隊醫院網絡輿情監控系統主要包括醫患信息采集、醫患輿情分析和輿情服務模塊，系統體系結構如圖1所示。醫患信息采集主要是利用網絡爬蟲對網絡醫患輿情信息的采集，并將網頁信息經過去重和去噪，生成干凈的文本信息，通過中文分詞算法提取特征值，建立文本向量空間模型（VSM,Vector Space Model）；醫患輿情分析模塊是系統的核心部分，利用文本聚類發現熱點話題，并對話題進行情感傾向性分析，使人們掌握輿情趨勢；輿情服務是向相關人員提供輿情報告，通過掌握報告實現對突發事件的處理，并利用個性化定制，提供方便的輿情信息。

2 系統功能設計

2.1 輿情信息采集

輿情信息采集是利用網絡爬蟲技術將非結構化的信息從網頁中提取出來保存到結構化的數據庫中。網絡爬蟲按照一定的規則，通過網頁的鏈接地址尋找網頁，從網站的某一個頁面開始，讀取網頁內容，并分析出其它鏈接地址，然后通過這些鏈接地址繼續尋找下一個網頁，這樣一直循環，直到把這個網站上的所有網頁都抓取完或者達到系統設定的停止條件，從而自動提取網頁內容。針對部隊醫院這一輿情主題，根據系統設定閾值將與主題相關的網頁信息保存到數據庫中。

圖1 系統體系結構Fig.1 System architecture

2.2 輿情信息處理

輿情信息處理主要包括網頁去噪、網頁去重、中文分詞和特征詞提取。在網頁中，通常包含大量的噪聲，這些信息對系統沒有作用，所以首先需要對爬取的網頁內容進行去噪，保留網頁鏈接、正文和標題。本系統采用文檔對象模型（DOM,Document Object Model）來獲取網頁正文和標題信息，構建DOM樹，然后從DOM樹上刪除節點的過濾器，從而獲得相應的文本信息。

經過上述處理后，將得到的結構化的輿情信息存入數據庫，并進行進一步的分詞處理。本文利用中科院的ICTCLAS（Institute of Computing Technology,Chinese Lexical Analysis System）進行分詞。分詞完畢后，去除停用詞，減少建立VSM的冗余。

2.3 輿情信息分析

網絡輿情監控系統的基礎是話題發現和聚類算法，它的任務就是把描述同一話題和事件的網頁按照一定順序聚合在一起，從而減少返回給用戶的列表中冗余和重復的信息；另外，話題發現和聚類算法受信息本身被關注程度的影響，關注程度高的，聚類效果就會較好，對話題的評估能力就越強，從而能夠為網絡輿情監控系統提供依據。話題發現的步驟如圖2所示。

圖2 話題自動發現流程Fig.2 The process of topics to be automatic found

常見的話題發現和聚類算法主要包括經典的Single-Pass聚類算法，基于層次、文本劃分、網絡和密度的各類聚類算法[2-3]。對上述五類算法進行比較，可以得出以下結論，如表1所示。

表1 常見聚類算法的指標表現Tab.1 The performance of common clustering algorithm

根據上述比較結果，本系統最終選擇Single-Pass算法用于部隊醫院輿情話題發現和聚類。

在預知主題的前提下，Single-Pass算法是話題發現和識別系統中使用最廣泛的算法之一，它的各項性能指標以及聚類結果都得到了開發者的認可，并且在使用過程中也能夠適應各類不同的應用。但是由于其缺點的存在，也制約著它聚類效果的提升。

針對Single-Pass算法精度上的不足，本文對Single-Pass算法進行改進，主要包括特征詞選擇，在將網頁進行向量化時，不對所有的詞語都進行向量化，而只是選擇具有實際意義的常見的名詞和動詞表示向量；并且在表示向量時，加入網頁的標題，用網頁標題和正文的雙向量表示法；在初步聚類時，一“代”一“代”的來處理文本，即每次處理一批文本，而不是單個的來進行處理，初步聚類完成后，再進行偏離點的調整，直到滿足停止條件。

1)基于詞性標注的特征詞篩選

小羽鄭重地閉眼，靜候了幾秒，為自己許下了一個生日愿望，然后睜開眼睛，熄滅蠟燭，繼續向前。從鐵柵欄下的缺口鉆過去，她拍拍身上的泥土，溜進燈塔，迅速地順著回旋樓梯一路奔跑，終于到達燈塔頂層。

Single-Pass算法把去除停用詞后網頁中的名詞和動詞作為文本向量的特征詞，統計出這些特征詞的出現次數和反文檔頻率，根據公式1計算得出所有特征詞的權重，網頁對應的空間向量文本數值化時采用特征詞的權重組合來代表，根據權重組合計算出文本的相似度。

其中，Wi指第i個特征詞的權重，TiF(t,d)指特征詞 t出現在文檔d中的次數，N是網頁的文檔總數，DF(t)指網頁中含有特征詞t的網頁總數。根據實際需求，這種計算方法在選取特征詞時往往存在很多問題，尤其是在文本數量較大的情況下，就會有大量的特征詞集合，從而造成數據維數較高，有幾千維，甚至上萬維，不但增加了構建難度和工作量，同時也給相似性計算帶來較大的開銷，嚴重影響算法效率。由于大量的特征詞會使得文本向量中有較多的0項值，從而使文本矩陣太過稀疏，造成文本相似度區分不明顯，給相似度比較和文本話題聚類帶來困難，最終影響文本話題的聚類精度。針對上述不足，本文將Single－Pass算法加以改進。文本輸入后，首先對其內容進行分詞，根據辭典辨識，將經過分詞后的每個詞語進行詞性標注；選取特征詞時，只選擇文本中的動詞和名詞（此步驟只需經過一個詞性判斷就能實現）；然后統計動詞和名詞的詞頻，從而減少特征詞數量，降低運算量，減少開銷，同時也保存了文本內容的關鍵信息，避免了矩陣稀疏現象，也提高算法準確性。然后根據Single－Pass算法的步驟，統計出上述特征詞的頻率及反文檔頻率，利用TF－IDF公式得到特征詞權重，之后進行相似度計算。在對文本的相似度進行計算時，采用空間夾角余弦公式實現，如公式(2)。根據空間夾角余弦公式得到的數值都介于0～1之間，越接近于1，就說明這兩個文本相似度越大，它們被劃分為同一話題的可能性也就越大；反之，兩文本越不相似，屬于同一話題的幾率就小。

夾角余弦公式得出來的值介于0和1之間，值越大，說明兩文本越相似，它們屬于同一話題的概率就越大；反之，兩文本越不相似，它們屬于同一話題的概率就小。

2)雙向量表示

Single－Pass算法在選擇特征向量時只選擇文本正文，忽略了文本的標題。而國人的習慣是“見題知義”，在網絡新聞和各類帖子中也如此，新聞和帖子的標題往往蘊含了事件的重點內容，如果能夠較好的利用標題的這一特性，根據標題得出事件的關鍵元素，并強調標題的作用，將能較好的促進文本聚類結果，從而改進常見話題發現和聚類算法的不足。在本文中，我們選擇標題和正文的雙向量表示法，不僅選擇正文中的關鍵詞，也選擇了標題中的關鍵詞來構建主題向量。在計算相似度時，二者同時參與運算，首先計算得出網頁標題和主題的相似度，以及網頁正文和主題的相似度，繼而對標題相似度和正文相似度進行加權求和，對標題中的關鍵詞賦予較高的權重，在本文中，標題特征詞權重賦予0.7，正文特征詞權重賦予0.3，以突出標題的含義，最終得出文本的相似度。此改進雖然增加了標題的向量表示，增加了運算，但由于標題的文字量遠低于正文，所以對計算無較大影響，但卻對文本話題發現和聚類精度有較大的改善。

3)調整偏離點

Single－pass算法按照文本到達的順序來依次處理文本，因此，在第一次讀取文本時就能夠確定它所屬的類簇，這就導致文本讀入的先后順序會較大程度的影響聚類結果。但從理論上講，當確定了數據源和各參數后，聚類結果也應該被確定，而不是因讀入順序不同而有所不同。因此，針對這一問題，改進算法提出“代”的概念，指文本不進行一個一個的聚類，而是一批一批的添加到聚類過程中，而這個“批”即為“代”。每一代中的文本數目是固定且可以調節的參數（本文取300）。新文本先和本代成員進行初步的相似度比較和聚類，然后把這些初步類和已有的話題進行比較聚類。這樣就能基本上消除數據源輸入順序對算法結果帶來的影響。

當有新的文本加入到話題類中時，往往會引起話題類歸屬的變化，在改進算法中給所有當前代中的文本調整和“重選擇”機會。當新文本加入話題類后，算法添加一個比較和調整的步驟，代內所有的成員依次計算在當前聚類結果下最相似的類簇是否是自己所處的類簇，若不是則進行調整，將其劃歸到與它最相似的類簇中。由于調整引起的變動是連鎖和動態的，故本文給出調整終止的條件為：90%的文本不再調整。實踐證明，該終止條件是有效的，效果也讓人比較滿意。利用“代”的概念，把數據源進行批量處理，同時增加調整和迭代的過程，使得改進算法進一步提高聚類的精準程度。

Single－pass算法利用single－link策略進行相似度計算，當文本和話題中某一文本的相似度大于預先設定的閾值時，則認為該文本和話題相似。Single－link策略簡單，但對于實際數據，average－link策略能有效減少大類出現，準備度更高，因此改進算法采用average－link策略。改進后算法的運行步驟如圖3所示。

圖3 改進后算法的執行流程描述Fig.3 The improved algorithm execution process trace

2.4 輿情服務

輿情服務是系統的輸出層，提供用戶層信息，包括輿情報告、輿情信息系統發布、郵件和用戶個性化定制[4-6]。從而為用戶提供清晰、準確和快捷的網絡輿情信息服務，滿足用戶對信息的各種需求。

3 實驗與分析

系統選用Java語言在eclipse平臺開發。實驗環境為微機1臺，CPU為intel Core2，內存1G。軟件環境為Windows XP和JDK1.6，選IIS 6.0為Internet為信息服務，數據庫選用mysql。

系統運行時初始種子網頁包括部隊各大醫院門戶網站，以及常用貼吧、論壇等。關注人物包括各醫院主治醫生。根據上述內容，設計了部隊醫院網絡輿情監控系統，并對3種聚類算法速度進行比較，如圖4所示。

圖4 聚類算法速度比較Fig.4 Clustering algorithm speed comparsion

由圖4可知，改進后的文本聚類算法在獲得相同數量的類簇數目時，有較快的速度；隨著算法運行時間的增加，新算法也可以獲得更多數目的類簇。算法中各種參數的設置和閾值的選擇對聚類結果有重要的影響，因此如何確定最有利的參數和閾值有待于進一步研究。

4 結束語

做好涉醫網絡輿情監控和危機應對工作，是新媒體形式下部隊醫院面臨的一個新課題，也是一項緊迫任務。如何利用好網絡輿情這把雙刃劍，變被動為主動，推動醫院提高醫療質量、改善服務態度，從源頭上減少輿情發生，從根源上緩解醫患關系、創建和諧醫院，是部隊醫院管理工作的重點[7]。

[1]孫鳳英,王大勇,王繼偉,等.軍隊醫院網絡輿情監控實踐[J].解放軍醫院管理雜志,2013,20(9):860-861.SUN Feng-ying，WANG Da-yong，WANG Ji-wei，et al.Practice of monitoring network public sentiment in military hospital[J].Hosp Admin J Chin PLA,2013,20(9):860-861.

[2]Steinbach M,Karypis G,Kumar V.A Comparison of document clustering techniques proceeding of the 6th ACM-SIGKDD international conference on text mining[M].USA:ACM Press,2000:103-122.

[3]張玉珠.基于K-means聚類的網絡輿情監控系統[J].通信技術,2013,46(253):57-59.ZHANG Yu-zhu.Internet public opinions system based on K-means clustering[J].Communications Technology,2013,46(253):57-59.

[4]張玉峰,王志芳.基于內容相似性的論壇用戶社會網絡挖掘[J].情報雜志,2010,29(8):125-130.ZHANG Yu-feng,WANG Zhi-fang.Forum usersocial network mining based on content similarity [J].Journal of Igence,2010,29(8):125-130.

[5]顏建華,劉巖,傅黎犁,等.基于網絡的輿情分析系統及其應用研究[J].醫學信息學雜志,2011,32(8):10-14.YAN Jian-hua，LIU Yan，FU Li-li,et al.Research of public opinion analysis system based on network and its application[J].Journal of Medical Informatics,2011,32(8):10-14.

[6]何佳,周長勝,石顯鋒.網絡輿情監控系統的實現方法[J].鄭州大學學報：理學版,2010,42(1):82-85.HE Jia,ZHOU Chang-sheng,SHI Xian-feng.Implement method for network public opinion monitoring system [J].J.Zhengzhou Univ.:Nat.Sci.Ed.,2010,42(1):82-85.

[7]邵志祥,徐曉雄.加強軍隊醫院互聯網應用管理的實踐和思考[J].解放軍醫院管理雜志,2013,20(3):237-239.SHAO Zhi-xiang,XU Xiao-xiong.Practice and reflection on reinforcing the management of Internet application in military hospital[J].Hosp Admin J Chin PLA,2013,20(3):237-239.