姜贏 萬里鵬 張婧 葛思坤


【摘要】引進國外先進成熟的信息監測與引導技術LanguageTool,用以解決微博環境下高校網絡輿情的監測與引導實踐問題。以微博政治敏感信息監測為突破,利用敏感信息模式識別、規則標記、監測與校正等技術,提出以半自動化、具有預防機制的高校微博敏感信息識別、采集、監測與引導的解決方案。經過實踐證明,它發揮了交叉學科各自優勢,能夠提高高校微博輿情監測與引導工作的效率和效果。
【關鍵詞】微博;高校網絡輿情;政治敏感信息;監測;引導
【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009—8097(2013)04—0092—05
引言
微博(Microblog)是一個基于用戶關系的信息分享、傳播以及獲取平臺。用戶可以通過各種客戶端發布140字左右的文字信息,相對于以往傳統的博客、個人網頁和網站來說,微博的內容簡單,在語言的編排組織上對用戶的要求較低。由于用戶可以隨時隨地的更新信息,不再受時間與空間的限制。評論和轉載的功能使得信息傳播更加及時,特別是對突發事件的報道和反饋。微博已成為當代大學生廣泛使用的社交媒體之一。在微博的使用頻率方面,“堅持每天都關注和瀏覽微博的學生占68.2%,2-3天才瀏覽一次的占19.8%,只有很少部分(4.3%)學生表示從來不會主動去關心各類微博的發布”。實施高校微博輿情監控與引導,了解和掌握微博平臺上大學生的社交、學習、個人情感和利益訴求等各種動態信息,并予以及時而合理的引導,杜絕歪曲事實、道聽途說、危言惑眾,嚴重影響學校利益和形象的敏感信息的泛濫,對構建和諧校園、提高思想政治教育效果意義重大。
一 國內外相關研究現狀
1 國內高校微博輿情監測與引導研究的現狀
(1)相關理論研究現狀
在國內已有較多的相關理論研究,最具有代表性的有:西安理工大學杜坤林提出了高校學生網絡輿情的生成機制、演化規律和重大輿情的快速干預機制;上海交通大學陳越等分析了高校網絡輿情危機的高發點及形成過程,提出三條高校網絡輿情危機管理的策略;繆志波分析了微博在信息傳播方面的特點,為微博時代下高校網絡輿情的監測與引導提供了一些依據;邢華平分析微博信息傳播的特點,研究其對處理高校學生突發事件帶來的積極影響與正面作用,進而探討高校如何利用微博應對學生突發事件的策略:上海外國語大學周源源提出要樹立積極利用新媒體進行政治傳播和鞏固國家意識形態安全的新理念,也分析了微博視野下大學生思想政治教育對策。
(2)相關實踐研究現狀
在國內進行案例實踐和實證研究的較少,有2個典型的案例:(1)廣東白云學院設立了校領導(分管學生工作)負責的“廣東白云學院學生工作網絡輿情信息監控工作小組”,并制訂了《廣東白云學院學生工作網絡輿情信息監控方案》,在團隊中先安排專人對微博輿論信息進行梳理,篩選、統一格式和分類編排;再對信息的準確性、真實性和可靠性由把關人進一步核實;最后完成對相關輿情信息的分析、處理方法的意見與建議。(2)中國海洋大學“中德海洋科學中心”成立大會和“2011年高水平大學合作開展自主選拔簽約儀式”,就在中國海洋大學和南京大學開設的微博平臺上進行了圖文直播,校園微博平臺通過發布“粉絲”們或原創、或分享的圖、文、視頻作品,實現了“開放辦博”,即讓大噓聲“粉絲”們參與到校園微博平臺的管理建設中,使校園微博平臺日益成為有效引導校園網絡輿論的重要陣地,并為建設良好校園輿論環境做出了突出的貢獻。
2 國內高校微博輿情監測與引導研究的局限性
無論是理論研究還是實踐研究提出的解決方案,都存在著以下幾個問題和局限性:
(1)微博數據量巨大,相關工作量太過龐大
如“白云學院”實證研究過程中發現,在微博平臺上僅以“白云學院”為關鍵詞進行搜索,搜索結果數據則有190537條,博友數量達8861個,其發言總數為10598條,以白云學院為名的相關博友有113個(截止2012年5月13日22:15)。白云學院實行團隊作戰、分工協作,成立專門工作小組,實行三級制。不僅投入了大量專、兼職師資力量實施管理,還動員大量學生參與具體微博輿情監測和引導工作。具體來說,為了保證完成龐大的微博輿情監測和引導工作量,學校要求把工作任務予以量化,將相關任務完成情況納入院系學生工作月度考評體系,這給學院教學管理造成了巨大的壓力。像廣東白云學院這樣的民辦高校,由于其師資隊伍和投入經費的限制,其實施困難重重。這種僅靠大量人力投入的較為原始運作模式,很難在其他高校推廣實施。
(2)微博信息隨意性強、可靠性差,對于微博輿情收集、梳理、核實難度大
微博具有明顯的隨意化、碎片化、口語化的特點,因此其熱點和敏感信息往往被淹沒在微博的信息海洋中。微博發布的門檻低、信息隨意性大,不少信息還糅雜了博主的個人臆斷或主觀感受,雖然原生態性強,但真實性、可靠性不足。目前提出的做法是利用微博平臺本身的微博、微群發言搜索功能,對微博進行全面搜索與篩選。但由于敏感信息本身的復雜性和隱蔽性,無法直接通過關鍵詞列表和簡單模式匹配進行監測。這種簡單輸入敏感關鍵詞的做法搜集到信息,其準確度不高,也容易遺漏信息,其人工搜索的工作量也相當龐大。
(3)只有事后被動處理措施,未建立微博輿情主動預防機制
國內相關理論研究和實證研究提出解決方案,都是在微博信息發布之后、己經形成微博輿論之后的各種事后處理措施。這種處理方式有一定滯后性,而且能否進行快速監測和及時引導也存在著不確定性。一旦應急處理不到位導致信息爆炸式散播,那么事后的輿情控制將非常困難。另一方面,事后處理方式非常被動,不能防患于未然,亟需建立微博輿情主動預防機制。
3 國外敏感信息監測相關技術
上文分析的局限性的主要原因在于過于依賴人工處理海量微博信息,這種方式原始而低效。本文提出引入國外先進的信息技術手段來提高高校微博輿情監測工作的效率和效果,主要包括以下幾個方面的技術:
(1)敏感信息模式識別技術:Regular Expression(正則表達式)
正則表達式在信息技術科學中,是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。它是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯。一個正則表達式通常被稱為一個模式(pattern),為用來描述或者匹配一系列符合某個句法規則的字符串。例如:“法輪功”、“法輪大法”和“轉法輪”這三個字符串,都可以由“轉?法輪(功大法)”這個模式來描述。正則表達式是一項非常成熟的模式識別技術,許多程序設計語言都支持利用正則表達式進行字符串操作。正則表達式被廣泛應用于網絡平臺、微博平臺上敏感信息的模式識別,在網絡輿論監測方面有著非常大的實用價值。
(2)敏感信息規則標記技術:XML(可擴展標記語言)
可擴展標記語言(Extensible Markup Language,XML),“用于標記電子文件使其具有結構性的標記語言,可以用來標記數據、定義數據類型,是一種允許用戶對自己的標記語言進行定義的源語言”。XML是從1995年開始有其雛形,并向W3C(萬維網聯盟)提案,而在1998年二月發布為W3C的標準(XML1.0),其相關技術和標準已經非常成熟,其應用也非常廣泛。在微博輿情監測方面,可以使用XML作為敏感信息規則的標記語言。可以利用XML技術標記關于臺灣當局機構方面的敏感詞規則,即“臺灣”不是給一個國家,那么它不能有“外交部長”。這種規則可以用于大學生微博言論中對于海峽兩岸臺灣問題敏感信息的監測。
(3)敏感信息監測與校正技術:LanguageTool
LanguageTool是德國一個信息監測與校正技術的開源組織,“它提供了一整套各個國家(英語、中文、法語、德語、波蘭語、荷蘭語、羅馬尼亞)自然語言信息監測與校正技術”。它不僅僅局限于敏感信息監測,它還是一個能夠檢測出簡單拼寫錯誤、復雜語法錯誤并對其進行校正的自然語言信息監測軟件與校正軟件包。LanguageTool已經提供了LibreOffice和OpenOffiee等文字編輯軟件的插件,可以為軟件用戶提供自動監測和校正服務。但是利用它進行微博環境下高校網絡輿情的監測與引導,國外還沒有先例。例如,我們可利用LanguageTool可以識別出“天安門事件”等敏感事件信息,并提供“所謂天安門事件”這樣的正確表述引導,代替人工監測與引導工作,有較高的可行性。
二 微博環境下高校網絡輿情的監測與引導方法
筆者提出微博環境下高校網絡輿情的監測與引導方法,包括三個方面的內容:1)高校微博信息識別與采集:2)高校微博敏感信息監測;3)高校微博敏感信息校正與輿情引導。三者按照先后順序進行實施,具體來說:
1 高校微博信息識別與采集
微博環境下高校網絡輿情的監測與引導,首先要確定作為研究對象的高校微博信息的內容和范圍。高校網絡輿情信息源自于高校微博信息,包括學校、院系、學生社團、黨團組織、班級的等微群,還包括教師、學生個人微博,以及零散的發生在校園的各種教育教學活動、大小學生事務等微博信息。本課題首先要研究如何識別這些高校微博信息,用于高校網絡輿情的檢測與引導。高校信息微博的識別可以采取兩種方式相結合的半自動模式:
(1)人工上報:在一定范圍內建立高校微博實名機制。例如,學校組織機構、學生社團官方微博都需要上報給相關管理機構,其維護人員信息也建立相關信息備案;老師、學生個人微博名稱和地址可加入到師生個人檔案信息中以便于監控和管理。
(2)自動識別:對高校微博信息特征進行分析,歸納出高校微博信息的特征模式,利用正則表達式等模式識別技術進行自動偵測和識別。高校機構官方微博往往和機構名稱一致,例如,通過定義社團名稱可以自動定位到某學生社團微博。班級學生微博“互粉”現象普遍,通過對已識別的學生微博及其粉絲關聯網絡進行挖掘,可以自動識別出相同班級、相同專業學生的粉絲。高校微博事件往往和高校及其下屬機構名稱關聯,可以建立針對高校微博事件的正則表達式規則進行自動識別。
一旦高校微博信息識別之后,可以利用微博API技術和網絡爬蟲結合,自動將相關信息采集入庫保存,以各后續輿情監控和引導之用。
2 高校微博敏感信息監測
高校微博敏感信息監測需要保持對媒體的敏感性,即對敏感主體、敏感時間、敏感事件和敏感詞等適時利用敏感信息監測技術及時對相應的微博信息進行檢測與篩選。
首先對高校敏感信息的內容、范圍、分類和特征進行深入分析,總結歸納高校敏感信息的規律和實例。然后,通過設計建立基于XML高校敏感信息規則庫,在規則庫的基礎之上設計高校敏感信息監測算法與并開發相應的檢測軟件系統。進而實時監測有關學生、老師和媒體評議學校招生、就業、教學、科研、管理、服務等學校中心工作,以及學生社團組織、黨支部、班級活動、后勤服務、校園安全和周邊環境等各方面的敏感信息,以增強微博輿情的預見性,從而有效防范校園危機事件的發生。利用敏感信息監測技術和軟件對這些敏感信息進行梳理、篩選、統一格式、分類編排,再進一步對信息的準確性、真實性和可靠性由人工把關人進行核實,從而使報送信息具有代表性、全面性和及時性,上報的內容還應包括對輿情信息的分析、相關處理意見與建議,以減少學校黨政主管領導的信息閱讀量和工作量。
高校一般敏感信息監測可以采取上述方法,而對于個別重點“意見領袖”特征的個人和團體微博要進行“盯梢式”單獨特殊處理。這個方面的研究更為重要,因為大多數微博輿情突發事件往往只是個別學生制造網絡謠言并在微博中流傳引起的,在形成不正確的輿論導向之后,學校控制輿情就非常困難和被動了,甚至會給學校帶來較為嚴重的負面影響。具體來說,也可以通過分析“意見領袖”個人和團體微博的發言特征、粉絲特征和行為特征,設計建立基于XML“意見領袖”監測規則庫,在規則庫的基礎之上,通過開發的監測軟件實時監測重點人物在微博平臺上行為。
3 高校微博敏感信息校正與輿情引導
利用國外先進的敏感信息監測與校正技術,變被動為主動,建立微博輿情主動預防機制。
一方面,在微博平臺上設計開發基于LanguageTool的微博信息發布插件,對于敏感信息進行自動檢測和校正。例如,對于“法輪功”信息可以自動校正為“邪教”。再比如,以利用微博和微群發揮媒體和輿情導向功能的利器,轉發、評論和回復:對有利于建設和諧校園的事和人的微博可通過插件自動轉發,大力宣傳,堅決、持久地弘毅正人、正氣;對于歪曲事實、道聽途說、危言惑眾,嚴重影響學校利益和形象的可以通過微博插件自動刪除或批評校正。這種方式是在源頭上對高校敏感信息進行控制,而不是在微博信息發布之后、已經形成微博輿論之后的各種被動的事后處理。
另一方面,針對“意見領袖”和問題突出學生指派專人(例如,輔導員)采取循序漸進的方式與之接觸,首先了解他們的思想、學習和生活基本狀況,在尊重他們的個性的基礎之上進行有針對性的引導。另外,對于偏激的、片面的、言語出位的一般性負面微博,也應該尊重信息發布人、進行合理疏導。例如,可通過微博評論對具體問題進行解釋、說服和教育,糾正其片面或偏激的認識,幫助形成正確觀念,同時應在調查的基礎上解決信息發布人所反映問題。
三 微博環境下政治敏感信息監測與引導實踐案例
1 目標人群微博信息識別與采集
筆者以北京師范大學珠海分校管理學院信息管理與信息系統專業4屆學生(約400人)為微博信息識別目標人群。以6個月時間(2012年6月1日至2012年11月30日)為其微博信息采集時間跨度,通過信息識別和信息采集技術建立該專業在新浪微博平臺上的微博信息數據庫作。
具體做法為:首先,選取本學院、該專業年級、班級的官方微博為“種子”,例如:“@BNUZ管理學院”、“@12管院信管”、“@11級信管1班”。第二,通過這個官方微博粉絲初步獲取目標人群的微博地址編號(不是微博昵稱,因為微博昵稱經常會變)。第三,通過目標人群粉絲、互粉關系再次確認目標人群身份,確保不遺漏不重復。第四,建立微博地址編號與學生個人檔案信息關聯數據庫。經過以上人工和機器篩選,我們最終確定了403個學生微博帳號,覆蓋了專業總人數(420人)的95.952%。
目標人群的微博信息采集對象包括了所發微博內容、所發微博最新時間,轉載內容、評論內容等。微博信息的采集是基于新浪微博平臺的基礎上實現的,通過微博用戶登錄自己的微博賬號向新浪微博提出授權申請,授權申請完畢后將會得到一個access token號,利用這個access token號在連接網絡的基礎下自動采集相關微博信息。經過6個月的采集,共獲得221762條微博信息,平均每個同學每天發表微博3.057條。
2 政治敏感信息調研分析
筆者與北京師范大學珠海分校政治理論部老師合作,共同指導信息管理與信息系統專業學生開展政治敏感信息調研工作。我們通過網絡調研和專家訪談等方式,對政治敏感信息分類、來源和主內容特征進行廣泛深入的調研和分析。
(1)政治敏感信息分類
1)我國內政相關政治敏感信息:
臺灣問題:(a)臺灣當局的行政機構名稱:臺灣所謂“立法院”、“國民大會”、“監察院”等;(b)臺灣當局領導人名稱:臺灣所謂“總統”、“行政院長”、“立法委員”等;(c)其他一切“國家”級別的稱謂和內容,因為臺灣不是國家:“國歌”、“國旗”等;(d)臺灣政治事件:所謂臺灣“大選”;(e)臺灣政治言論:駁斥李登輝所謂“中臺關系是朋友關系”、“臺獨”言論。
西藏問題(例如:達賴喇嘛問題,“藏獨”問題)、新疆問題等。
2)我國外交相關政治敏感信息:
菲律賓問題(黃巖島問題)、日本(釣魚島問題)、越南(湄公河案)、韓國(韓國海警抓扣中國漁船被刺死)、美國(美日等國搞的所謂“中國威脅論”),以及我國其他周邊國家/地區。
3)國共兩黨歷史政治敏感信息
兩黨立場不一致:國民黨的所謂“六義士”;兩黨對歷史的解讀,特別是解放戰爭。兩黨對對方的稱謂:所謂“共軍”、“匪諜”等。
4)其他政治敏感信息
反動勢力政治敏感信息:法輪功邪教組織(可從翻墻軟件的網站主頁獲得很多信息);政治敏感事件信息:“六四”事件等。
(2)政治敏感信息特征詞匯總歸納
筆者設計并構建了LanguageTool政治敏感信息校正規則195條(見表3)以及相應的新浪微博插件,用于目標人群發表微博信息的校正。圖1是學生已完成的基于LanguageTool的西藏問題敏感信息校正規則示例。
目標人群一旦發表規則所能監測識別的政治敏感微博信息,新浪微博插件可以自動采集并識別出政治敏感信息。將政治敏感信息相關內容進行自動校正,避免不當言論的發布與散播。同時將微博作者列入“黑名單”提供給思想政治輔導員老師,采取專人重點跟蹤和引導的方式處理。
在實施案例的過程中,自動化處理工作量占一半以上,極大地提高了敏感信息識別、采集、監測、校正與引導的工作效率和效果。一旦相關軟件開發完成之后,高校無需投入大量人力和經費來實施應用,大量的重復性、機械性的工作由機器自動處理完成。但是也不能完全依賴機器處理,自動化處理不能100%解決問題。例如,信息識別、監測的最終的審核把關工作,個別“意見領袖”的思想引導工作,都還需要指派專人進行處理,而這些人工的工作量并不大,所以可行性較高。
四 總結
本文提出將較為成熟信息技術引入高等學校思想政治教育領域,用于解決微博環境下高校網絡輿情的監測與引導實踐問題,發揮了交叉學科各自優勢,能夠提高高校微博輿情監測與引導工作的效率和效果。利用信息技術在高校微博信息源頭上進行控制,從根本上解決了高校微博輿情監控和引導的問題,建立了全新的高校微博輿情主動預防機制最終達到半自動化處理的要求,使得主動預防機制切實可行。