侯甜甜,陳培友
(黑龍江科技大學管理學院,哈爾濱150027)
大數據環境下,人們需要精準、智能的檢索工具。據美國數據公司IDC提供的調查數據顯示,在2013年全球網絡信息資源總量就已經達到2.7萬億GB,并且持續飛速增長,預計到2023年全球數據總存儲量將達到135萬億GB,人們已然進入大數據時代。[1]人們無時無刻不在通過互聯網獲取各種信息,但是Internet上的信息通常以雜亂無序的形式分散在各個開放卻又相互獨立的節點中,其可利用性和可靠性是處在動態變化之中的,因此人們需要精準、智能的檢索工具來應對大數據所帶來的挑戰。而在大數據背景下,企業的網絡輿情危機日益凸顯,企業輿情是其形象和門面,它的傳播直接關系到企業的品牌塑造、產品銷量等等,它幾乎決定了企業的生死。有效的輿情傳播,在使消費者對于某企業的否定到認可過程中所起到的作用是媒體廣告的九倍。[2]因此,對于企業來講,得“輿情”者得天下。搜索引擎一直是人們查找與定位互聯網數據信息的重要工具,但隨著網絡信息資源的極速增長與用戶信息搜索需求的不斷提高,傳統的搜索引擎自身存在的兩個弊端逐漸被放大。一是信息覆蓋率較低,二是傳統搜索引擎智能化水平較低。因此,要使用戶獲得較為全面而且準確的信息,就得同時調用多個搜索引擎,然后將搜索信息進行整合。[3]而智能元搜索就在這樣的背景下應運而生。
目前,傳統搜索引擎的工作原理主要是:萬維網服務器利用“蜘蛛”程序定期搜索網頁信息;分析和歸檔收集的網頁,提取關鍵詞和設置索引標記,并將其置入搜索引擎的索引數據庫。然后當用戶輸入檢索的關鍵詞時,搜索引擎就會從索引數據庫中找到匹配該關鍵詞的網頁呈現給用戶。[4]然而,這些搜索引擎一般都存在幾個問題,例如,網絡搜索的覆蓋范圍是有限的、實現搜索率和準確率都不高,這些容易導致用戶在搜集信息時會搜集到脫離其真實訴求的無關信息。很難滿足用戶的信息搜索需求。[5]
智能元搜索引擎使搜索系統通過個性化和智能化引入大規模人工智能技術。這些技術包括基于網絡的數據挖掘技術,用戶的個性化建模,成員搜索發動機動員政策技術,管理技術,文本分類,學習技術等等。同時,智能元搜索可以進行智能動態的調用決策,自動將用戶輸入的搜索請求遞交給最合適的搜索引擎來處理。不僅如此,智能元搜索還能夠通過不斷地學習來了解用戶的興趣、喜好,從而實現自動選取合適的獨立搜索引擎來進行信息搜索。此外,智能元搜索引擎還能夠自動對用戶輸入的關鍵詞所在的文本上下文環境來對關鍵詞的類別進行判斷,以達到最優化的查詢效果。[6]基于智能元搜索對企業網絡輿情危機進行預警,就是因為面對海量的、動態的在線信息數據,智能元搜索引擎可以迅速完成網絡發布任務,同時能夠快速而準確地搜索出那些不利于塑造企業良好輿情的負面信息,滿足企業智能化、個性化、多樣化和及時監控的需求。
網絡輿情以各種形式表現出來,主要包括文本、圖片、音視頻等,而就當前的技術而言,當前最適合進行挖掘的數據形式仍以文本形式為主。尤其在一些論壇、微博、社區等評論性的網站,匯聚了大量的帶有情感傾向的文本信息。網絡輿情的本質是一種輿情,而不是網絡中存在的具體的數據,因此必須通過廣泛的提取具有情感傾向的評論信息數據進行分析后才能得到結果。并且相對于其它的模型,輿情危機預警模型的準確性、及時性尤為關鍵,要準確地窺探出輿情危機、及時地進行輿情危機預警、有效地消除輿情危機。而智能元搜索技術能夠較為全面、快速地獲取有關信息或數據,鑒于這些優點所以近些年智能元搜索技術進入了學者的視野并逐步得到重視。綜上可知,網絡中廣泛的評價信息給企業網絡輿情預警提供了豐富的信息資源,智能元搜索給輿情危機預警模型的建立提供了技術支持。因此建立基于智能元搜索引擎的企業網絡輿情危機預警模型,不僅具有現實需求的迫切性,同時也具有研究上的可行性。
本研究主要基于元搜索系統進行文本的格式及冗余處理及對搜索信息排序處理的基礎上進行分詞和信息的二次預處理,最終根據語料情感值的大小選擇是否進行預警。其中分詞采用中科院的ICT-CLAS2015中文分詞系統對其進行分詞。考慮到情感詞典的全面性與權威性,筆者選用大連理工大學情感詞匯本體庫,該情感詞典是建立在國外影響力較大的Ekman基礎之上的,并在其基礎上將情感詞典進行了更為細致的劃分。該情感詞典中將情感分為7大類21小類,共包含27467個情感詞,情感強度分為 1,3,5,7,9 五檔,9 表示強度最大,1 為強度最小。給定的詞典包括詞性、詞義數、情感分類、強度、極性值。每個詞在每一類情感下都對應了一個極性。其中,0代表中性,1代表褒義,2代表貶義,情感分類以N開頭的為負面情感,以P開頭的為正面情感。
在該情感詞典的基礎上將代表中性的詞語忽略,褒義詞的強度不變,而貶義詞的情感強度記為原強度數值的相反數,這樣處理便于下面對采集語料的整體情感強度值進行計算。并且根據專家意見設定情感閾值為-5,即當情感值低于-5時則會進行預警。一旦確定預警,則系統會自動從由知識管理(KM)和方案集構成的知識庫中調取相應的處理方案,現存知識庫中若存在較為合理的方案系統則會自動輸出該方案,然后反饋給用戶。否則,則人工研究并輸入新的可行方案,然后系統自動存入知識庫,為以后的決策作依據。整個模型形成一個良性的閉合回路。
使用中文元搜索引擎中最具代表性的“元搜”來進行企業信息的獲取試驗。以國內較大的六家企業為例,其中3家電子企業,3家實體企業。得到有關企業信息排行前30條信息,通過兩次信息預處理后,分別對有關企業信息的分詞數、正負向情感詞條數、情感強度累加值以及是否達到閾值等指標進行數據統計,得到如下處理結果。

表1 六家企業搜索信息處理數據分析表
如表1所示,分別統計每個企業的相關數據指標,可以注意到正負向情感詞條數之和并不等于分詞數,這主要是由于即使對搜索到的企業信息進行了雙重預處理,但中文分詞系統在分詞時包含了大量中性詞條,這些詞條并沒有明顯的情感傾向,因此它們對于情感的強度累加值沒有影響。
在互聯網時代,網絡輿情已成為企業獲取消費者對于其產品或服務滿意度的關鍵指標,成為企業捕捉危機信息的主要來源。筆者運用智能元搜索技術,通過對不同企業的相關網絡信息進行篩選,并結合分詞系統與情感詞典的運用,對篩選出的網絡信息中具有情感傾向的內容進行計算,通過兩種類別的六家企業進行驗證,并得出了其中三家企業存在著網絡輿情危機,這與實際狀況是相吻合的,因此證明了本文預警方法的有效性。
[1] Vesset D,Woo B,MorrisH D,et al.Worldwide big data technology and services 2012-2015 forecast.IDC Rep,2012,233-485.
[2] 孫 瑩.基于Web文本挖掘的企業輿情情感分類模型研究[D].武漢:華中師范大學,2013.
[3] 李紅梅.丁振國.周利華.基于Agent的智能元搜索引擎技術研究[J].計算機科學,2008(10):90-93.
[4] 何友全,徐小樂.搜索引擎用戶接口設計[J].重慶理工大學學報:自然科學版,2010(9):63-68.
[5] Wang Zhan-ping,Xiao Xiao.The Study on Early Warning of Online Public Crisis Based on Intelligent Meta search Engine[J].Fourth International Conference on Business Intelligence and Financial Engineering.2011(143):9-13.
[6] 孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計算機工程,2013(12):211-215.