阮夢黎
(山東管理學(xué)院, 濟(jì)南250357)
網(wǎng)絡(luò)輿情監(jiān)管預(yù)測作為網(wǎng)絡(luò)監(jiān)管的重要組成部分,對保障信息安全和社會穩(wěn)定都有著十分重要的意義。 傳統(tǒng)網(wǎng)絡(luò)輿情監(jiān)管預(yù)測采用人工監(jiān)管預(yù)測,如網(wǎng)警或采用大數(shù)據(jù)分析等衍生出灰度閾值監(jiān)測法等,從監(jiān)測預(yù)測效果上看,由于大數(shù)據(jù)運算體量較大,人工完全取決于個人能力等主觀因素,現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法存在網(wǎng)絡(luò)輿情反應(yīng)較慢,輿情態(tài)勢預(yù)測準(zhǔn)確性較低等不足[1],為此,本文提出了基于關(guān)鍵詞提取的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法研究。
關(guān)鍵詞提取是指利用信息技術(shù)和智能算法從待查詢的文本或網(wǎng)頁中自動獲取標(biāo)志性核心詞匯,從而實現(xiàn)認(rèn)知原文檔大致內(nèi)容要義的過程,它是通過抽取代表信息或核心詞語來進(jìn)行文本挖掘進(jìn)而實現(xiàn)輿情監(jiān)控、預(yù)測或決策分析等后續(xù)工作的關(guān)鍵環(huán)節(jié)。本文設(shè)計的根據(jù)關(guān)鍵詞提取的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法,通過確定關(guān)鍵流程以及監(jiān)測到的網(wǎng)絡(luò)輿情集合,計算網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征,實現(xiàn)頻繁詞匯的篩選,利用傅里葉變換分解輿情語義特征,確定篩選度,使其轉(zhuǎn)化成為關(guān)鍵詞,利用信息檢索與數(shù)據(jù)挖掘計算,完成網(wǎng)絡(luò)輿論權(quán)值的計算,確定網(wǎng)絡(luò)輿情時間與計算次序的對應(yīng)關(guān)系,基于此進(jìn)行網(wǎng)絡(luò)輿情二元語義的擬合,確定網(wǎng)絡(luò)輿情綜合評價映射,并進(jìn)行輿情預(yù)測結(jié)論的最終顯示。 為了保證研究的正確性,進(jìn)行仿真試驗,試驗數(shù)據(jù)表明本算法具有較高的預(yù)測準(zhǔn)確性,適合網(wǎng)絡(luò)輿情監(jiān)管預(yù)測。
關(guān)鍵詞提取網(wǎng)絡(luò)輿情預(yù)測算法是根據(jù)網(wǎng)絡(luò)輿情二元語義的擬合,分析網(wǎng)絡(luò)輿情綜合評價映射,控制篩選度實現(xiàn)的,其網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法基本流程如圖1 所示。
設(shè)監(jiān)測到的網(wǎng)絡(luò)輿情集合為H{h1,h2,h3,…,hn},一般監(jiān)測到的輿情集合均較大,不適合整體的監(jiān)管以及預(yù)測,為此進(jìn)行關(guān)鍵詞的提取,針對關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)輿情監(jiān)管和預(yù)測。 網(wǎng)絡(luò)輿情關(guān)鍵詞的提取過程示意圖如圖2 所示[2]。

圖1 網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法基本流程Fig. 1 Basic flow of the algorithm network public opinion supervision and prediction

圖2 關(guān)鍵詞提取過程示意圖Fig. 2 Process of keyword extraction
首先,確定網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征,可用公式(1)表示[3]:

式中,Ika0、Ika1、Ika2表示輿情序列波特率;Ia、Ib、Ic表示監(jiān)測頻率響應(yīng);a 表示輿情監(jiān)測范圍加權(quán)數(shù)。 根據(jù)網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征,進(jìn)行頻繁詞匯的篩選,可根據(jù)設(shè)定的不同監(jiān)測級別,設(shè)定不同的頻繁詞匯的篩選度,實現(xiàn)對關(guān)鍵詞的篩選,其逆函數(shù)表達(dá)式如公式(2) 所示[4]:

式中,x 代表頻繁詞匯的篩選度,根據(jù)篩選級別設(shè)定,篩選級別越高,篩出關(guān)鍵詞越多,反之篩選級別越低,篩出關(guān)鍵詞越少,一般篩選度取值范圍為[0.4 ~0.8][5]。
基于頻繁詞匯篩選出的詞語,為關(guān)鍵詞的原型詞匯,對原型詞匯進(jìn)行網(wǎng)絡(luò)輿情的綜合相對貼近度驗算,將驗算結(jié)果進(jìn)行傅里葉變換分解,分解出輿情語義特征,使其轉(zhuǎn)化成為關(guān)鍵詞。 其傅里葉變換分解過程可用公式(3)表示[6]:

式中,Uka表示語義環(huán)境;Ika代表分解系數(shù);ζ 語境篩選級別。
基于監(jiān)測到的網(wǎng)絡(luò)輿情集合的確定,計算網(wǎng)絡(luò)輿情在路由鏈路層的域間關(guān)聯(lián)特征,以及頻繁詞匯的篩選度,利用傅里葉變換分解計算,實現(xiàn)了網(wǎng)絡(luò)輿情關(guān)鍵詞的提取。
基于網(wǎng)絡(luò)輿情關(guān)鍵詞的提取,得到需要監(jiān)管預(yù)測的關(guān)鍵詞,但此時計算出的關(guān)鍵詞為平行關(guān)鍵詞,計算次序是按照采集次序?qū)崿F(xiàn)的,為此進(jìn)行網(wǎng)絡(luò)輿情時間序列的構(gòu)建。
時間序列是監(jiān)管預(yù)測的基礎(chǔ)序列,利用時間序列定義計算次序,得出非平行關(guān)鍵詞組即熱度排名,進(jìn)行信息檢索與數(shù)據(jù)挖掘計算,其信息檢索與數(shù)據(jù)挖掘計算公式如(4)所示[7]:

式中,IDF 表示逆文本頻率指數(shù)(Inverse Document Frequency),IDF 越大,說明詞的區(qū)分度越大,切合主題的特點[8];d 表示詞頻,即d 在集合H 中出現(xiàn)的頻率,c 表示語料庫中的文件總數(shù),即集合文件和,利用信息檢索與數(shù)據(jù)挖掘計算實現(xiàn)權(quán)值的計算。
基于網(wǎng)絡(luò)輿情關(guān)鍵詞的提取,依托不同候選關(guān)鍵詞的權(quán)重計算,構(gòu)建一個完成的網(wǎng)絡(luò)輿情時間序列。
基于網(wǎng)絡(luò)輿情時間序列的構(gòu)建,完成網(wǎng)絡(luò)輿情關(guān)鍵詞的提取,實現(xiàn)了對網(wǎng)絡(luò)關(guān)鍵詞的加權(quán)計算,確定了網(wǎng)絡(luò)輿情時間與計算次序的對應(yīng)關(guān)系,進(jìn)行網(wǎng)絡(luò)輿情二元語義的擬合,以實現(xiàn)基于獲取的關(guān)鍵詞和網(wǎng)絡(luò)環(huán)境,進(jìn)行網(wǎng)絡(luò)輿情預(yù)測。
二元語義擬合是由文字語言到計算機語言的擬合,由于文字語言無法直接進(jìn)行計算機計算,為此二元語義擬合十分必要,通過決策計算,實現(xiàn)對網(wǎng)絡(luò)輿情相關(guān)的綜合評價[9]。 將獲取的關(guān)鍵詞轉(zhuǎn)換成計算機語言,首先進(jìn)行網(wǎng)絡(luò)輿情序列語義本體模型表達(dá),是計算機獲取文字語言轉(zhuǎn)換成計算機語言的常用方法,本文采用借調(diào)的方式,利用網(wǎng)絡(luò)輿情序列語義本體模型表達(dá),將獲取的文字語言轉(zhuǎn)換成計算機語言[10]。
將轉(zhuǎn)換好的計算機語言進(jìn)行決策計算,其目的是為確定網(wǎng)絡(luò)輿情綜合評價映射做數(shù)據(jù)支持,網(wǎng)絡(luò)輿情綜合評價映射是輿情預(yù)測監(jiān)管的標(biāo)準(zhǔn),即評價已發(fā)生的網(wǎng)絡(luò)輿情處于何種態(tài)勢,評判是否觸發(fā)網(wǎng)絡(luò)輿情警戒機制,并對網(wǎng)絡(luò)輿情進(jìn)行跟蹤,直至網(wǎng)絡(luò)輿情事件結(jié)束,其網(wǎng)絡(luò)輿情綜合評價映射可用公式(5)表示為:

式中,Z2∑表示協(xié)方差修正參數(shù);Z0∑表示語義主題相關(guān)度;Dka表示輿情影響因子。
當(dāng)ΔS >1 時,表示網(wǎng)絡(luò)輿情態(tài)勢發(fā)展處于超警戒運行狀態(tài),監(jiān)管部門應(yīng)著力注重,網(wǎng)絡(luò)輿情監(jiān)管算法采用跟蹤機制,對該輿情進(jìn)行實時分析研判以提供準(zhǔn)確數(shù)據(jù);
當(dāng)ΔS =1 時,表示網(wǎng)絡(luò)輿情態(tài)勢發(fā)展處于臨界運行狀態(tài),監(jiān)管部門應(yīng)著力分析該輿情的發(fā)展態(tài)勢,確定未來監(jiān)管方向;
當(dāng)ΔS <1 時,表示網(wǎng)絡(luò)輿情態(tài)勢發(fā)展處于基本可控狀態(tài),監(jiān)管部門根據(jù)實時情況進(jìn)行分析,網(wǎng)絡(luò)輿情監(jiān)管算法采用非重點跟蹤機制,用于監(jiān)控輿情的進(jìn)一步發(fā)展。
同時網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測受突發(fā)事件影響,二元語義擬合應(yīng)受事件關(guān)注度的不斷增加而加深。
基于網(wǎng)絡(luò)輿情二元語義擬合,完成協(xié)方差修正,確定了輿情影響因子,依托網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測運行載體,實現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)管預(yù)測。 網(wǎng)絡(luò)輿情監(jiān)管預(yù)測的運行載體,同時也是關(guān)鍵詞提取網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法的運行載體。 算法運行載體包括算法運算平臺和顯示平臺兩部分,其中算法運算平臺各參數(shù)設(shè)置如表1 所示,算法運行顯示平臺用來顯示最終監(jiān)管預(yù)測結(jié)果,并根據(jù)設(shè)計警戒參數(shù),實現(xiàn)超臨界提醒。
為保證本文提出的基于關(guān)鍵詞提取的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法的有效性,進(jìn)行實例分析。 分析過程中,采用傳統(tǒng)人工輿情監(jiān)測法、灰度閾值監(jiān)測法作為實驗對比對象,進(jìn)行算法的態(tài)勢預(yù)測運算驗證。

表1 算法運算平臺參數(shù)Tab. 1 Platform of algorithm operation
實驗中利用已發(fā)生的網(wǎng)絡(luò)輿情事件作為實驗對象進(jìn)行仿真實驗,分別對該網(wǎng)絡(luò)輿情發(fā)生開始后,勢態(tài)演變至12.5%、25.0%、37.5%、50.0%、62.5%、75.0%和87.5%這7 個階段進(jìn)行輿情發(fā)展態(tài)勢的預(yù)測。
僅對一件網(wǎng)絡(luò)輿情案件進(jìn)行發(fā)展事態(tài)分析,存在實驗偶然性和不確定性,為此選擇由輿情機構(gòu)統(tǒng)計的2018 年全國輿情熱點事件進(jìn)行分析,主要包括“中美貿(mào)易爭端”、“改革開放40 周年”、“金庸逝世”、“問題疫苗事件”、“個稅改革”、“范冰冰偷逃稅事件”、“中概股上市熱潮”、“幼兒園虐童事件連續(xù)曝光”、“共享單車倒閉潮”、 “毆打公交司機等乘客霸凌行為”、“高鐵霸座”等網(wǎng)絡(luò)輿情事件來驗證算法對輿情態(tài)勢預(yù)測準(zhǔn)確性。
由于本次實驗采用的是根據(jù)不同網(wǎng)絡(luò)輿情方法對已完成的網(wǎng)絡(luò)輿情事件進(jìn)行分析,用過去參數(shù)驗證方法的準(zhǔn)確性,為此需構(gòu)建過去實驗環(huán)境,讓關(guān)鍵詞提取監(jiān)管預(yù)測算法、傳統(tǒng)人工輿情監(jiān)測法、灰度閾值監(jiān)測法都將實際事件的網(wǎng)絡(luò)輿情結(jié)果作為未知數(shù)據(jù),通過對過去事件的分析得出結(jié)論與事實真實結(jié)果進(jìn)行對比,分析其對網(wǎng)絡(luò)輿情發(fā)展態(tài)勢預(yù)測的準(zhǔn)確性。
實驗過程中,建立的實驗環(huán)境應(yīng)基本符合事實發(fā)展,采用時間函數(shù)控制事態(tài)的發(fā)展,例如:將“問題疫苗事件”的時間控制在該事件發(fā)生開始時,即記為時間點A,切斷所有大于時間點A 的所有信息,載入需要進(jìn)行實驗對比的3 種方法,控制時間函數(shù),時間向后移動至12.5%(事件結(jié)束的12.5%),利用3 種網(wǎng)絡(luò)輿情監(jiān)管預(yù)測方法對A+12.5%時間內(nèi)所接收到的所有信息,進(jìn)行網(wǎng)絡(luò)輿情事件態(tài)勢的預(yù)測,3種方法預(yù)測完成后,記錄預(yù)測值,與該事件真實結(jié)果對比,并進(jìn)行記錄。 再通過控制時間函數(shù),時間向后移動至25%,利用三種網(wǎng)絡(luò)輿情監(jiān)管預(yù)測方法進(jìn)行該事件態(tài)勢的預(yù)測,與真實結(jié)果對比并進(jìn)行記錄。如此往復(fù)控制時間函數(shù)直到事件結(jié)束,將記錄的數(shù)值形成實驗結(jié)果圖表。
根據(jù)實驗過程得出關(guān)鍵詞提取監(jiān)管預(yù)測算法、傳統(tǒng)人工輿情監(jiān)測法、灰度閾值監(jiān)測法,在不同時間段的態(tài)勢預(yù)測情況,根據(jù)記錄的數(shù)據(jù)以及真實結(jié)果數(shù)據(jù)形成實驗結(jié)果數(shù)據(jù)表,如表2 所示。

表2 實驗結(jié)果對比表Tab. 2 Comparison of experimental results %
根據(jù)實驗結(jié)果可以得出,人工輿情監(jiān)測法在輿情發(fā)展初期階段具有較高的靈敏度,但從整體上看,傳統(tǒng)人工輿情監(jiān)測法受網(wǎng)絡(luò)輿情發(fā)展階段影響較大,隨著接收到的信息增多,由于主觀因素的存在,易造成判斷性失誤;灰度閾值監(jiān)測法具有較高的穩(wěn)定性,但整體輿情態(tài)勢預(yù)測略低于關(guān)鍵詞監(jiān)測管理算法。
通過對實驗數(shù)據(jù)的統(tǒng)計、計算得出,關(guān)鍵詞提取監(jiān)管預(yù)測算法整體態(tài)勢預(yù)測有效性為61.56%,傳統(tǒng)人工輿情監(jiān)測法整體態(tài)勢預(yù)測有效性為55.96%,灰度閾值監(jiān)測法整體態(tài)勢預(yù)測有效性為45.17%。 可見本文提出的關(guān)鍵詞提取的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法,較其它兩種預(yù)測算法具有更高的有效性。
本文提出了基于關(guān)鍵詞提取的網(wǎng)絡(luò)輿情監(jiān)管預(yù)測算法,通過關(guān)鍵流程的確定、輿情時間序列的構(gòu)建、輿情二元語義擬合和最終輿情預(yù)測結(jié)論顯示等過程,并通過仿真實驗及其與其它傳統(tǒng)算法的比較,驗證了算法的有效性。 輿情分析和監(jiān)管是一項涉及信息學(xué)、管理學(xué)、社會學(xué)以及傳播學(xué)等多學(xué)科跨領(lǐng)域的工作,既需要充分利用智能技術(shù)協(xié)助決策支持和處理研判,又要重視對其潛在的社會和個體影響因素進(jìn)行合理分析和有效引導(dǎo),希望后期通過進(jìn)一步的研究和實驗優(yōu)化,使其在文本信息挖掘、自動摘要生成、輿情精準(zhǔn)研判等方面更具廣泛的應(yīng)用價值。