秦 濤 沈 壯 劉 歡 陳周國
1(智能網絡與網絡安全教育部重點實驗室(西安交通大學) 西安 710049)
2(西安交通大學電子與信息工程學部 西安 710049)
3(中國電子科技集團第三十研究所 成都 610093)
各大社交平臺已成為網絡輿情事件滋生和傳播的溫床,給社會和諧穩定帶來了嚴重的負面影響.網絡輿情事件的引導和控制是減輕輿情事件負面影響的重要手段之一[1].但是,網絡輿情事件涉及的主題復雜多樣、并發性強,而受到人力、物力的限制,不能同時對所有的輿情事件進行管理;再者,由于輿情事件突發性強,很難獲得大量與之相關的高質量標注數據,導致有監督學習方法訓練建立的模型難以泛化,場景改變后效果退化嚴重.如何采用人機混合增強技術,充分利用少量有標簽數據中的專家知識,建立輿情演化態勢評估模型是可行思路之一.因此,在分析網絡輿情事件特征和監管需求的基礎上,本文提出一種神經網絡排序模型,針對有標簽數據和無標簽數據設計相應的損失函數,在模型訓練過程充分利用有標簽數據和無標簽數據之間的關聯,提升輿情事件演化態勢評估模型的泛化能力,進而提高關鍵輿情篩選的準確性以及管控資源的利用效能.
首先,本文將輿情演化態勢評估問題轉化為多指標排序問題,即根據一定的指標體系對網絡輿情事件的重要程度進行排序.結合輿情事件特征和管控經驗,從輿情演化過程中涉及的“人”“事”“勢”等要素出發構建較為完善的網絡輿情嚴重性評估指標,以全面反映輿情事件的演變規律.由于輿情事件的具體排序結果不但和評估指標具體數值有關,也和其所處的相對位置相關(例如和不同的網絡輿情事件對比),為利用這種空間信息,本文將待排序事件的評估指標按照pairwise的形式進行組織,隨后利用局部敏感Hash算法對數據集進行預處理,計算各數據點的鄰域信息,構建數據的圖結構;同時,利用二階切比雪夫多項式作為卷積核,計算得到數據點及其一階鄰域的混合特征.更近一步,我們針對有標簽數據和無標簽數據設計了不同的損失函數,充分利用有標簽數據和無標簽數據之間的聯系.針對有標簽數據,其損失函數定義為數據對優先關系概率和其標簽分布的交叉熵;針對無標簽數據,其損失函數定義為數據對評分值的相似度和其特征空間相似度分布的交叉熵,通過超參構建模型的損失函數.最后,利用Adam算法和反向傳播算法對模型進行迭代訓練,建立排序模型.
為驗證本文所提算法的性能,本文構建了2種類型的數據集.第1種為公開有標注的數據集,包括微軟信息檢索數據集MQ2007-semi和MQ2008-semi,利用這類數據驗證本文算法的有效性;第2種為自主構建的輿情數據集,包括10個在2019-06-07—2019-06-14期間傳播于新浪微博的典型輿情事件,利用這類數據驗證本文所提算法在真實場景中的實用性和泛化性.2類數據集上的實驗結果顯示,本文所設計的算法具有良好的性能,能夠在標簽有限的情況下實現真實環境中輿情事件演化的重要性評估,為輿情事件的管控提供決策支持.
輿情事件演化趨勢重要性評估是指根據所設計的指標體系,量化輿情事件的影響范圍或者危害程度.在過去幾年,輿情事件管控逐漸引起了學術界的重視,和本文相關的主要工作簡單總結如下:
在輿情演化態勢評估指標構建方面,高承實等人[2]綜合考查了社會類指標與技術類指標、輿情主體與輿情受眾之間的關系構建了輿情監測指標體系;Jin等人[3]設計了一種社交媒體中用戶情感計算指標體系,并設計了相應的用戶情感計算方法,以衡量社交媒體中用戶情緒的影響;張一文等人[4]針對突發輿情事件的評估需求,構建了包括輿情產生導火索、輿情產生主體、輿情產生載體、輿情調控主體的網絡輿情熱度評價指標體系.但是目前這些指標體系構建工作主要是以輿情事件中的特定方面要素為中心,導致態勢評估的結果存在片面性;此外,所構建的指標體系大多同時包含可量化的數值型指標和不可量化的模糊性指標,這不利于輿情事件重要性的統一度量.
在評估指標的基礎上,可以結合專家知識實現輿情演化態勢重要性評估.郝楠等人[5]綜合應用層次分析法和模糊理論構建基于模糊綜合評價的網絡輿情預警模型,并選取3個典型輿情事件進行了案例分析;但是這類網絡輿情演化趨勢重要性評估算法多依賴于專家知識,可擴展性和泛化性較差,對實施人員也有較高的專業性和知識性要求.
隨著機器學習的發展,近幾年也出現了一些將機器學習方法應用于輿情評估領域的研究,游丹丹等人[6]利用粒子群算法對建立在時間序列上的輿情演化趨勢值進行預測;張和平等人[7]利用輿情事件的百度指數作為訓練數據,建立了基于灰色Markov的輿情事件演化趨勢預測模型.但是這類方法往往無法實現從評估指標到演化趨勢的直接映射,實質上仍然利用了標注質量較高的數據進行訓練和學習,所構建的模型面對真實環境下大規模、高并發的輿情演化趨勢分析并沒有良好的效果.
輿情事件態勢評估可以轉化為多指標排序任務,即根據指標體系,篩選出急需管控的輿情事件.雖然將排序學習算法應用于輿情研究領域的研究較少,但是有許多相關且可遷移的方法.Burges等人[8]提出利用神經網絡進行排序任務的RankNet算法并推導了對應的損失函數;之后Burges對RankNet進行了改進,使之可以優化NDCG(normalized dis-counted cumulative gain)等非連續的信息檢索指標;Pan等人[9]提出了Semi-RankSVM算法,該算法是支持向量機排序學習的半監督拓展,主要創新是利用拉普拉斯正則化將數據結構信息的損失納入學習目標;Amini等人[10]提出了基于RankBoost的半監督排序算法,該算法首先依據特征向量空間距離較近的數據擁有相似標簽的原則,為部分無標簽數據賦予標簽,然后利用真標記數據和偽標記數據訓練模型.Xu 等人[11]提出了AdaRank-NDCG算法,它首先由訓練集訓練得到多個性能較弱的分類器,然后基于提升思想將其集成為更強的最終分類器,是效果較好的監督算法;Cao等人[12]提出的ListNet算法是典型的列表數據形式監督算法,它將每個查詢對應的整個數據列表當作一個訓練數據,然后用模型預測的數據列表排序和真實列表排序之間的交叉熵作為損失函數.秦濤等人[13]利用排序算法對多指標輿情事件的嚴重程度進行排序,并利用主曲線模型構建了一種無監督排序模型.但這些工作都沒解決如何利用少量有標簽數據中專家知識的難題,以及如何利用有標簽和無標簽數據的關聯特征訓練建立具有泛化能力的輿情演化態勢評估模型.
結合相關研究現狀和輿情監控需求,本文在構建輿情事件演化趨勢評估指標體系的基礎上,設計了一種面向少量標注數據的演化趨勢評估算法,利用標注數據中的專家知識以及標注和無標注數據之間的關聯關系,提升態勢排序模型的性能.
構建高質量的指標體系,可以將不同性質的輿情事件進行橫向比較,有助于整體上掌握輿情的發展變化趨勢,在此基礎上制定引導和控制策略.
結合輿情管控的實際需求、前期研究基礎及輿情管控經驗,設計了涵蓋輿情事件3個成因:“因人”“因事”“因勢”的演化態勢評估指標.“因人”是指和輿情事件發起者或者參與者相關的特征,例如輿情事件參與人的年齡,地域等特征,這部分特征主要由事件參與者的平臺注冊屬性獲取;“因事”是指輿情事件涉及的事件類型、已經存在的時長、話題主題等,這部分特征主要通過對博文的處理獲取;“因勢”是指當前監控時刻輿情的具體演變態勢,例如帖子數和參與人數呈現的增長態勢等,這部分主要通過對所捕獲帖子和參與人在時間維度的變化趨勢獲取.
據此,本文構建了包含14個指標的評估指標體系,如圖1所示,所設計的指標綜合考慮了輿情事件的傳播特征和監管需求,涵蓋了靜態特征,例如參與人的粉絲數,也涵蓋了事件演變的動態特征,例如事件傳播的飆升度.此外,所構建的指標體系更加注重輿情事件傳播的動態變化特點,更適合用于輿情事件演化趨勢評估.

Fig. 1 The indices for public opinion changing trend evaluation圖1 輿情演化趨勢評價指標
從有含義、易獲取、易理解的角度,我們對不同指標的量化方法進行了不同的定義,其中,“因人”相關的特征量化方式為:
1) Featurea1. 參與人群的年齡分布,其定義為所有該事件參與者年齡的標準差.
2) Featurea2. 參與人群的地域分布,其定義為每個地域參與人數比率的標準差.
3) Featurea3. 參與人在各平臺的分布,其定義為由每個平臺參與人數比率的標準差.
4) Featurea4. 參與人的粉絲數量,其定義為所有參與人粉絲數量的平均值.
因輿情事件參與者眾多,故本文采用特征得分來刻畫和“人”相關的特征.在具體的計算過程中,利用標準差反映某一特征的分布,利用均值刻畫粉絲的數量,在一定程度上降低了特征的計算復雜度.
“因事”相關的特征量化方式為:
1) Featureb1. 事件發現時已存在的時間,其定義為從事件發生到態勢評估時所經歷的時間tn-t0.
2) Featureb2. 事件識別準確率,其定義為爬取的帖子中符合事件主題的帖子數量占總帖子數量的百分比.
3) Featureb3. 事件發現時存在的平臺數,其定義為爬取的數據來源站點的數量.
4) Featureb4. 事件的嚴重或敏感程度,其定義為事件的嚴重或敏感程度評級,主要利用關鍵詞的頻繁度刻畫.
在上述特征的計算過程中,特征b2和b4的計算需要用到專家知識,在一定程度上需要有標簽數據,例如事件的敏感程度依賴于敏感的定義和敏感詞語義的標注.
“因勢”相關的特征量化方式為:
1) Featurec1. 輿情事件的傳播速度,其定義為符合事件主題的帖子在單位時間間隔內的新增量與時間間隔之比(TPn-TPn-1)/T,即:
c1=(TPn-TPn-1)/T,
其中TPn表示第n個時刻獲得的符合目標主題的帖子數量.
2) Featurec2. 輿情事件傳播的飆升度,其定義為符合目標主題的帖子數量在第n個時間間隔內的新增量和在前一個時間間隔內的新增量之差與時間間隔之比,即:
c2=((TPn-TPn-1)-(TPn-1-TPn-2))/T.
(1)
3) Featurec3. 輿情事件參與人群飆升度,其定義為參與人數量在第n個時間間隔內的新增量和前一個時間間隔內的新增量之差與時間間隔之比,即:
c3=((Hn-Hn-1)-(Hn-1-Hn-2))/T,
(2)
其中,Hn代表第n個時刻的參與人數量.
4) Featurec4. 輿情事件話題傾向性比率,其定義為爬取的帖子中負向情感帖子數量占總帖子數量的比率,即:
c4=TPne/TP.
5) Featurec5. 輿情事件平臺活躍度比率,其定義為爬取到符帖子數量超過設定值的平臺的數量NE0與總平臺數量NE之比,即:
c5=NE0/NE.
6) Featurec6. 輿情事件話題敏感度比率,其定義帖子中的敏感帖子的數量占總帖子數量之比TPse/TP,即:
c6=TPse/TP.

Fig. 2 Framework of the public opinion events changing trend evaluation圖2 輿情演化態勢嚴重性評估模型框架
在具體的計算過程中,特征c4和c6的計算需要用到專家知識,在一定程度上需要有標簽數據,所用到的標簽數據和“因事”相關特征的標簽數據相同.
根據上述特征定義,結合輿情監控的實際需求,以時間窗口T為時間單位將輿情數據集分段(在本文中T=1天),并根據每個事件窗口內的數據量化指標.同時,為了克服指標量綱不同帶來的影響,我們對抽取的特征進行了歸一化處理:

(3)
多個輿情事件演化態勢評估問題可以轉化為排序問題,即根據指標體系量化輿情事件態勢的嚴重性,并據此實現排序,篩選出急需管控的輿情事件.
首先,本文采用pairwise的形式重構指標數據集,即通過2個數據點之間的排序優先關系構建數據對.對于數據點xi和xj來說,其標簽信息可有3種形式:(〈xi,xj〉,+1),(〈xi,xj〉,-1),(〈xi,xj〉,0),分別代表xi在排序上優先于xj,xi在排序上落后于xj,以及xi和xj在排序優先度上無法區分.演化態勢重要性排序模型的目標是通過訓練建立一個評分函數f(x;θ),評分函數將對待排序數據集中的每個數據點進行評分,評分值越高則代表該數據點在本次排序中擁有更高的重要度,亦即對應的輿情事件更加嚴重,最后根據評分值獲取待排序數據集的排序.
為利用標注數據和無標注數據之間的關聯關系,在模型訓練過程中充分利用有限標簽數據中的專家知識,本文設計了如圖2所示的輿情演化態勢重要性評估模型,具體包括4個步驟:
Step1. 評估指標量化.結合第2節所設計的指標體系和量化方法,計算輿情事件的指標值,作為排序模型的輸入.
Step2. 數據點鄰域混合特征提取.利用局部敏感Hash算法構建數據點的鄰域信息,以建立有標簽數據點和無標簽數據點之間的聯系.
Step3. 排序神經網絡模型構建.將指標數據向量重構為數據對形式,針對有標簽數據和無標簽數據設計不用的損失函數,提升模型效率.
Step4. 評估結果管控.根據輸出的評估值,獲得最終的重要性評估結果,結合實際需求,實現重要輿情事件的管控,降低輿情事件的危害.
在排序模型中,排序結果不但和具體的指標數據有關,也和排序點所處的相對位置有關,為利用這種知識,本文構建各數據點以歐氏距離度量鄰域,從而挖掘數據分布的結構信息,并以此定義數據特征向量間的相似性.為降低算法時間復雜度,本文采用局部敏感Hash算法[14]來求取數據點的鄰域.


(4)

Step1. 構建L組Hash函數族,每組由k個Hash函數組成.
Step2. 每個數據經過一個Hash函數族映射后,得到一個整型向量.
Step3. 整型向量經過一次散列后得到對應的key值,key值經二次散列后得到其在Hash表中的索引,索引下的數據結構為字典,以存儲同key值的不同數據.
Step4. 對于數據集中的每個數據,進行鄰域計算時,依次經過2次散列,得到其在Hash表中的存儲位置,將該位置中的所有數據取出.
Step5. 對取出的數據按照與查詢數據的距離進行排序,取距離最小的K個作為該查詢數據的鄰域.
所提取的鄰域特征和原始的指標數值特征共同決定了排序結果,本文采用圖卷積神經網絡將空間特征和數值特征形成混合特征,以進行排序模型訓練.
為了實現圖上的卷積[16-17],首先要定義圖的拉普拉斯矩陣L:
L=D-A,
其中,D為以圖結構中各點的度作為對角線上值的對角矩陣;A為圖的鄰接矩陣,表示不同數據點的連接關系,如果2個數據點均不在對方的鄰域內,則鄰接矩陣中對應元素為0,否則為1.對L進行譜分解可得:

(5)
其中,U=(u1,u2,…,un),un為L的單位特征向量;λn為L的特征值.
對于輸出為y,輸入為x,激活函數為σ的GCN網絡層產生的變換為:
y=σ(Ug(Λ)UTx),
(6)
式(6)為卷積核的一般形式,但是它有學習的參數多、需進行拉普拉斯矩陣分解等缺點.本文采用切比雪夫多項式展開近似卷積核,則g可近似為
(7)
其中,Tm為m+1階的切比雪夫多項式;βm為對應的系數,同時也是需要學習的參數;Λ′為經過數值變換至[-1,1]之間的特征值對角矩陣.在本文中僅考慮一階鄰域,則最終可得卷積層變換為
y=σ(β0x-β1L′x).
(8)
經過卷積層后,可以提取出結合了鄰域特征向量和評估指標特征向量的混合特征向量,混合特征可以幫助排序模型更好地進行學習.
針對有標簽數據,根據2個數據點的排序評分值和2個數據的實際優先關系設計相應的損失函數.
記數據點xi經過排序模型輸出的該數據點的評分值si.P(i?j)為數據點xi優先級高于xj的概率,該概率依賴于兩者的排序評分:

(9)
此模型滿足序的傳遞性,即若P(i?j)>0.5,P(j?k)>0.5,可以推出P(i?j)>0.5.據此,有標簽數據的損失函數可由數據對的優先關系標簽和其概率預測分布的交叉熵度量,即:
(10)
其中,li?j表示數據對的標簽.當i=j時,li?j=0;當i?j時,li?j=1;當ij時,li?j=2.
針對無標簽數據,如何將有標簽數據和無標簽數據聯系起來是在標簽有限的情況下實現訓練效果提升的可靠方法[18].根據流形假設[19],相似的數據點應具有相似的評分和排序優先級,據此在設計無標簽數據的損失函數時,通過添加流形正則化項,使模型在根據有標簽數據進行訓練時可以利用無標簽數據的結構信息,以此提高模型效果.
針對每個數據對,都有以概率形式的輸入特征相似度和概率形式的排序優先級相似度.因特征空間的相似度與排序優先級的相似度應趨于一致,故要根據輸入數據的相似度對損失函數的輸出進行懲罰.為此,首先定義數據點xi和xj之間的距離為

(11)
同時,流形正則項只在數據點的最近的K個近鄰生效[20],根據流形假設,只有局部鄰域(利用4.1節所述局部敏感Hash算法計算得出)內的樣本數據擁有相似性特征.因此,數據點xi和xj間的轉移概率為
(12)

然后,以概率形式定義數據對在排序優先級上的相似度:
rij=P(i?/j)·P(j?/i)
(13)
其中,P(i?/j)=1-P(i?j)=P(j?i),代表了xi不優先于xj的概率,P(j?/i)同理.則P(i?/j)+P(j?/i)=1.P(i?/j)·P(j?/i)越大,即兩者和一定情況下,乘積越大,則P(i?/j)和P(j?/i)越接近0.5,也即xi和xj的排序優先級相同的概率越大.
利用數據點交叉熵衡量特征空間的相似度與排序優先級的相似度這兩者分布的差異,并作為懲罰的依據,由此可得無標簽數據的損失函數為
(14)
通過超參將有標簽數據的損失函數和無標簽數據的損失函數結合起來,即可得到整個排序模型的損失函數.
因為真實的輿情數據集缺乏權威標注,無法衡量本文所提方法的性能,本文首先利用公開數據集驗證本文模型性能,之后在真實的輿情數據集上驗證方法的實用性,綜合兩者來評判本文所提算法在輿情演化趨勢評估中的可用性.
公開數據集采用微軟MQ2007-semi[21]和MQ2008-semi[21],是文檔信息檢索領域的半監督數據集,其中有標簽數據由查詢ID、數據相關性標注和數據特征向量組成,無標簽數據由查詢ID和數據特征向量組成.MQ2007-semi數據集包含1 693個查詢ID,MQ2008-semi數據集包含785個查詢ID,對于一個查詢ID來說,對應有標簽數據數量約為40個,對應無標簽數據數量約為1 000個;數據相關性標注分為{0,1,2},其中0代表該數據與查詢完全無關,1代表兩者間有一定相關性,2代表兩者完全相關;數據特征向量共有46維,對應46個數據評價指標,主要包括:詞頻(term frequency, TF)、逆向文件頻率(inverse document frequency, IDF)、二元獨立模型(binary independence model, BIM)、信息檢索語言模型(language model for information retrieval, IMIR)等.2個數據集都被等量地劃分成5個子集,選取其中3個子集作為訓練集,在訓練集上對模型進行訓練;選取其余2個子集其中的1個作為驗證集,在驗證集上進行參數選取,選用評價指標最高的模型的參數作為最終參數;最后一個子集作為測試集,在測試集上應用模型來評估模型的泛化性能.
真實的輿情數據集由新浪微博中相關典型輿情事件的帖子構成,數據集詳細信息如表1所示.在2019-06-07—2019-06-14間,共采集了10個典型輿情事件的帖子43 042條,事件主題和事件描述如表1所示.所選事件主題是一周時間內發生的典型輿情事件,涵蓋了政治、民生、娛樂等多種輿情事件,具有一定的代表性.由表1我們可以看出,關于中美貿易戰輿情事件的帖子數最多,關于俄部署導彈的帖子數最少.如按照帖子數量大小進行管控優先級排序,則王源學盛飯、NBA總決賽等娛樂事件將具有較高的管控優先級,這顯然和輿情實際管控需求不相符,為此必須研究輿情事件重要性評估方法.

Table 1 Data Set of Public Opinion Events表1 輿情事件數據集
首先利用時間片劃分方法,將輿情事件數據以天為單位進行劃分,從每天的數據中抽取第2節所設計的14個評估指標,利用本文所提算法對10個輿情事件重要性進行排序,動態量化一周時間內輿情事件的重要性和管控需求.
1) NDCG:歸一化折損累計增益,考慮排序結果的相關度和位置計算增益,并進行歸一化計算[22]:
(15)
其中,i表示數據在排序結果中的位置,reli表示第i個位置上的相關度,|REL|表示最佳排序結果.
2)P@n(precision at positionn):它是排序列表的前n個數據中與查詢相關的數據數量與n的比值[23].即:
(16)
其中,rel(i)表明排序結果中第i個位置的數據是否與查詢相關,有關時值為1,無關時值為0.
5.3.1 公開數據集實驗結果分析

Fig. 3 Experimental results using MQ2007-semi data set圖3 MQ2007-semi數據集分析實驗結果
利用公開有標注的數據集驗證本文所提算法的性能,同時選擇Semi-RankSVM[9],Semi-Rank-Boost[10],AdaRank-NDCG[11],ListNet[12]等4種方法進行了對比分析.在MQ2007-semi和MQ2008-semi上的實驗結果如圖3、圖4所示.由圖3所示結果表明,本文所提出的算法在NDCG@3,5,7,10四個指標上都表現出了良好的性能;與此同時在P@1,3,5,7四個指標上也表現出了良好的性能.通過對圖4所示的結果分析,可以得到相似的結論.更近一步求取NDCG和P的平均值,用來度量所提模型的性能,結果如表2所示.和傳統的若監督或無監督算法相比,本文所提算法在MeanNDCG和MeanP指標上均有不同程度的提升,驗證了本文所提算法在少標簽數據的排序任務有更好的性能.

Fig. 4 Experimental results using MQ2008-semi data set圖4 MQ2008-semi數據集分析實驗結果

Table 2 Comparison Experiment Results表2 對比實驗結果統計表
5.3.2 消融實驗分析
為了驗證數據鄰域和不同損失函數設計的作用,將兩者分別消去進行同參數條件下的實驗,實驗結果如表3所示,其中Semi-RankNet相對本文方法消去了數據鄰域特征,GCN-RankNet相對本文方法消去了有差別的損失函數.表3表明消去鄰域特征和采用無差別損失函數后效果均有不同程度的下降.因此引入混合特征和差別化損失函數后,捕捉到了數據的結構信息,建立了有標簽和無標簽數據之間的聯系,利用數據點的絕對數值和其在特征空間的相對位置,增強了有標簽數據較少情況下模型的學習能力.

Table 3 Experiment Results on Ablation Analysis (Mean NDCG)表3 消融實驗分析結果(Mean NDCG)
5.3.3 輿情數據集實驗結果分析
在輿情數據集上進行實驗,根據實際管控需要將輿情事件管控等級分為0,1,2三級,分別代表無需調控,需要關注和亟需調控,管控優先級的設置和每個優先級中的輿情事件個數取決于管控資源.其中管控優先級2為最高,表示管理部門需要對相應的輿情事件進行管控,結合管控經驗,隨機選取少量數據點(10個)進行標注.以歸一化后的模型輸出評分作為該輿情事件在該時間段的輿情事件演化趨勢值.2019-06-07—2019-06-13,輿情事件演化趨勢變化如圖5所示:

Fig. 5 Dynamic changing trends of the public opinion events圖5 輿情事件演化趨勢變化圖
由圖5中可以看出,趙志勇和孫宇晨事件演化趨勢較為敏感,全時段監控需求均為2級,從事件本身來看,趙志勇因為其惡劣的行徑被判處死刑,孫宇晨因利用比特幣進行欺騙和炒賣使多個家庭破產分裂.這2個事件的發展速度較快,且熱度一直維持在較高水平,網民言論中存在較多偏激的觀點,情緒傾向更為敏感,所以其演化趨勢評估分數較高也符合常理認知.華為和掃黑除惡事件在部分日期監控需求為2級,其余時段為1級;高考和普京事件全時段監控需求為1級.這些事件的熱度和情感傾向沒有過分突出,因而監控等級也更弱.林志玲、王源、NBA、百度等輿情事件,因為其事件性質并不敏感,網民的態度較為中立,情感傾向也趨于正面,整體熱度不高,所以模型對其演化趨勢評估較低同樣也符合常理認識.
本文針對輿情事件演化趨勢評估任務中可供學習的有標簽數據有限所造成的困難,利用排序學習模型解決并發輿情事件演化趨勢嚴重性或管控優先級的篩選問題.本文首先設計了輿情演化趨勢評估指標體系,然后提出了一種基于神經網絡的半監督輿情事件演化趨勢重要性評估算法,實現演化趨勢及危害嚴重輿情事件的篩選.在公開數據集和真實輿情數據集上進行了實驗分析,實驗結果表明,本文方法具有良好的性能,并且對評估網絡輿情事件演化趨勢具有一定的有效性.在下一步的工作中,我們將針對降低模型時間復雜度,擴大圖卷積鄰域范圍以增強模型性能進行進一步的研究.