999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

重大輿情事件的雙層區塊鏈溯源方法研究

2023-12-11 07:11:48王海文孫志堅楊大偉龐銘江
計算機工程與應用 2023年23期
關鍵詞:用戶

劉 昕,王海文,孫志堅,楊大偉,龐銘江

1.中國石油大學(華東)計算機與科學技術學院,山東 青島 266580

2.青島市保密技術服務中心,山東 青島 266071

重大輿情事件影響著現實世界中熱點事件的發展進程,對國家安全和社會穩定造成嚴重沖擊,如何實現重大輿情事件的可信溯源,對于政府部門及時處置重大輿情事件,構建誠信友善的社交網絡,維護國家長治久安具有重要現實意義。將區塊鏈技術應用于社交網絡可信數據存儲,利用其防篡改、可溯源、匿名性、自治性等優勢,可為重大輿情事件溯源提供可信數據基礎,實現輿情信息發布源頭追蹤、用戶隱私保護、輿論環境自主維護,同時為構建個性自由且和諧有序的元宇宙可信社交網絡提供分布式數據存儲、數據隱私保護、數據可信共享等方面的技術支撐。

在包含海量用戶的社交網絡中,數據來源廣泛、易于篡改,且輿情信息擴散速度快、影響面廣泛,導致重大輿情事件難以溯源。然而,區塊鏈技術在網絡輿情溯源方面的研究較為匱乏,同時在元宇宙中多應用于虛擬經濟系統、數據共享等領域[1]。

針對上述問題,設計了一種基于雙層區塊鏈的重大輿情事件溯源方法,主要貢獻如下:

(1)利用Sentence-BERT 模型的平均池化層生成各用戶言論句向量并進行K-Means 聚類,計算各用戶K個聚類中心間的歐式距離,設置距離閾值并計算滿足閾值的聚類中心個數作為用戶興趣相似度,以用戶為節點、以興趣相似度為權值構造無向帶權圖,基于Leiden算法進行興趣社區發現,用于輿情數據的社區化管理。

(2)以各興趣社區內的用戶為節點構建輿情信息鏈,提取用戶言論關鍵詞并計算其哈希值作為數據索引,記錄用戶所屬興趣社區、用戶言論數據哈希、言論關鍵詞哈希列表、言論來源區塊號、用戶影響力、聲譽積分等數據,利用言論來源區塊號形成鏈內索引,以各興趣社區依據聲譽積分排序選舉出的領導者為興趣社區鏈節點,記錄各社區高影響力用戶的ID 及其言論關鍵詞哈希列表、日活躍用戶數、用戶發布或轉發等行為的數量、用戶影響力總和等社區動態屬性數據,保障輿情信息的可信記錄的同時實現用戶隱私保護。

(3)設計基于聲譽積分的激勵機制,以用戶及其言論屬性計算用戶影響力,以用戶歷史聲譽積分與影響力為積分計算參數,獎勵發表正向言論的用戶、懲罰發表負向言論的用戶,對聲譽積分較低的用戶添加警告標識,激勵用戶自主維護元宇宙社交網絡的輿論環境。

(4)設計基于興趣社區動態屬性的活躍度計算方法,通過活躍度異常波動發現潛在的異常輿情事件,根據溯源證據鏈追蹤異常輿情源頭,基于用戶節點所屬社區信息發現推動輿情事件發展的群體,實現重大輿情事件的溯源。

1 相關工作

1.1 區塊鏈技術研究現狀

區塊鏈是以分布式賬本為數據存儲載體,以P2P網絡為通信載體,基于密碼學確定所有權及保障隱私,通過分布式系統共識算法保障一致性,旨在構建價值交換系統的技術[2],廣泛應用于電子商務、數字政務、信用評估、智慧物流等場景[3]。如下從信息溯源與輿情管理兩個研究領域展開介紹。

在信息溯源領域,Peng 等人[4]提出了P2B-Trace 框架,設計了一個基于認證數據結構(authenticated data structure)的區塊鏈架構來記錄人員接觸記錄,實現了基于零知識證明的新冠密接人員驗證方案;Xu等人[5]通過計算用戶假名、時間戳、地理位置信息的哈希值構建TraceCode,對用戶身份與行動軌跡數據脫敏,實現了強隱私保護的新冠密接人員追蹤方案。上述兩種方法的缺陷在于構建的全球性的單鏈結構公共區塊鏈網絡,在單層區塊鏈上存儲海量數據導致數據查詢延遲高、溯源效率低下。Agrawal 等人[6]構建了供應鏈合作伙伴聯盟鏈,建立基于智能合約的信任機制,實現了面料廠商和成衣廠商間的信息追溯;禹忠等人[7]基于聯盟鏈架構設計了一種“代碼層+管理層”的藥品信息溯源智能合約,實現了業務邏輯與信息校驗的分離,提高了信息溯源的效率。上述方法的問題在于聯盟鏈架構使得供應鏈中各方上鏈需通過鏈上共識并生成數字證書,步驟繁瑣、效率低,難以應用于大規模的上下游產業鏈信息溯源。陳飛等人[8]設計了一種雙層溯源數據存儲機制,產品各環節數據存儲在本地數據庫,鏈上僅存儲供應鏈信息摘要,改善了區塊鏈的可擴展性問題。該方法缺陷在于本數據庫未采用分布式架構,存在數據篡改、丟失的風險。

在輿情管理領域,Sengupta 等人[9]構建了基于區塊鏈的模型ProBlock,利用區塊鏈存儲新聞信息及新聞審核投票結果信息,確保發布的新聞不被篡改;劉峰等人[10]設計了一種單層輿情區塊鏈,利用零知識證明機制存儲網絡用戶的身份證號、手機號等個人身份數據作為輿情存證數據;劉嘉琪等人[11]將網信辦、地方行政執法單位、國有存證機構和社交媒體平臺作為鏈上節點共同參與信息存儲,由多邊跨組織、跨部門集體維護鏈上數據以防止數據篡改。上述方法的問題在于利用單鏈結構存儲輿情或用戶信息的原始數據,未建立數據索引導致查詢效率低,且存在泄露用戶隱私的風險。Chen 等人[12]提出了一種基于PoA 共識算法的虛假新聞存證方法,該方法通過信譽評分選舉權威新聞機構節點對新聞內容進行驗證,并記錄虛假新聞信息,對虛假新聞發布者追責。該方法缺陷在于龐大數量的新聞由少數新聞機構審查,效率低下且存在共謀攻擊風險。Torky 等人[13]提出了信用證明(proof of credibility)共識協議,根據不同新聞來源的Boost因子、新聞被分享的次數、新聞關注人數量等參數計算新聞的信用值,對信用值低于閾值的新聞視為謠言并記錄在區塊鏈中;Qayyum 等人[14]提出一個基于媒體身份認證的虛假新聞防治方法,利用智能合約登記、更新和撤銷新聞機構的身份,利用信譽積分機制約束新聞機構的行為。上述方法的問題在于僅關注新聞媒體這一輿情信息來源,忽略了社交平臺中的用戶尤其是高影響力用戶同樣也是輿情信息的重要來源,僅約束新聞媒體的行為難以有效實現可信的社交網絡。

1.2 輿情溯源領域研究現狀

目前基于區塊鏈技術的輿情溯源研究較為匱乏,傳統社交網絡信息溯源方法多采用復雜網絡溯源技術。復雜網絡中的信息溯源問題是信息擴散的逆向問題,根據信息源頭數的不同,溯源方法可以分為單源識別方法和多源識別方法[15]。

在單源頭溯源研究方面,Kesavareddigari 等人[16]提出了一種“Types Center”方法估計樹狀網絡上的信息源,該方法在大型網絡上的近似誤差不超過感染節點數量的對數,實現了高效的信息源頭識別;Yang 等人[17]提出了一種基于方向誘導搜索的高斯估計器,實現了在復雜網絡中低計算復雜度的傳播源定位;Rácz等人[18]基于自適應擴散協議,證明了在底層社交網絡圖為一個無限大的d正則樹時,利用三個及以上的獨立傳播快照圖可以保證以恒定的概率找到信息源頭;Louni 等人[19]利用概率加權圖量化社會網絡的不確定性,基于社交網絡的模塊化性質識別具有不同關系強度的信息傳播源;Cai等人[20]假設圖上信息源頭節點的子節點傳播信息時間分別服從不同參數的指數分布,利用多個序列相關的快照提高溯源準確率。

復雜網絡的信息溯源問題最先是從研究樹圖上單源頭溯源的特殊情況開始,后逐漸擴展到在線社交網絡中多源頭溯源的實際情況[21],故復雜網絡多源頭溯源技術更加符合解決輿情溯源問題的實際需要。

在多源頭溯源研究方面,Wang 等人[22]通過將社交網絡劃分為多個分區,基于似然估計對每個分區中的單個源進行定位,將多源頭溯源問題轉換為多個單源頭溯源問題以實現信息溯源;Dong等人[23]利用“編碼器-解碼器”結構和基于圖約束的多任務學習構建GCSSI 模型,該模型可逆向估計出各時間步的信息傳播狀態,最終預測出信息源頭;Wang 等人[24]分析用戶行為特征構建用戶信息矩陣,基于用戶信息矩陣來復現信息傳播過程從而得到信息源頭;Feizi 等人[25]將用戶言論發布時間、文本特征以及內容相關度等參數融合,構建信息傳播模型,優化并計算信息傳播源頭;Wu等人[26]提出了TraceMiner,推斷社交網絡用戶與社交網絡結構的嵌入,利用LSTMRNN對消息的傳播路徑進行表示和分類;于凱等人[27]提出一種基于多中心性分析的網絡輿情信息源點追溯算法,有效組合5 種中心性指標來構建多中心性算法,通過大量實驗找出溯源效果最好的多中心性算法,以此來精準追溯輿情信息傳播源點;陳淑娟等人[28]提出了一種快速意見領袖挖掘算法,該算法利用結構特征篩選出主題社團中的意見領袖候選人,結合傳播特征和情感特征挖掘主題社團中的意見領袖,在此基礎上挖掘潛在信息傳播源頭。

上述多源頭信息溯源方法通過構建信息擴散模型,分析輿情事件發生后的用戶屬性、言論等數據實現輿情溯源,需要進行大量復雜的運算,同時可能存在因數據篡改、缺失進而影響溯源結果的問題,無法保證溯源的時效性與可信性。與之相比,區塊鏈的鏈式數據結構天然支持信息溯源,無需構建復雜模型與大量數學計算,溯源方式簡潔高效,同時基于分布式存儲技術、哈希算法及共識算法實現數據防篡改,可保障輿情數據及輿情信息傳播過程的可靠存儲,實現輿情事件可信溯源,支撐可信元宇宙社交網絡構建。

2 重大輿情事件溯源方法

本文提出的輿情事件溯源方法如圖1 所示。針對元宇宙社交網絡擁有龐大的用戶群體,在整個網絡中開展輿情溯源效率低下的問題,需采取“分而治之”的策略以提高輿情事件溯源的效率。

基于用戶間的興趣相似度構造無向帶權圖,利用社區發現算法將用戶劃分為若干個大小不一的個性化興趣社區。在興趣社區的基礎上設計了雙層區塊鏈結構,以各興趣社區內的用戶為節點,構造輿情信息鏈記錄用戶言論、所屬社區、影響力、聲譽積分等數據,在此基礎上以各興趣社區選舉的社區領導者為節點構造興趣社區鏈,記錄社區高影響力用戶言論關鍵詞哈希列表、用戶總數、日活躍用戶數、節點影響力總和等社區動態屬性數據,實現了輿情數據的分層社區化可信記錄,有利于縮小輿情數據檢索范圍,提高輿情事件溯源效率。

以言論關鍵詞檢索興趣社區鏈中潛在輿情源頭社區,在輿情信息鏈中檢索相關社區區塊,多源信息以時間為序列形成多源頭溯源證據鏈,開展輿情溯源,追蹤異常輿情源頭用戶與群體。同時設計了基于聲譽積分的激勵機制約束用戶行為,鼓勵自主維護積極向上的輿論環境,有助于構建個性自由、和諧有序的元宇宙可信社交網絡。

2.1 興趣社區發現

元宇宙社交網絡中的用戶自發組織形成眾多元宇宙社區,具有相同興趣的用戶聚集在一個社區中自由互動,利用這一特點,將龐大的用戶群體劃分為不同的興趣社區可有效降低輿情溯源的難度。通過提取各用戶言論數據的句向量,基于句向量聚類中心間距離計算用戶間興趣的相似度,利用不同用戶間的相似度劃分興趣社區。當發生重大輿情事件時,以興趣社區為單位分析并追溯各社區內的輿情數據,及時發現傳播輿情事件的個人與群體,提高輿情溯源的效率與準確性。

基于用戶言論的文本相似度,判斷用戶間是否存在相似的興趣話題。由于社交網絡用戶發表的言論內容一般較短且長度不一,為了得到統一長度的句向量,在BERT 模型輸出層上添加平均池化層[29],將言論文本輸入模型,取每個Token的平均Embedding,獲得用戶言論句子的固定長度向量。在此基礎上,對用戶言論句向量進行歸一化,利用PCA 算法將每個用戶的所有言論句向量降維至2維,利用降維后的句向量進行K-Means聚類,將每個用戶的所有言論向量聚類為k簇,獲得用戶i所有言論的k個聚類中心,記作Centeri={ci1,ci2,…,cik},分別計算用戶i與用戶j的k個聚類中心的歐式距離,如式(1)所示:

其中,cik坐標為(x1,y1),cjk坐標為(x2,y2)。

若某一對聚類中心的距離小于相似度距離閾值d,則認為用戶言論存在相似性,記為tk=1,則用戶i與用戶j的興趣相似度記為Sij=∑tk。

以用戶為興趣社區節點,若用戶間相似度大于0,則用戶間存在一條邊,以興趣相似度為邊的權值,構建一個無向帶權圖用于興趣社區發現。考慮到用戶間的言論或多或少存在一些相似性,若聚類簇數與相似度距離閾值選擇不合理,會導致多數用戶節點之間均存在邊,不利于接下來的社區發現[30],故應以社區發現結果為評價標準取兩個參數的較優組合,實現對無向帶權圖數據的降噪。

利用Leiden 算法[31]進行興趣社區發現,初始狀態下,無向圖中的每個用戶節點都是一個單獨的社區,遍歷所有節點,嘗試將節點i的所屬社區修改為所有鄰居節點的所屬社區,并計算節點i的所屬社區改變后的模塊度增益ΔQ[30],如式(2)所示:

其中,m為圖中所有邊的權重總和,ki,in為節點i連接至鄰居節點所屬社區C內所有節點的邊的權重總和,ki為節點i所有邊的權重總和,∑tot為其他社區連接至社區C內所有節點的邊的權重總和。

將節點i的所屬社區隨機改變為模塊度增益大于0的相鄰節點所屬社區,模塊度增益越大,節點i更有可能被劃分至該社區。在第一輪移動結束后,后續輪次只遍歷所屬社區發生變化的節點。對所有節點重復上述步驟,直到所有節點都不能通過改變其所屬社區來增加模塊度。

將第一個階段得到的社區凝聚為一個新的節點,節點的環邊權重為原始社區內所有節點間的邊權重之和,兩個節點之間邊的權值為兩個原始社區間相連節點的邊的權值的總和,由此形成一個新的子圖。

反復迭代執行上述步驟,直到模塊度不再增大,得到最終的興趣社區發現結果,如圖2所示。

圖2 興趣社區Fig.2 Communities of interest

2.2 雙層輿情區塊鏈構建

2.2.1 用戶影響力計算

用戶自身的影響力對于一條信息的傳播的影響是巨大的。對于輿情信息,個人用戶或者粉絲數較少的自媒體發布之后產生的影響可能不是很大,但是經過一些影響力巨大的意見領袖用戶,例如微博大V或者是一些官方賬號發布之后,輿情信息會快速傳播,造成較為廣泛的輿論影響[32],所以在進行輿情溯源時應當將用戶對于信息傳播的影響力納入考量。用戶影響力定義如式(3)所示:

其中,x1,x2,x3,x4分別為用戶所有言論的被點贊總數、被轉發總數、被評論總數以及用戶粉絲總數,ci為xi的權重,權重的取值應當考慮各參數值對信息傳播廣度的影響。用戶節點的影響力隨著參數值增長而增長,但當參數值超過一定數量級后,用戶的影響力增長應當趨于平緩,故使用ln 函數計算用戶影響力。

2.2.2 激勵機制

設計基于聲譽積分的激勵機制,在輿情信息鏈上部署聲譽積分智能合約。分析用戶言論的情感極性,若用戶發表正向言論則獲得積分,反之發表負向言論則扣減其持有的積分,同時展示用戶在元宇宙社交網絡中虛擬形象上的聲譽積分或積分等級,增強高聲譽積分用戶的言論影響力與個人榮譽感。若某節點積分數小于警告閾值,則為該用戶添加警告標識,提醒其他用戶該用戶很有可能是網絡水軍,必要時可以選擇隱藏低聲譽積分用戶的言論,加強輿論監管力度。另外,利用區塊鏈數據防篡改、不可抵賴的特點,可督促用戶謹言慎行、對自己的言論負責,自主維護積極健康的輿論環境。

考慮到一個擁有較高聲譽積分的節點發布的言論擁有更強的輿論影響力,為保障輿論態勢穩定,必須解決兩個主要問題:

其一,用戶節點不能僅僅通過發表幾次正向言論就能獲得較多的聲譽積分,即應該根據用戶的全部言論數據來評估用戶的聲譽。這可以防止水軍節點通過大量發布正向言論在短期內獲得過多的聲譽積分,以掩蓋其過去發表大量負向言論的行為。其二,用戶節點不能以不穩定的言論極性獲得良好的聲譽。良好的聲譽只能通過持續地發表正向言論來獲得,這可以防止擁有較高影響力的節點在其大量言論中隱藏其負向言論。

針對第一個問題,需要限制用戶最近發表的正向言論獲得的聲譽積分,用戶發表第n+1 次正向言論獲得的聲譽積分計算如式(4)所示:

其中,Rn為用戶發表的前n次言論獲得的聲譽積分,參數k∈[1,n]將用戶n次言論所獲積分劃分為前k次與后n-k次言論所獲積分兩個區間,參數ρ∈[0,1]調節用戶前k次與后n-k次發表正向言論所獲積分的權重。為了避免水軍用戶在短期內獲得大量聲譽積分,k應取較大值,ρ應取較小值。

針對第二個問題,當根據用戶發表正負言論增減其聲譽積分時,將用戶的影響力與所獲聲譽積分納入考量,將影響力與已獲得聲譽積分作為用戶發表一次言論獲得或扣除積分的計算參數。對用戶i的影響力與聲譽積分數值進行歸一化,如式(5)、(6)所示:

其中,Ii為用戶i的影響力數值,Ri為用戶i的聲譽積分數值,Imin、Imax為所有用戶影響力的最小、最大值,Rmin、Rmax為所有用戶聲譽積分的最小、最大值。

用戶發表一次正負向言論獲得或扣除的聲譽積分計算如式(7)所示:

其中,p為基礎分數,w1與w2分別為影響力與聲譽的權重,且w1+w2=1。通過設置不同的參數權重,可以調節對擁有較高影響力或聲譽積分用戶發表正負向言論時的獎懲力度。

2.2.3 共識機制

設計基于聲譽積分的Raft共識算法,在領導者節點的選舉規則上,將節點的聲譽積分納入考量。在輿情信息鏈中,各社區基于節點聲譽積分的多寡選擇一個領導者節點,其余節點作為跟隨者節點。領導者節點負責生成并驗證區塊,同時將區塊發送給其他跟隨者節點進行記賬,領導者節點通過心跳消息與其他跟隨者節點保持連接,心跳消息中應包含領導者節點的聲譽積分數值。若其他跟隨者節點在一定時間間隔內未收到領導者節點的心跳信息,或某個跟隨者節點的聲譽積分值超過當前領導者節點,則跟隨者節點在社區內廣播選舉信息,重新選舉領導者節點。在興趣社區鏈中,領導者節點在各社區領導者節點中選舉產生,其他選舉規則同輿情信息鏈,不做贅述。

元宇宙社交網絡中的海量用戶身處不同地域、時區,若在整個區塊鏈網絡中采用Gossip 協議進行通信,每個節點將接收到的消息發送給所有鄰居節點,冗余數據多、傳輸延遲高,降低系統的共識速度與吞吐量[33]。針對該問題,設計基于興趣社區的區塊鏈網絡分片通信機制,以興趣社區為單位將區塊鏈網絡劃分為更小的子網絡,將各興趣社區中的用戶作為子網絡節點,記錄本社區的輿情數據,實現輿情數據的社區化管理,同時在社區內設置路由節點,路由節點記錄其他社區路由節點的地址,負責與其他社區建立P2P 通信,社區領導者節點默認為社區路由節點。

考慮到系統的可用性,當社區領導者節點重新選舉或領導者節點故障時,無法接收到其他社區發送的區塊數據,需要選擇若干節點作為備用路由節點。各社區內部完成共識并將新區塊上鏈后,由當前社區路由節點將新區塊發送至其他社區路由節點,其他社區路由節點在接收到新區塊后將其發送至領導者節點,領導者節點將區塊在本社區內廣播上鏈。

2.2.4 區塊鏈結構

以興趣社區內每位用戶作為節點構建輿情信息鏈,記錄各用戶的言論與屬性數據。輿情信息鏈的區塊頭包含:區塊號;當前區塊哈希,為區塊體數據的哈希值;前一區塊哈希,為前一區塊中區塊頭數據的哈希值;區塊生成時間。

為實現輿情溯源時快速查找鏈上數據、鎖定輿情事件源頭,利用所屬社區信息與言論數據,以用戶間的互動關系檢索相關區塊形成溯源證據鏈。用戶發布、點贊、轉發、評論的內容均需生成哈希值并記錄其所在區塊號,對于用戶原創發布的內容,言論來源區塊號為當前區塊號,若用戶間存在互動行為,即用戶點贊、轉發、評論了其他用戶發布的言論,則言論來源區塊號為內容原始記錄所在的區塊號,以此形成鏈內數據索引。以用戶ID、行為發生時間及言論內容計算用戶行為哈希值,如式(8)所示:

同時,對于用戶原創發布的內容,利用TextRank 算法提取用戶言論內容的關鍵詞集作為輿情溯源時的數據索引。為了保護用戶隱私,鏈上不存儲用戶言論的明文數據,通過計算每個關鍵詞的哈希值形成言論關鍵詞哈希列表,利用關鍵詞哈希匹配實現數據的查詢與溯源。對于非用戶原創的內容,言論關鍵詞哈希列表為原始言論數據的哈希列表,避免重復計算數據哈希值。

輿情信息鏈的區塊體包含:事務數據,包括用戶ID、用戶所屬社區ID、用戶行為類別(發布、點贊、轉發、評論)、行為發生時間、用戶行為哈希、言論關鍵詞哈希列表、言論來源區塊號、用戶聲譽積分、聲譽積分警告標識、用戶影響力數值;身份數據,包含用戶節點公鑰、社區領導者節點公鑰;簽名數據,利用用戶節點、社區領導者節點私鑰進行數字簽名的事務數據。

在輿情信息鏈的基礎上構建興趣社區鏈,考慮到各興趣社區的輿情狀態變化的實時性,為了政府部門能夠實時監測輿情變化,及時研判輿情態勢,興趣社區鏈應記錄各興趣社區的動態屬性數據。同時,社區內的高影響力用戶很大程度上影響著社區內輿論的走向,所以各興趣社區內的高影響力用戶的相關信息也應記錄在興趣社區鏈中。興趣社區鏈區塊頭結構與輿情信息鏈相同。興趣社區鏈區塊體的事務數據包含:興趣社區ID;社區內影響力高用戶的ID 及其言論關鍵詞哈希列表;社區用戶總數;日活躍用戶數;用戶的發布、點贊、轉發、評論行為總數;社區內節點影響力總和;身份數據包含社區領導者節點公鑰及興趣社區鏈領導者節點公鑰;簽名數據為利用社區領導者節點、興趣社區鏈領導者節點私鑰進行數字簽名的事務數據。

2.3 重大輿情事件溯源

利用智能合約自動化執行、可信透明的優點,在興趣社區鏈上部署異常輿情識別智能合約,在輿情信息鏈上部署輿情溯源智能合約。異常輿情識別智能合約實時監測興趣社區鏈記錄的各興趣社區的動態屬性數據,當發現可能的異常輿情狀況時,以言論關鍵詞檢索興趣社區鏈中潛在輿情源頭社區,調用輿情溯源智能合約在輿情信息鏈中檢索相關社區區塊,檢索到的多源信息以時間為序列形成多源頭溯源證據鏈,分析異常輿情源頭,實現重大輿情事件的早發現、早預警,為輿情事件的及時處置、避免輿情擴散蔓延提供支持。

異常輿情識別智能合約在讀取興趣社區鏈上的最新區塊內容后,基于各社區用戶總數CUsum、日活躍用戶數AUsum、用戶各類行為數量OPsum、社區內節點影響力總和Isum,計算各社區活躍度T,其中b1,b2,b3為各參數權重,如式(9)所示:

當社區活躍度超過一定閾值或政府部門需要對特定輿情事件進行溯源時,若社區內高影響力用戶的言論關鍵詞哈希值與輿情事件關鍵詞的哈希值存在交集,根據用戶所屬社區ID及關鍵詞哈希搜索該社區內用戶的言論數據,根據區塊內記錄的言論來源區塊號前向搜索鏈上數據,查找到言論的原始發布者,這樣的原始發布者可能存在多個,將這些節點視作異常行為節點。計算各社區存在異常行為節點的數量與社區總活躍用戶的比值,據此對各社區進行排序,發現推動輿情事件發展的個人與群體。將溯源到的用戶ID、所屬興趣社區ID、用戶行為哈希、言論關鍵詞哈希列表、用戶影響力等信息,形成溯源報告推送至政府部門,完成輿情溯源。

3 實驗結果與分析

3.1 實驗數據與環境

利用網絡爬蟲技術隨機爬取2022 年06 月16 日至2023 年02 月23 日,新浪微博部分熱點話題參與用戶的ID及粉絲數量,用戶發布與轉發的微博文本,用戶微博被轉發、被評論、被點贊的數量及上述互動行為的用戶ID,對數據進行清洗,刪除亂碼、內容無效(如微博內容為單個字符或僅有“轉發微博”)、內容重復的數據后,獲得405位用戶的共計109 970條言論數據。本文實驗硬件環境為配備Windows 10 64 位操作系統,Intel Core i7-10700 CPU 2.90 GHz 和16 GB 內存的計算機,利用VMware虛擬機安裝CentOS 7操作系統,使用Pycharm、Python 3.8、Hyperledger Fabric 2.4.2、Hyperledger Caliper 0.4.2進行實驗。

首先,利用Sentence-BERT 模型生成各微博用戶每一條微博文本的句向量,對向量PCA降維后進行聚類,設置距離閾值并計算各微博用戶間的興趣相似度,在此基礎上利用Leiden算法進行興趣社區發現。

其次,利用Hyperledger Fabric 分別搭建兩條區塊鏈。以各興趣社區內的用戶為鏈上節點構建輿情信息鏈,將微博用戶的一條言論數據及其他信息作為一條事務數據上鏈,鏈上記錄用戶ID、所屬興趣社區、言論數據哈希、言論關鍵詞哈希列表、言論來源區塊號、影響力、聲譽積分數據。以各興趣社區的領導者為節點構建興趣社區鏈,鏈上記錄各社區高影響力用戶的ID 及其言論關鍵詞哈希列表、日活躍用戶數、用戶發布、轉發等行為數量、用戶影響力總和數據。

3.2 參數設置及實驗結果

首先,為尋找較優的社區發現參數設置方案,設置不同聚類簇數、相似度距離閾值,測試不同參數組合下對興趣社區發現結果的影響。其次,對區塊鏈進行查詢延遲及吞吐量性能測試以驗證本文方法的可行性。

3.2.1 聚類簇數設置

用戶言論向量聚類簇數k的設置決定了參與相似度計算的聚類中心點的個數,影響用戶間興趣相似度的計算結果。同時興趣社區是在用戶興趣相似度數據基礎上,構建無向帶權圖并利用社區發現算法進行劃分,因此應選擇合適的聚類簇數k與距離閾值d的組合,使得用戶節點之間的邊數在一個合理范圍內以降低數據噪聲,為接下來的興趣社區發現奠定數據基礎。

為分析聚類簇數k的取值對社區發現結果的影響,需要取不同聚類簇數k及相似度距離閾值進行對比實驗。本文取9個不同的相似度距離閾值進行多次實驗,如3.2.2小節所示,結果表明當距離閾值過小或過大時,社區發現結果均較差,故選取低、中、高3個相似度距離閾值區間的典型值,分別取相似度距離閾值為0.3、0.6、1.0,設置三組實驗,對不同距離閾值設置6個聚類簇數,考慮到過小的聚類簇數可能導致參與計算的聚類中心數過少,從而使得用戶間的相似度偏小,故在實驗中取最小聚類簇數為5,分析不同聚類簇數k與距離閾值d組合下,社區發現結果模塊度數據,如圖3所示。

圖3 模塊度隨聚類簇數k 與相似度距離閾值d 的變化Fig.3 Change of modularity with cluster number of k and similarity distance threshold d

由圖3 可知,隨著聚類簇數數量的不斷增加,模塊度呈現快速下降趨勢,在三組實驗中,不論相似度距離閾值取何值,模塊度的最大值均在聚類簇數k=5 時取得。由此可知選擇較小的聚類簇數可以有效提高興趣社區發現的效果。

3.2.2 相似度距離閾值設置

相似度距離閾值的設置直接決定了用戶間是否存在相似性,選擇合理的相似度距離閾值d,在劃分出內部連接緊密、外部連接稀疏的興趣社區同時,盡可能覆蓋所有用戶節點,利用區塊鏈的去中心化保障輿情數據安全,支撐輿情事件的高效、可信溯源。由3.2.1小節的分析可知,應取聚類簇數為5,在此基礎上設置9個相似度距離閾值,分析不同相似度距離閾值下興趣社區發現效果。由于Leiden算法執行結果具有一定隨機性,取每個相似度距離閾值的5次模塊度、社區數量的平均值作為最終的模塊度、檢測出的社區數量。

由圖4(a)中數據可知,模塊度與相似度距離閾值呈反比關系。隨著距離閾值的增加,用戶間相似度的判定更為寬松,用戶節點間的邊數與權重不斷增加,導致各社區間的邊界不清晰,模塊度不斷下降。當距離閾值取0.2 時,模塊度最大,為0.89,相似度距離閾值取0.3 時,模塊度為0.72,相似距離閾值取1.0時,模塊度僅為0.27。

圖4 相似度距離閾值的影響Fig.4 Influence of similarity distance threshold

由圖4(b)中數據可知,隨著相似距離閾值的不斷增加,檢測出的社區數量呈下降趨勢。當相似度距離閾值取0.2時,檢測出社區數量最多,達到46個,當閾值取0.3時,社區數量快速下降為20 個,取其他閾值時,檢測出社區數量相對平穩。

同時由圖4(c)中數據可知,參與社區發現的用戶數量與相似距離閾值呈反比關系,過小的距離閾值導致過多的用戶與所有用戶間的相似度為0。當距離閾值取0.3 時,共有357 個用戶參與社區發現,距離閾值取0.2時,僅保留了272個用戶進行社區發現。

在實踐中,當模塊度大于0.3時,節點網絡呈現出顯著的社區結構[34]。如圖5 所示,當相似距離閾值閾值取0.2時,僅依據模塊度指標進行評價,社區發現的結果較好,但需要注意的是,此時檢測出的社區多數為2~3 個節點構成的小社區,導致每個社區的言論數據有限,同時參與社區發現的用戶較少。雖然可以采取將剩余的用戶劃為一個社區方法進行處理,但這些數量較多的未參與社區發現的用戶之間可能存在社區結構,不利于輿情數據的社區化管理。

綜上所述,當相似度距離閾值取0.3 時,模塊度、檢測出的社區數量、參數用戶數量為較均衡的水平。

3.2.3 區塊鏈性能測試

本文選擇吞吐量和查詢平均延遲作為性能評估指標,利用Hyperledger Caliper 進行性能測試。在區塊鏈系統中,網絡吞吐量是衡量系統性能的重要指標,它表示在單位時間內確認并寫入鏈中的事務數量,而查詢延遲則評估系統訪問區塊鏈賬本的響應時間。

本文設置了六輪測試,最小事務量為100,最大事務量為5 000,每輪分4 次讀寫所有事務,取4 次測試數據的查詢延遲、吞吐量、發送率的平均值作為本輪測試的結果。如圖6 所示,在六輪測試中,僅在查詢事務量為1 000 時,延遲出現小幅波動,總體而言,查詢延遲并未隨查詢事務數量的增加而大幅上漲,延遲數據保持在一個相對平穩的水平,約為110 ms。

圖6 查詢延遲性能測試Fig.6 Query delay performance tests

如圖7所示,本系統在六輪測試中吞吐量的性能表現穩定,網絡吞吐量和事務發送速率大致相同,隨著事務數量的不斷增加,網絡的總體吞吐量與發送率未出現較大波動,均在550 TPS 以上。綜上所述,利用區塊鏈系統分片通信機制與Raft共識算法,可以在處理大規模請求時保持穩定的性能,為輿情數據的可信記錄與溯源提供支撐。

圖7 吞吐量性能測試Fig.7 Throughput performance test

3.3 安全分析

本節將對雙層輿情區塊鏈在數據防篡改、數據完整性、隱私保護方面的安全特點進行分析與總結。

(1)數據防篡改:存儲在雙層區塊鏈中的輿情數據使用節點的私鑰進行數字簽名,同時記錄進行簽名的節點的公鑰,驗證者可利用該公鑰驗證簽名后數據,對區塊中記錄的事務數據進行核對。另外鏈上數據以分布式架構存放在區塊鏈網絡的各個節點中,每個節點保存相同的數據副本,元宇宙社交網絡中身處不同時空域的海量鏈上節點使得數據難以篡改。因此本方法基于區塊鏈的不可篡改性,既能保障鏈上數據的不可抵賴,也可以保證數據的完整性。

(2)數據完整性:由于社交網絡用戶可以對自己的言論數據進行隨意修改或刪除,導致溯源證據鏈斷裂,所以利用原始言論數據進行溯源時,可能無法查找到信息的發布源頭。針對此問題,本方法將每個用戶的所有言論內容的哈希值上鏈,充分利用區塊鏈數據的不可篡改優勢,用戶只能刪除其發表的原始言論數據,鏈上數據作為用戶行為的存證不會被刪除,可利用完整的哈希證據鏈對輿情信息進行溯源。因此可以為重大輿情事件溯源提供完整的數據支撐。

(3)隱私保護:由于鏈上數據公開透明,所有鏈上節點均可讀取,鏈上記錄不應明文存儲用戶的隱私數據。本方法中的上鏈數據僅包含用戶各類行為數據及言論關鍵詞的哈希值,不存儲其明文數據,其他鏈上節點無法獲取用戶的隱私數據,可以為元宇宙社交網絡用戶提供良好的隱私保護。

通過上述安全特點的分析可知,本方法能夠保障元宇宙社交網絡用戶間實時互動數據的防篡改、完整性與隱私保護,支撐基于鏈上數據的可信輿情事件溯源,具有較好的安全性與實用性。

4 結束語

本文提出了一種基于雙層區塊鏈的重大輿情事件溯源方法,初步探索了基于區塊鏈的元宇宙可信社交網絡的技術路徑。該方法基于用戶間興趣相似度劃分興趣社區,實現輿情數據社區化管理,在不存儲用戶原始言論數據的條件下,基于用戶間互動關系與言論哈希值建立鏈內數據索引,檢索鏈上不可篡改的言論存證數據形成多源頭溯源證據鏈,在充分保障用戶隱私安全的前提下實現重大輿情事件的可信溯源。同時,基于節點影響力設計聲譽積分機制,以聲譽積分機制約束用戶行為,激勵用戶自主對輿論環境進行維護。

未來的研究工作可從基于圖神經網絡的社區發現、區塊鏈的共識效率提升、基于言論情感極性分析的輿情態勢判斷等方面展開,在此基礎上提出基于區塊鏈的元宇宙可信社交網絡構建的技術方案。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 欧美成人手机在线观看网址| 国产成人做受免费视频| 九色在线观看视频| 91av国产在线| 青草视频久久| 天天综合网在线| 亚洲水蜜桃久久综合网站 | 一区二区午夜| 久久综合亚洲色一区二区三区| 热久久综合这里只有精品电影| 无码中文AⅤ在线观看| 国产欧美日韩资源在线观看| 亚洲精品在线观看91| 2021国产精品自拍| 亚洲美女一区二区三区| 成人免费视频一区二区三区| 99热这里只有精品在线观看| 久久人人妻人人爽人人卡片av| 欧美激情视频一区| 久久黄色小视频| 中文字幕一区二区视频| 毛片在线播放a| 又猛又黄又爽无遮挡的视频网站| 国产99视频在线| 伊人久久久大香线蕉综合直播| 99免费视频观看| 69av免费视频| 国产在线精品香蕉麻豆| 欧美中出一区二区| 欧美区国产区| 国内精品久久久久鸭| 91av国产在线| 国产69精品久久久久孕妇大杂乱 | 无码国产偷倩在线播放老年人| 国产偷国产偷在线高清| 色哟哟国产成人精品| 日韩最新中文字幕| 欧美色图第一页| 亚洲男人天堂2020| 国产精品夜夜嗨视频免费视频| 操国产美女| 国产精品免费福利久久播放| 亚洲天堂自拍| 成人欧美日韩| 国产一级毛片网站| 日本伊人色综合网| 日韩国产黄色网站| 久久久久久高潮白浆| 高清无码手机在线观看| 国产成人精品男人的天堂下载| 久久久久国产精品熟女影院| 国产激情国语对白普通话| 97青青青国产在线播放| 97亚洲色综久久精品| 国产午夜在线观看视频| 欧美一级在线播放| 欧美在线一级片| 毛片在线播放a| 日韩小视频在线观看| 伊人色婷婷| 欧美在线导航| 国产成+人+综合+亚洲欧美| 激情综合婷婷丁香五月尤物 | 国产成人艳妇AA视频在线| 国产97视频在线观看| aa级毛片毛片免费观看久| 国产91丝袜| 中国美女**毛片录像在线| а∨天堂一区中文字幕| 在线日本国产成人免费的| 午夜视频免费一区二区在线看| 99热这里只有成人精品国产| 天天综合网亚洲网站| 国产呦视频免费视频在线观看| 国产精品视频系列专区| 欧美国产在线看| 最新无码专区超级碰碰碰| 玖玖精品视频在线观看| 国产美女在线观看| 午夜免费视频网站| 99热6这里只有精品| AV色爱天堂网|