白 杰 ,杜彥輝
(1.中國人民公安大學 信息網絡安全學院,北京 100038;2.溫州大學 國際教育學院,浙江 溫州 325035)
2020年9月29日,中國互聯網絡信息中心發布的第46次《中國互聯網絡發展狀況統計報告》顯示,中國網民中網絡游戲類用戶超過5.3億[1]。社交型網游占網游總數的85%以上,網絡游戲社區的虛擬身份特征,使得參與者會更隨意地發表未經求證的觀點,進而成為網絡輿情的參與者及傳播者。針對業務量大、受眾廣的社交類網絡游戲輿情,人工智能方法模型為網絡敏感信息的發掘提供了工具,例如深度學習被廣泛應用于自然語言處理領域中的文本分類[2-4]。區塊鏈以其分布式數據庫技術以及去中心化、共識機制等優勢,逐漸被應用到輿情管控及電子存證領域[5-7],但前人的研究多側重于事后的數據分析,缺少重要的事前防控和事中監管對策[8-9]。如何利用區塊鏈優勢,建立敏感信息的即時監控處理系統,從海量大數據中抓取敏感詞匯,對抓取的數據運用高效的算法加以分析,并進行在線監測、預警、溯源,成為亟待解決的問題。
本文的主要創新點:
1)本研究提出了一種區塊鏈架構下網游平臺敏感信息的發掘、判斷及處理框架;在敏感信息挖掘過程中,結合區塊鏈的分布式記賬系統提高敏感信息挖掘效率,利用區塊鏈的可溯性實現敏感信息源的快速追溯,有效提高網游中敏感信息的處理精度;
2)在區塊鏈模式下改進數據模型層,應用優化后的深度學習算法提高文本分類標注的精準性和效率,通過數據庫測試取得較高的效率,為后續多款網游的網絡安全監控提供理論基礎。
網絡敏感信息包含文字、圖片及語音視頻等多種媒體形式,在大型網游中,中/英文短文本是其主要的交流方式。網游中的敏感文本信息可分為主題性文本和帶情感傾向的文本[10]。敏感信息中具有明顯主題詞語(如暴力、色情、詐騙、垃圾信息等)的文本,被判定為主題性文本,技術上常用Web爬蟲程序抓取特定關鍵詞,并對抓取到的消息進行屏蔽處理。具有情感傾向性的不良文本,則包含了信息發布者的觀點、態度、立場等信息。而網游端的國外玩家占有相當一部分比例,使得網游成為政治經濟類敏感言論的集中地。這類信息變化度較大,很難及時識別,給控制不良輿情的發酵帶來了極大的挑戰,游戲研發公司往往通過人工識別來標記,耗費大量人力的同時又很難兼顧效率,因此需要溯源并挖掘其傳播路徑,采用智能化的方法及時處理。單一點對點的輸入—輸出往往效率較低,輿情處理通常是依從游戲玩家→信息端→網絡總控制中心→公安網絡安全部門→網絡總控制中心→游戲端→玩家的反饋處理順序,很難滿足輿情控制時間緊、任務重的需要,且需要占用大量警力進行排查溯源。
目前Web挖掘標志性算法有決策樹、規則歸納、貝葉斯方法、支持向量機、神經元網絡等[11-13]。作為當前的研究熱點,深度學習算法利用多個處理層,逐步強化機器學習,對數據集進行抽象處理,替代手工獲取特征,提高了抓取的效率[14],最大程度地簡化了特征工程和預處理。根據實際情況,復雜的網絡文本需要更多的訓練數據,預訓練的詞向量可以為分類結果帶來提升,更能體現深度學習在敏感信息挖掘方面的優勢。
隨著區塊鏈3.0時代的到來,在網游輿情防控過程中,聯盟鏈的構建能更好地解決網絡安全管理部門和互聯網企業在應對輿情管理時的層級問題,分布式賬本不可篡改的特性能充分保障信息傳播全程留痕,智能合約和共識機制確保了輿情挖掘中數據的真實性和合約的執行力。區塊鏈獨有的技術特征能夠充分提高網絡輿情管理的準確度和效率,加大信息安全和隱私保護力度。
圖1為區塊鏈模式下網絡敏感信息挖掘系統架構。

圖1 區塊鏈模式下網絡敏感信息挖掘系統架構Fig.1 Network sensitive information mining system architecture in blockchain mode
2.1.1底層P2P網絡
游戲玩家發布文字信息的過程會采用P2P網絡,每個節點都同時保留所有數據,這樣即使其中一個節點刪除了敏感信息詞匯,在其他節點中也留有證據。在信息發布過程中調用區塊鏈的發布接口,采樣節點通過網絡爬蟲爬取敏感詞匯,針對主題性文本建立敏感信息詞庫,從而實現敏感信息數據采集功能。每區服定時將所識別的數據使用非對稱加密通信技術簽名后發送給可信存儲服務模塊。
2.1.2協議一致性層(共識機制)
區塊鏈模式下的敏感信息挖掘系統中,各節點之間只有達成共識,確定某一信息為不良輿論,才可以進行下一步操作。共識機制的主要作用是保持底層區塊鏈敏感數據認證的一致性,防止惡意不實舉報或者玩家無意識的舉報點擊,避免了大量偽敏感信息,從而節約了計算空間,減少了無效計算[15]。通過共識機制,確定敏感信息的真實性后,將當前區塊生成的哈希值加入到父系區塊中,并存入加密區塊鏈中進行防篡改保護。
2.1.3數據模型層
區塊鏈作為一種分布式存儲數據庫技術,用于實時存證游戲玩家賬號信息、信息發布記錄等。在區塊鏈中,單個數據區塊由區塊頭和區塊體組成。在區塊頭上記錄當前區塊的特征值,如信息生成時間、區塊數據的散列值及上一區塊的散列值等。在敏感信息發酵過程中,首先產生第0代區塊(無Hash地址),之后的交易區塊依次指向第0代區塊,且保留了上一個區塊的Hash地址(區塊的特征標識),區塊代間通過Hash地址(特征性)相連,形成了信息的鏈式結構,由此便可記錄區塊鏈中敏感信息的第一個發布者以備追查。散列值在消息挖掘區塊鏈中起著決定性作用。每個區塊個體(消息)持有唯一性的散列值,散列值隨區塊內容變化而改變。
2.1.4執行及應用
敏感信息挖掘的主要過程如下。
1)哈希生成:信息檢測者在本地執行深度學習改進算法,抓取文檔,獲得關鍵詞集合;然后輸入時間戳、文檔集合以及關鍵詞集合,由此獲得確定的作為輸出的哈希索引。
2)加密共識:區塊鏈采用非對稱加密算法,例如,玩家注冊階段產生一個私鑰(Private Key),用Private Key和橢圓曲線算法Secp256k1生成65字節的隨機數即公鑰,當游戲玩家經由網游客戶端發布信息時,系統對公鑰進行SHA256[10]和RIPEMD160雙哈希運算,得到20字節長度的摘要結果,將其作為主體信息,附加上版本前綴0x00及地址校驗碼,并對摘要結果進行兩次SHA256運算,取生成哈希值的前四位,最后,版本前綴+主體信息+校驗位經由Base58處理得到地址,將其上傳給云端服務器。
3)權限授予:各區服的控制端通過算法確認發布的信息屬于非敏感信息后,將密鑰和相關參數發送給數據使用者,授予合法權限(發言)。
4)數據解密:數據的使用者通過執行解密算法,輸入密鑰和加密文檔集,輸出明文文檔集。
5)動態更新:數據發布者向服務器提出文檔更新請求,增加或刪掉消息。服務器確認原有哈希并對新生成哈希分類,持續動態更新,同時進行敏感詞匯判斷。
在區塊鏈模式下,可以把敏感信息的挖掘過程等同于節點之間的交易(舉報)行為,其具體特性對網絡敏感信息挖掘模型的影響如下。
2.2.1敏感信息挖掘節點的去中心化
傳統的敏感信息挖掘通常是由玩家舉報或者系統檢測來實現,然后上傳到騰訊網絡安全的總庫,由游戲安全部門進行確認,再進行反饋及處理,而確認的難度隨著敏感信息的變形、改寫以及表達形式的多樣化而逐步增加,這使得輿情發酵期間數據的處理時間很難滿足及時性的要求。
對于敏感信息中的變形詞匯,常用的處理方法是應用機器算法加強對敏感詞匯的測試,將變形的敏感信息加入詞庫,以期到達更準確的效果。但是這樣需要一個反饋再學習的過程。而大部分玩家(節點)對于變形詞匯都能夠理解其表達的意思,在區塊鏈模式下,只有2個以上節點認證某位玩家發表的是政治言論,才可以達到節點間的共識,進而上傳到區塊鏈的模塊,使其第一時間發現敏感信息。敏感信息在網絡中被挖掘的整體效率取決于網絡中所有具有挖掘(舉報)能力的節點。每個節點都對所檢測出的敏感信息進行記錄,當節點間交換數據時,節點間會進行真實性驗證。如果驗證成功,確定屬于網絡敏感信息,則將它接收到的信息提交給網絡安全部門進行認定和屏蔽處理,這也極大地提高了信息挖掘效率。
2.2.2敏感信息的可溯性
區塊鏈的時間戳技術可被用來確認每筆數據的發生,在數據中加入時間維度,通過時間維度記錄敏感信息轉化的順序,使得數據挖掘過程具有可追溯性。在交易進程中,區塊鏈技術的時間戳機制能夠為每筆信息的發布(交易)生成一個ID,這為信息來源的追查提供了極大的幫助。區塊鏈將持續生成的信息加入到現有全部區塊中,一旦新區塊的生成條件被所有用戶認證,則當前區塊就會被加入到主區塊鏈中,每個區塊通過特定算法生成的哈希值來標記自身的唯一性,且此過程不可逆。由此可以判斷網絡敏感信息的演進發酵過程以及未來走向。時間戳技術在保證數據原始性的同時降低了挖掘(交易)追溯的成本,其時序性強化了信息的不可篡改性。針對敏感信息的長期發布來源,游戲公司網絡安全部門應引起足夠重視,并提交給國家安全部門進行偵查處理,以避免國外惡意勢力針對國內青少年的長期輿論導向作用。
2.2.3敏感信息發布者身份數據加密及信息鏈式合約
區塊鏈技術應用非對稱密碼學的原理進行數據加密。該技術能夠妥善保障網絡中挖掘(交易)數據的安全,降低由交易數據丟失而引起的風險。倘若外部入侵者意圖篡改部分數據,則需要對所有區塊的數據進行修改,因此這種改動無法在完善的區塊鏈中產生保障。另外,區塊鏈架構下的敏感數據挖掘模型中,數據在網絡中傳播需要具有數字簽名,用以作為簽名人的身份標識及簽名人對交易數據內容的認可。大型社交類網游往往在最初要求實名制注冊和手機注冊相結合,以便通過注冊信息核對來確保實名認證,從而保證游戲發言玩家身份(交易者)的安全性。而區塊鏈的特色就是其自動擔保程序的智能合約是架設在區塊鏈上而非服務器上,這極大地提高了較大數據量下的分布處理效率[16]。這樣,對個人身份的認證則由上傳到整個區服的認證,轉化為在區塊鏈上(某個具體區的服務器)的認證,極大地提高了認證效率。有研究認為,通過可編程的智能合約能夠預測每一個合約的結果,一旦觸發合約成立的條件,則代碼合約立即執行。也就是通過最初的簡短信息的發布,以及該節點一直以來發信息的文字規律,預測該節點即將發布信息的內容,在敏感輿情信息發布之前進行預警處理,提前屏蔽,在輿情爆發之前遏制源頭信息。
本文構建的系統保持現有系統的模塊化結構。不同的結構或者應用能保證自身模塊的獨立性和完整性;在保護數據隱私的前提下,允許數據的互操作。每個機構可以定義自己的對外訪問接口和形式,實現不同層級的靈活性。
本文嘗試將深度學習方法應用到區塊鏈模式下敏感信息挖掘過程的數據模型層當中。主要有三個層次,即文本預處理、詞向量表示和深度學習模型。深度學習通過其多層結構來提升訓練過程中對數據集特征的學習能力,以實現復雜函數的逼近,解決了傳統文本分類中對復雜問題泛化受限從而導致的準確率低的問題。
無論訓練深度學習模型的文本是否已標記,都需要對文本數據進行預處理,包括過濾非中文信息(數字、英文字母、標點、特殊符號、全角字符等)、模板提取(根據具體分類需求,通過模板提取文本樣本中的關鍵信息,剔除其他信息)、文本分詞(分詞算法根據預設的詞典對樣本進行匹配識別或標注訓練)和去停用詞(過濾某些對分類無作用的字或詞)等操作。
例如,在一條信息中,網友舉報有人借助游戲平臺發布色情信息廣告,過濾非中文后,歸納提取的模板為“內容+費用+聯系方式”。分詞分類詞典一般采用國家語委語料庫、搜狗語料庫等。用戶定義詞典則是由通用詞典未包括的、專業的單詞組成。網游信息當中的詞典,就需要根據實際應用場景,建立用戶定義詞典,并適時定時進行更新。例如,在聊天網絡敏感信息中“操”被列入暴力侮辱性詞匯,但是在網游中,“曹操”這個詞匯出現幾率非常高,因此要建立兩個專業單詞的區分度。深度學習分詞的實現思路為:通過對大量漢字和單詞進行標注訓練,利用機器學習工具,識別文本中的詞語。
文本預處理后,為了更好地被深度學習模型識別,需要對高維度、高稀疏的樣本文本進行詞向量表示,以達到較高質量的特征提取以及格式轉換。詞向量輸出包含了每個詞向量的向量矩陣,即將高維度、高稀疏編碼方式的文本數據轉換為連續稠密數據。在基于深度學習的文本分類系統中,將一條網友針對游戲充值未到賬表達極度不滿的文字信息設為50維向量,樣本預處理后,進行Word2Vec計算,輸出結果如圖2所示。

圖2 謠言信息轉碼示例Fig.2 Example of rumor information transcoding
建立深度學習分類模型的過程:①訓練過程,即用足夠量的已標記類別的文本樣本集來訓練分類;②驗證過程,用去除標記的文本樣本來測試模型的分類準確性。再通過多輪訓練并優化模型,達到分類模型的穩定。本文將深度學習改進模型的幾種文本測試結果,與常見的樸素貝葉斯文本分類結果進行對比,測試結果如圖3所示。

圖3 TextCNN模型架構圖Fig.3 Architecture diagram of TextCNN model
由于網游對話的特性及對話框字數的限制,網游對話大部分以短文本為主。在深度學習理論中,TextCNN對文本淺層特征的抽取能力很強,在短文本領域(如搜索、對話領域)專注于意圖分類時效果很好、應用廣泛且速度快,具有明顯優勢[17]。
圖3中,詞向量構成文本矩陣,過濾器的卷核大小分別為2、3、4,經過卷積池化得到特征向量,其維數等于卷積核尺寸的個數乘以每種尺寸卷積核的個數,TextCNN分為4層。
卷積層:在本文的TextCNN模型中,有3個過濾器(卷積核大小分別為2、3、4)可以分別提取不同的文本特征。過濾器將大小為3×3×1的節點矩陣轉化為單位節點矩陣,而對于單位節點矩陣中的第i個節點,假設wix,y表示過濾器輸入節點(x,y)的權重,bi表示第i個輸出節點對應的偏置項參數,那么單位矩陣中的第i個節點的取值a(i)為:
(1)
式中:cx,y為過濾器中節點(x,y)的取值;f為激活函數。所有a(i)組成的單位向量就是卷積層所得出的特征圖,將其作為池化層的輸入。
池化層:池化層的匯合操作能夠產生降維的效果,減小計算量和參數的個數,同時防止過擬合的發生。
融合層:將3個池化層所得的特征進行拼接,融合成一個對文本向量來說更具有代表性的向量。
全鏈接層:通過在融合層之后加入隱含層和最后的softmax層,來充當一個分類器,對文本進行最終的分類。
為了測試TextCNN模型在數據集上的表現,實驗數據集選取《亂世王者》2019年5月聊天文本信息,分別采用樸素貝葉斯、CNN、TextCNN三種模型對數據集進行分類,實驗步驟為:
1)先對短文本語料進行標注,并進行預處理,執行數據清洗、分詞、去停用詞等操作;
2)用已訓練好的(中文)Word2Vec模型對分詞結果進行向量化;
3)利用樸素貝葉斯、CNN、TextCNN三種不同模型對數據集進行分類,并計算其準確率。
表1為《亂世王者》2019年5月聊天文本信息的分類模型對比結果,其中數據集1包含訓練樣本14 792條、測試樣本2 324條,類別數設為15;數據集2包含訓練樣本11 487條、測試樣本1 794條,類別數設為5。數據預處理基于Python的SKLearn庫實現,模型訓練和驗證基于TensorFlow實現。

表1 文本分類模型對比結果Tab.1 Comparison results of text classification models
由表1可知,TextCNN文本分類系統的測試準確率明顯高于樸素貝葉斯和CNN文本分類系統。該結果表明,在社交類網游的短文本語境中,TextCNN文本分類系統具有顯著優勢。
本文結合業務實際,分析了大型社交類網游中網絡敏感信息挖掘的常見問題。結合區塊鏈技術的分布式記賬方法、去中心化特性,改進了深度學習算法,提出了區塊鏈模式下的網絡敏感信息挖掘模型,并將數據層面和控制層面解耦,其中數據層面分類采用卷積神經網絡進行特征提取及文本分類。實驗結果表明,區塊鏈機制下的網絡敏感信息挖掘模型具有較強的安全防誤判能力、快速高效的點對點識別機制,能夠有效發掘并建立網游中敏感信息的詞典,同時保持高效精準的特性。在區塊鏈技術架構下研發精準、高效的網游輿情防控體系,可為網絡安全提供事前、事中、事后全過程的輿情數據辨識、處理、溯源,具有廣泛的社會需求、較高的技術可行性和良好的應用前景;同時,也為后續公安大數據網絡敏感信息的挖掘提供了借鑒。