沈 宜,郭先會,石 珺
(1.深圳市網聯安瑞網絡科技有限公司,廣東 深圳 518042;2.成都融微軟件服務有限公司,四川 成都 610095)
隨著科學技術的不斷發展以及人民生產生活水平的不斷提高,社會中累積的數據量在以驚人的速度不斷增長。在很多應用場景中,快速增長的數據量使得利用傳統的統計工具和手段已無法有效地對數據進行處理和分析,而以數據挖掘、深度學習、云計算等技術為代表的超算技術正逐步發展為數據分析領域的核心技術。大數據分析與應用已經與人工智能技術有了深度的融合,并成為推動其發展的核心因素,數據智能的概念也應運而生。從管理的視角出發,可將數據智能定義為:通過大規模數據挖掘、機器學習和深度學習等預測性分析技術,對現實應用場景的內外部多源異構大數據進行處理和分析,從中提取有價值的信息或知識,并用于提升復雜實踐活動中的管理與決策水平。
互聯網上與日俱增的內容不僅代表著更多的流量,也預示著巨大的內容風險藏身其中。隨著互聯網產業的快速發展,新的技術和應用不斷涌現,以圖像、音頻、長短視頻為載體的新媒體在網絡空間中的應用越來越廣泛,并同時催生了網絡直播、微博、微信公眾號以及各種自媒體等新的業務形態,這些新事物在給人們工作生活帶來便利、消弭信息鴻溝的同時,也滋生了一些不良信息。部分網站、內容服務商片面追求經濟利益,對內容把關不嚴,不良內容信息(暴恐、低俗等)被傳播的問題持續存在。此外,某些居心叵測的人員利用微信、微博等社交媒體不斷進行意識形態的滲透,組織恐怖極端主義和分裂主義的宣揚活動,特別是隨著“深度偽造”等新技術的運用,這些風險被進一步集聚、放大,極易引發社會政治穩定層面的問題,進一步增加網絡空間中內容安全治理的難度。其中,內容安全是指對信息內容的保護,以及使信息內容符合政治、法律、道德層次的要求[1]。
雖然數據智能已經被廣泛應用于多個領域,但與內容安全治理相結合的應用場景尚不多見。就目前情況來看,傳統的內容安全治理手段面臨著如監測手段落后、監測對象多、監測范圍廣、網絡環境復雜等現實問題。另外,針對網絡空間中傳播的各種多源異構數據,需要著重判斷是否有歷史不良信息內容被再次傳播,是否出現了需要重點監管的各種主題、特定內容,是否存在偽造圖像、虛假新聞等內容欺騙。面對這種形勢,部分監管部門以人工研判為主要應對手段,該方式工作量大、效率比較低,識別的準確度和及時性也往往難以保證。此外,基于哈希的常規視圖像識別技術也無法滿足識別未知場景、形變圖像等新的治理需求。
面對這種局面,數據智能技術為內容安全治理帶來了新的機遇,自然語言處理、基于深度學習的視圖像分析、多模態數據融合、知識圖譜、跨媒體分析與推理等技術的發展,能夠有效提高內容鑒別、保護及違規審查等能力,將內容安全治理向自動化、智能化、高效化、精準化方向推進。
基于數據智能的內容安全技術通過對自然語言處理、視圖像內容識別以及跨媒體智能感知等技術的研究,對現有數據形態(包括文字、圖片、視頻等)進行處理和分析,提取出數據中包含的有價值的信息,提升對海量數據的內容安全治理能力。基于數據智能的內容安全技術主要包括基于自然語言處理的虛假信息檢測技術、基于深度學習的視圖像內容智能分析技術和跨媒體智能感知技術。
虛假信息是指經過有意地、無意地扭曲過的消息,或憑空捏造的消息。在虛假信息活動中,信息本身和該信息來源可能是虛假的、不完整的或誤導性的。隨著社交媒體的蓬勃發展,虛假信息的傳播量呈爆炸式增長,企業可能會利用虛假信息來詆毀競爭對手,政黨可以以獨立組織或組織領導人為目標制造虛假信息,各國之間可以利用虛假信息來削弱和打擊對手。虛假信息已被視為對民主、正義、公眾信任以及公共安全的重大威脅之一。與傳統媒體相比,社交媒體具備的海量的數據量、極高的訪問便利性和高速的傳播速度等特性,給虛假信息的監管帶來了極大的挑戰。
如圖1 所示,基于自然語言處理的虛假信息檢測技術包括面向中文的語言、語義特征挖掘與處理技術,基于內容的虛假信息檢測技術和基于多種混合特征的虛假信息檢測技術。同時,通過構建中文虛假信息數據集,提高標注人員的知識儲備和個人判斷能力。

圖1 基于自然語言處理的虛假信息檢測技術組成
1.1.1 面向中文的語言、語義等特征的挖掘與處理技術
通過對語言與語義特征挖掘分析、更高層次特征挖掘以及中文自然語言處理,實現對中文語言、語義等特征的挖掘與處理。
(1)語言與語義特征挖掘
虛假信息包括信息的創作者、正文(標題)、舉例、引用數據等實體內容以及情感、動機、主題等非實體內容,基于語言、語義的特征以及基于風格的特征是虛假信息檢測的最常用屬性。通過分析可以發現,虛假信息的文本長度、專業詞匯、標題表達形式等均與真實信息存在不同程度的差異,并且真實信息通過討論來說服,虛假信息往往通過引導來說服。
中文作為一種表意文字,具有高度的概括性和簡潔性,表達效率高,與英語等表音文字具有顯著的差異。比如,在語言學上,二者存在顯著的語法特征差異、句式差異、句子長短等差異。此外,中文中還存在大量的成語、俗語以及古語等。因此,需要針對中文的語言和語義特征進行針對性的研究和建模,進而建立特殊的判斷機制。
(2)更高層次特征挖掘
虛假信息與真實信息在寫作風格、寫作質量和表達的情感等方面存在潛在差異。虛假信息中往往具備特定的寫作風格,以吸引或誤導用戶,如虛假信息的標題和內容往往帶有蠱惑性或煽動性的語言,從而吸引不同受眾閱讀和轉發。針對文本內容中主張、意圖、動機、情感等更高層次的語義特征挖掘和建模是研究的主要方向。通過對高層次特征進行提取,可為虛假信息的識別提供更有力的支撐。
(3)中文自然語言處理
在自然語言處理方面,由于中英文存在顯著的差異,在自然語言處理(Natural Language Processing,NLP)算法設計中,需要特別注意中英文的詞性標注方法差異、字體特征差異、詞匯粒度處理方法差異、句法結構分析方法差異以及歧義問題與子串轉義處理差異等。
1.1.2 基于內容的虛假信息檢測技術
語言和語義等特征是文本信息中最基礎的特征,也是基于內容的虛假信息檢測的基礎。在語言與語義特征挖掘時,可利用釋義、語法檢查和詞嵌入工具來提取虛假信息文本中的特征,從而在詞匯層次、句法層次、語義層次和篇章層次上對文本內容進行全面的研究和表征。此外,還可以通過文本風格評估虛假信息的意圖,即是否有誤導公眾的意圖。惡意用戶更喜歡用“特殊”風格撰寫虛假信息,以鼓勵他人閱讀并說服他們信任。基于心理學的方法有助于挖掘用戶意圖、主張、情感等更高層次的特征,進而推動虛假信息的識別。
另外,還可以將注意力機制引入檢測機制中,注意力機制可歸結為給予需要重點關注的目標區域(注意力焦點)更重要的注意力。注意力機制在自然語言處理中可以看成一種自動加權機制,它可以把兩個想要聯系起來的不同模塊,通過加權的形式進行聯系。通過設計一個函數將目標模塊和源模塊關聯,然后通過歸一化函數得到概率分布。它有一個很大的優點就是可以可視化Attention 矩陣,來告訴研究人員神經網絡在進行任務時關注了哪些部分。基于這些信息可以結合數據模型,對是否存在虛假信息的概率進行進一步判斷。注意力機制的主要計算公式如下:

式中:at為每個時間步對應的權重向量;mt為當前decoder 第t個時間步的隱藏狀態;ms為encoder 第s個時間步的隱藏狀態;Wa為權重矩陣;f(mt,ms)為一個基于內容的函數,可以通過4 種方式實現,其中dot 表示點乘/點積,contact 表示把兩個變量連接起來,general 表示中間加權參數。
式(1)表示全注意模式在計算解碼(decoder)的每個時間步的上下文向量時,均考慮編碼(encoder)所有隱藏狀態。式(2)用于計算權重。
1.1.3 基于多種混合特征的虛假信息檢測技術
由于虛假信息的復雜性和模糊性,多種方法的結合運用勢在必行。可以通過將虛假信息的文本信息、創作者與相關用戶的賬戶信息及其可信度、社會背景信息、傳播網絡中的兩種或多種特征通過特定的網絡進行融合,有效提高虛假信息檢測的可信度。
1.1.4 構建中文虛假信息數據集
當前,基于虛假信息檢測的中文數據集極度缺乏,這無疑是一個巨大的挑戰。而數據智能系統的構建往往依賴于大量的標注數據,因此建立一個有效的虛假信息數據集勢在必行。在數據集的建立過程中需要特別注意以下幾個方面的問題:首先,應根據應用場景對虛假信息進行準確定義,避免因個體的不同對虛假信息的理解存在差異;其次,根據虛假信息的定義設定判斷基線,提高標注人員的知識儲備和個人判斷能力;最后,需要加強多學科、跨學科知識的積累,盡可能避免信息的準確性受到時代背景、前后文關聯信息等因素的影響。
隨著網絡空間業務形式和內容越來越多元化,海量的多樣化數據也在不斷產生,對網絡空間中非結構化數據及相互關系的分析和治理已成為必然,這與傳統結構化數據處理相比,在方法和技術方面都存在巨大挑戰。基于深度學習的視圖像內容智能分析技術主要包括圖像近似拷貝檢測技術、視圖像分類技術、目標檢測識別技術和光學字符識別(Optical Character Recognition,OCR)技術等內容。

圖2 基于深度學習的視圖像內容智能分析技術組成
1.2.1 圖像近似拷貝檢測技術
圖像近似拷貝檢測技術通過從圖像中提取視覺唯一特征(圖像指紋),形成基于圖像內容的高效圖像檢索技術。由于混合局部特征和全局特征描述,圖像近似拷貝檢測技術具有識別準確率高、識別速度快、抗干擾能力強的特點。圖像近似拷貝檢測技術可以很好地檢測出翻拍、裁剪、旋轉、灰度化等多種人為的特殊處理,如圖3 所示。

圖3 圖像翻拍/圖像裁剪/圖像旋轉/灰度化等形變示例
圖像近似拷貝檢測流程分為多步,總的來說可以劃分為提取特征、構建索引和相似性度量3 個模塊,具體的流程如圖4 所示[2]。

圖4 近似拷貝圖像檢測流程
視頻近似拷貝檢測技術基于尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征計算與分布式系統視頻特征索引相結合的方式實現。該技術首先利用圖形處理器(Graphics Processing Unit,GPU)上的硬解碼組件對視頻流進行并行解碼處理;其次采用關鍵幀提取的方法依次從解碼后的視頻序列中取出各個關鍵幀信息,并逐個提取關鍵幀的SIFT 高維特征點,即視覺唯一特征;最后對這些特征點進行索引處理,通過視頻高維特征集的索引與分布式檢索系統相結合的方式,可實現大規模視覺特征集的快速搜索。
1.2.2 視圖像分類技術
目前較為流行的圖像分類架構是卷積神經網絡(Convolutional Neural Networks,CNN),它將圖像送入網絡,然后對圖像數據進行分類。卷積神經網絡從輸入窗口開始,該輸入窗口不會一次性解析所有的訓練數據。比如輸入一個大小為100×100 的圖像,也不需要一個有10 000 個節點的網絡層,只需要創建一個大小為10×10 的掃描輸入層,掃描圖像的前10×10 個像素,然后向右移動一個像素,再掃描下一個10×10 的像素,這就是滑動窗口,如圖5 所示[3]。

圖5 卷積神經網絡
輸入數據被送入卷積層,而不是普通層。每個節點只需要處理離自己最近的鄰近節點,卷積層也隨著掃描的深入而趨于收縮。為了進一步提取高維特征并降低計算量,還需要對特征進行池化,假如得到一個局部特征,它是一個圖像的一個局部放大圖,分辨率很大,那么就可以將一些像素點周圍的像素點(特征值)近似看待,然后統計平面內某一位置及其相鄰位置的特征值,并將匯總后的結果作為這一位置在該平面的值。
此外,還可以運用多模態特征的視頻分類方法進行視頻內容的分類。該視頻分類方法采用3D 卷積提取圖像和短視頻特征,并放入長短記憶網絡LSTM 進行序列識別,實現對圖像的識別,達到圖像分類的目的。
1.2.3 目標檢測識別技術
目前,基于深度學習的目標檢測與識別算法大致分為以下三大類:
(1)基于區域建議的目標檢測與識別算法,如R-CNN、Fast-R-CNN、Faster-R-CNN;
(2)基于回歸的目標檢測與識別算法,如YOLO、SSD;
(3)基于搜索的目標檢測與識別算法,如基于視覺注意的AttentionNet、基于強化學習的算法。
考慮到網絡空間治理對象的特殊性,本文選擇的算法為基于區域建議的目標檢測與識別算法,即R-CNN、Fast-R-CNN 和Faster-R-CNN。
R-CNN 的基本工作流程如圖6 所示,具體描述如下[4]:

圖6 R-CNN 算法原理
(1)接收一個圖像,使用Selective Search 選擇大約2 000 個從上到下的類無關的候選區域(proposal);
(2)將提取出來的候選區域轉換為統一大小的圖片(拉升/壓縮等方法),使用CNN 模型提取每一個候選區域的固定長度的特征;
(3)使用特定類別的線性支持向量機(Support Vector Machine,SVM)分類器對每一個候選區域進行分類;
(4)Bounding Box 回歸。
快速卷積網絡目標(Region-Convolutional Neural Networks,Fast R-CNN)的主要作用是實現了對R-CNN 的加速,它在R-CNN 的基礎上主要有以下幾個方面的改進:
(1)借鑒了空間金字塔池化網絡(Spatial Pyramid Pooling Network,SPP Net)的思路,提出了簡化版的感興趣區域(Region Of Interest,ROI)池化層(沒有使用金字塔),同時加入了候選框映射的功能,使得網絡能夠進行反向傳播,解決了SPP的整體網絡訓練的問題。
(2)多任務Loss 層。首先使用了Softmax 代替SVM 進行多分類,其次采用SmoothL1Loss 取代了Bounding Box 回歸。
Faster R-CNN 和Faste R-CNN 的不同點主要是使用區域候選網絡(Region Proposal Network,RPN)進行region proposal 的選擇,并且將RPN 合并到CNN 中,從而實現了端到端的目標檢測。
1.2.4 OCR 識別技術
在傳統技術中,OCR 技術主要采用模板匹配的方式來進行分類,通過識別每個單字符的字形筆畫進而實現全文的識別,但通過這一方法可能會導致上下文信息的丟失。所以,通過使用深度學習的方法來對各種文字的常用字符進行建模,并引入上下文的信息進行綜合判斷,可以有效地提升識別的整體準確率。從數據智能技術來看,要引入上下文這樣的序列信息,RNN 和長短記憶網絡(Long Short-Term Memory,LSTM)等依賴于時序關系的神經網絡是最理想的選擇。CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力機制的結構如圖7 所示[5]。

圖7 CNN+Softmax/CNN+RNN+CTC/CNN+RNN+注意力機制
網絡空間中所蘊含的話題、事件和模式往往以文本、圖像、視頻和空間位置等不同模態的媒體數據從不同側面進行整體性表現。有著相同語義、主題和事件的跨媒體數據在不同網絡平臺上瞬時涌現,進而迅速演化和二次傳播,往往會很快引發熱點話題或者內容安全事件。發現多模態數據之間的關聯關系,以及數據與現實生活個體和群體行為之間的相互影響規律,揭示以特定事件為內容的跨媒體數據傳播與演化機制,對跨媒體數據所蘊含話題、事件和模式進行語義理解,建立跨媒體推理模型,挖掘話題、事件和模式之間的隱性關聯,是內容安全治理工作中非常關鍵的問題。
1.3.1 跨媒體數據知識表征
深度神經網絡在大數據分析中不斷取得突破性成功,這給跨媒體統一關聯表征帶來了新的思路。針對不同的跨媒體數據表現形式,可以通過構建基于規則的知識圖譜,使用統一的結構化數據進行表征學習,然后基于深度神經網絡提取出高度抽象的特征,并基于此抽象特征進行跨媒體智能感知與分析任務。
1.3.2 跨媒體融合糾錯的媒體要素標記
基于深度神經網絡,利用卷積層級網絡結構和回復式網絡結構,可以充分學習媒體內部和媒體之間的多級關聯關系。同時利用多任務學習框架自適應平衡媒體內語義類別約束以及媒體間成對相似性約束學習過程,進而對跨媒體的媒體要素標記進行融合糾錯,例如,可以用這種方法將圖片對應的錯誤文本描述糾正為正確文本。
1.3.3 跨媒體智能描述與檢索
自生成對抗網絡提出以來,便成為學術界的研究熱點。其最基本的思想就是從訓練集里獲取很多的訓練樣本,從而學習這些訓練案例生成的概率分布。利用生成對抗網絡進行跨媒體智能描述與生成,給定一種媒體類型的數據,生成另一種媒體類型的數據,如給定圖像,生成其文本描述,以及給定文本,生成其描繪的圖像。同時,基于跨媒體數據知識表征技術得到高度抽象的跨媒體表達,利用典型相關性分析方法將多個媒體的特征進行關聯,使其相關性最大,同時為了增強多媒體表達的語義一致性,可以將語義一致性引入多媒體的相關性學習中,從而成功進行跨媒體檢索任務。
1.3.4 跨媒體知識挖掘與推理
跨媒體知識挖掘與推理的目的是提供可計算的知識表達結構。基于知識圖譜的跨媒體知識挖掘與推理能解決跨模態認知的難題,實現在跨模態環境中進行語義關系分析以及認知層級的推理。通過采用知識圖譜進行跨媒體知識挖掘與推理,并采用跨媒體智能描述技術得到語義一致的文本,進而建立描述真實世界的跨模態知識圖譜,同時提供基于知識圖譜的跨模態應用接口,從而實現跨模態推理,高效解決跨模態認知問題。
通過對自然語言處理、特征提取、深度學習以及跨媒體感知等系列數據智能技術進行深入研究,并以此為核心,緊密圍繞網絡安全與信息化,聚焦內容安全,本文提出了一種“數據+內容安全”的思路,將基于數據智能的內容安全技術應用在網絡空間治理中,融合多種智能識別算法,形成覆蓋文字、視頻和圖像的多模態內容監測綜合解決方案。系統架構如圖8 所示。

圖8 多模態內容監測平臺
(1)基礎設施層:提供硬件支撐。包含GPU服務器、中央處理器(Central Processing Unit,CPU)服務器、網絡設備、存儲設備等。
(2)數據處理層:提供數據支撐,主要負責從互聯網等網絡平臺抓取新媒體數據,完成對新媒體內容的采集,以及數據去重、文本提取、視頻轉碼、視頻抽幀等系列數據處理工作。
(3)數據存儲:采用分布式存儲架構設計,主要包括分布式數據庫管理系統(Database Management System,DBMS)存儲方式和文件存儲方式,除了負責存儲采集到的信息,還存儲識別規則庫等信息。
(4)內容分析層:提供內容分析支撐,包括內容識別引擎、有害信息識別規則庫和跨媒體智能感知。內容識別引擎根據內容識別規則庫,結合視頻指紋識別、視圖智能分析、關鍵字匹配等技術,對采集到的新媒體內容進行多維度識別匹配及智能分析,實現對網絡空間中不良信息內容的自動識別分析;跨媒體智能感知基于規則的知識圖譜和跨媒體知識挖掘與推理,實現文本、圖像的感知。
(5)應用服務層:提供各類監管應用的業務邏輯,實現對網站、微信公眾號、微博、小視頻APP、直播等各類應用平臺的內容監測。
(6)人機交互層:以web 網頁形式將各類功能進行展示。用戶通過web 瀏覽器對系統進行登錄和訪問,并能夠實時查看監測的不良信息。
(7)運維管理:提供系統平臺配置,包括參數配置、權限管理、系統監控和數據備份等。
本文對數據智能技術的發展情況及網絡空間內容安全治理面臨的問題進行分析,結合工作經驗和項目實踐,闡述了如何利用自然語言處理、特征提取、深度學習以及跨媒體感知等系列數據智能技術進行虛假信息檢測、視頻和圖像內容分析以及多模態內容的感知,從而為復雜形勢下的網絡空間內容安全治理提供了有力支撐。該解決方案形成的識別引擎、分析工具、系統和平臺系列化產品已為多個行業提供了以數據智能為核心的技術手段,助力網絡空間內容安全治理。