基于多模態特征融合的社交媒體賬號分類方法

2023-11-16 10:49:30湯智偉費高雷翟學萌胡光岷

網絡安全與數據管理 2023年10期

湯智偉，明楊，費高雷，翟學萌，胡光岷

(電子科技大學信息與通信工程學院，四川成都 611731)

0 引言

隨著社交媒體的興起，用戶賬號的分類成為了研究者關注的問題。這涉及檢測異常賬號和識別相關主題賬號。傳統方法主要從賬號文本信息或社交關系中提取特征，但存在特征單一和缺乏融合的問題[1]。

為了更充分挖掘數據信息[2]，多模態學習嶄露頭角。多模態學習充分利用不同信息類型之間的相關性與互補性，提供更全面的特征表示[3]。多模態融合有兩大優點：模態之間互補相關[4]，且系統具備強容錯性。然而，在社交媒體賬號分類領域，多模態研究相對較少。

本文提出了一種多模態特征融合的社交媒體賬號分類方法。在特征提取階段，綜合考慮了賬號屬性、文本和社交關系等多模態信息。在融合過程中，采用張量方法將這些多模態特征整合，以張量分解降低數據復雜性。多模態特征融合有助于捕捉各模態之間的聯系，提高賬號分類準確性和模型泛化性。

1 相關工作

社交媒體用戶賬號分類的關鍵在于賬號特征表示和分類方法。特征表示涉及從原始信息中選取代表性特征，通常分為基于賬號信息和基于社交關系兩種方式。

基于賬號信息的表示可分為兩類：自身屬性和文本信息提取。對于垃圾賬號，Krishnamurthy等[5]使用關注與被關注比例分類賬號；Wang等[6]提取好友數、粉絲數特征并使用貝葉斯分類器；Mccord等[7]提取文本長度、關鍵詞、活躍時間分布比例進行分類。對于主題賬號，Rao等[8]使用習慣用詞、標點符號、表情符號等特征，結合n-gram模型和支持向量機分類；Vicente等[9]通過分析Twitter賬號昵稱提取特征，準確預測性別。

基于社交關系的表示將賬號看作節點，交互關系作為邊，構建社交網絡圖。Pennacchiotti等[10]提取屬性、行為、文本和社交網絡特征分類政治傾向、種族和企業粉絲。Campbell等[11]則構建帶權混合圖分類普通和名人賬號，使用PageRank算法提取特征。

分類方法主要基于機器學習，包括傳統方法如樸素貝葉斯、邏輯回歸、支持向量機，以及深度學習方法。深度學習通過自動學習特征表示提高分類性能。Liu等[12]使用深度學習分類賬號地理位置。Kipf等[13]提出圖卷積神經網絡(GCN)處理社交網絡數據。Zhang等[14]融合文本特征使用集成的長短期記憶網絡進行社交媒體賬號分類。Rahimi等[15]基于GCN提出半監督地理定位方法。

考慮數據復雜性，本文建議結合賬號信息、交互關系信息和文本信息構建異質網絡，提高分類準確性。

2 賬號分類模型

在基于多模態特征融合的賬號分類方法的具體實現中，整體流程主要分為文本預處理、特征表示、張量融合、張量分解、分類五步。其中，文本預處理和特征表示兩個模塊構成了多模態特征提取部分；張量融合和張量分解兩個模塊構成了多模態特征融合部分。圖1是基于多模態特征融合的賬號分類模型框架圖。

文本預處理是對文本信息進行分詞、正則匹配、詞性標注和命名實體識別的預處理流程。通過預處理操作可以得到本文需要的實體信息。特征表示是從賬號社交模態、屬性模態和文本模態三方面進行賬號的特征表示。其中，社交模態是基于賬號關注與被關注的交互信息，屬性模態是基于賬號填寫的個人信息，文本模態是基于賬號發布的文本。張量融合模塊是將提取到的三個模態特征進行融合，構建出每個賬號的特征張量。由于原始特征張量維度過大，存在著計算復雜、存儲量大等問題，因此使用張量分解的方法對原始特征張量進行分解降維。最后，將分解得到的特征張量按照張量的三個模式展開，得到三個不同的特征向量，并分別輸入分類器中，采用投票法得到最終的分類結果。

3 賬號分類方法

3.1 多模態特征提取

多模態特征提取主要是從賬號和賬號的文本內容中提取能夠描述賬號類別的信息，例如：賬號自身屬性、文本以及賬號社交關系等。社交媒體平臺由于字數限制，發布的文本中通常含有大量的縮寫詞、URL鏈接、表情符號等，因此在提取特征前，需要對這些文本進行預處理。

3.1.1 文本預處理

文本預處理是指使用自然語言處理的方法對社交媒體數據中的文本數據進行分詞、去噪、詞性標注和命名實體識別。由于文本中既有很多有用的信息，比如實體信息，又存在著許多表達不規范的地方，因此需要對文本進行預處理操作。

3.1.2 特征表示

本文主要從Hashtag(賬號文本模態)、命名實體NER(賬號屬性模態)以及賬號(賬號社交模態)三個模態進行特征的表示。

Hashtag和NER用于反映賬號的主題性和內容描述。但要確定賬號是否屬于相同類別，需要考慮社交行為。通過觀察賬號的社交關系，可以補充文本和屬性信息的特征表示。

對于賬號特征，本文基于社交關系，使用關注列表和被關注列表來表示。每個賬號作為社交圖中的節點，查看其關注和被關注列表。互相關注是指存在于兩個賬號的關注和被關注列表中，將這類賬號放入互相關注列表。最終，通過互相關注列表建立賬號之間的社交關系圖。通過這種方式，可以更全面地了解賬號之間的相似性和社交互動，從而更準確地進行賬號分類。

通過賬號的社交關系圖，使用node2vec方法獲取賬號節點的特征向量。node2vec方法結合了廣度優先搜索(BFS)和深度優先搜索(DFS)的采樣策略，通過隨機游走來生成節點序列，然后利用處理詞向量的技巧對這些序列進行建模，從而獲得賬號節點的特征向量。通過node2vec算法可以得到賬號節點之間潛在的信息，最終得到賬號的特征向量U=(k1，k2，…，km)，其中m表示向量的維度。

對于Hashtag和命名實體NER而言，本文基于賬號的文本信息進行關鍵詞的特征表示。對于Hashtag節點，本文遍歷所有標記的訓練集賬號發布的文本，將Hashtag在文本中的出現次數進行統計。

由于Hashtag數量極多，為了防止維度災難，本文分別根據數據庫中字段count1、count0進行從大到小的排序，選出數量最多且比另一個類別數量多的前50個Hashtag來構成字典。例如，按照count1進行排序時，需要滿足count1>count0的條件。之所以要將另一個類別的數量也考慮進來對比，是因為文本中會出現一些中性的Hashtag。該類Hashtag由于在每一種類別中都會出現，且在每種類別中出現的總次數差不多，因此，該類Hashtag不能對賬號的分類提供幫助，反而可能增加噪聲信息。因此，只有在某一類別中占比較多，且其余類別中占比較少的Hashtag才能體現出在某一類別中的關鍵性。

對于命名實體NER，本文也采取同樣的操作方式進行特征表示。與Hashtag不同，命名實體NER是從賬號的屬性信息中的自我描述字段(description)進行提取。自我描述模塊是賬號對自己進行描述定義最為直接的一個板塊，有的賬號會在自我描述中直接寫出自己的興趣愛好，例如運動、寵物等。

Hashtag和NER經過關鍵詞提取后分別將count1排名前50的詞和count0排名前50的詞以{詞語：序號}的形式保存為一個100維的字典dict，其中，count1中的詞語序號為0～49，count0中的詞語序號為50～100。接著根據每個賬號的Hashtag和NER進行特征表示，將Hashtag特征向量表示為H=(i1，i2，…，il)，NER特征向量表示為N=(j1，j2，…，jl)，其中l表示向量的維度。

3.2 多模態特征融合

模態通常用來泛指某種類型的信息或者存儲信息的一種表示形式，多模態是指兩種或兩種以上的模態的各種形式組合。之所以需要對模態進行融合，是因為不同模態的側重點不一樣，因此不同模態之間會存在一些交叉情況，這種交叉情況中既有信息冗余，也有信息互補，如果能合理地處理并利用好多模態信息，就能得到豐富的特征信息。

由于本文有賬號文本模態、賬號屬性模態以及賬號社交模態三個模態的特征，普通的一維向量不能很好地將三個維度的模態信息表示完整，因此，本文使用張量來表示模態特征。

由3.1節的特征提取，得到了每個賬號的三種模態特征，分別是基于社交關系的賬號模態U=(k1，k2，…，km)，其中m表示向量的維度；基于賬號文本和賬號屬性的Hashtag模態H=(i1，i2，…，il)和NER模態N=(j1，j2，…，jl)，其中l表示向量的維度。每一種模態代表張量的一個維度，通過張量的Kronecker積相乘，構建出新的三階張量：

X=U?H?N

(1)

Kronecker積也稱為直積或張量積，是一種用于組合兩個矩陣的數學運算，給定一個大小為m1×m2的矩陣A，和一個大小為n1×n2的矩陣B，則矩陣A和矩陣B的Kronecker積如式(2)所示：

(2)

使用Kronecker積相乘構建的三階張量X，不可避免地存在著數據量大、計算復雜等特點，為了解決該問題，本文采用張量分解的方式對原始張量進行降維。張量分解是矩陣分解的高階泛化，矩陣分解是將矩陣拆解為多個矩陣的乘積，例如主成分分析(Principal Component Analysis，PCA)、奇異值分解(Singular Value Decomposition，SVD)等。在實際應用中，可以通過矩陣分解達到降維處理、缺失值填充和隱性關系挖掘的目的。但由于現實問題的復雜性和多樣性，很多問題不能簡單地只靠矩陣建模解決，因此科研工作者對張量進行研究，在矩陣分解的理論基礎上又推廣出了多種張量分解的模型。本文使用Tucker分解來對張量進行分解。

Tucker分解是把一個張量分解為一個核心張量(core tensor)和幾個因子矩陣。對于一個三階張量X∈Rl×m×n，Tucker分解的計算見式(3)：

(3)

其中符號“°”表示的是矩陣的外積；“×k”則表示模式積，為高階張量與矩陣的乘積，計算公式如式(4)所示：

(4)

本文為了提高算法的泛化能力，不考慮特殊情況，因此采用Tucker分解的方式對賬號的特征張量進行分解。Tucker分解的目的是對特征張量進行降維，由式(3)可知，Tucker分解將原始三階張量轉變為一個核心張量和三個因子矩陣的形式，降低了數據的存儲量。核心張量其實就是原始張量在保持自身結構信息和屬性信息不變后降維得到的張量，即其低階近似表達。由式(3)可以得到核心張量的計算公式：

(5)

其中A、B、C分別是通過X對應模式的奇異值分解得到的，奇異值分解的表達式如式(6)所示：

(6)

其中，Σk表示對角矩陣，奇異值(singular value)按照從大到小的順序依次存儲在對角矩陣中。奇異值類似于矩陣分解中的特征值，與奇異值對應的是奇異向量。Uk和Vk分別代表X(k)的左奇異向量(left singular vector)和右奇異向量(right singular vector)。因子矩陣中的A、B、C對應的就是左奇異向量，即A=U1，B=U2，C=U3。根據文獻[17]可知，在大部分情況下，前10%甚至1%的奇異值數據和幾乎等于所有的奇異值之和，因此通過使用最大的前r個奇異值和對應的r個左奇異向量和右奇異向量相乘來達到對原始矩陣的降維。這樣的降維方式可以保留原始矩陣的信息，具體如式(7)所示：

(7)

其中，r要遠遠小于m或者n，稱為截斷的奇異值分解(truncated SVD)。

由于高階奇異值分解算法并不能保證得到一個較好的近似張量，但可以作為迭代交替最小二乘法的迭代起點，因此本文先使用高階奇異值分解算法對賬號特征融合后的張量特征進行一次張量分解運算，再將分解后得到的結果作為迭代交替最小二乘法的輸入，并使用迭代交替最小二乘法來完成后續的Tucker分解過程。算法流程如圖2所示。

4 實驗與分析

4.1 數據來源

本文使用Twitter數據作為數據源。將Twitter賬號所發的文本稱為推文。賬號數據和推文數據都是通過Twitter官方提供的API接口采集得到的。通過一些主題關鍵詞從社交媒體中采集了56 283個賬號，并隨機標注2 000個賬號，用于實現新疆賬號和非新疆賬號的二分類任務。其中，標記的賬號中1 000個是新疆賬號，另外1 000個是非新疆賬號。在這2 000個賬號中，訓練集和測試集按照1∶1的比例進行分配。

本文采用準確率和F1值兩個指標來對算法的性能進行評估。準確率是指分類正確的樣例在所有樣本中所占的比例。F1值是為了平衡精確率和召回率的影響，能更直觀全面地看出一個算法的性能好壞。

4.2 實驗結果與分析

4.2.1 核心張量尺寸

當使用截斷的Tucker分解方法時，需要預先設定好核心張量的尺寸。由于在現有方法中沒有確定核心張量的尺寸的標準方法，因此，本文決定使用張量的F-范數來作為衡量張量分解的性能評估指標。F-范數是指所有元素絕對值的平方和，以三階張量為例，給定張量X∈Rl×m×n，則該張量的F-范數表達式如式(8)：

(8)

本文的樣本集F-范數差S計算公式如式(9)所示：

(9)

其中，Xi表示第i個賬號的特征張量，X′i表示第i個賬號的特征張量經張量分解后又還原得到的張量，N表示樣本數。

本文選取了不同大小的幾組核心張量尺寸，結果如表1所示。

表1 張量核心尺寸

表1數據可以表明，本文的分解方法確實有效，通過取前幾個最大的奇異值向量，可以很好地還原原始張量。同時，從表中還可以看出，隨著核心張量的尺寸越接近原始張量，則對應的F-范數差值也越小。為了避免過多的數據丟失，同時也為了減少數據的存儲、降低后續計算的復雜度，本文選擇的核心張量的尺寸為5×10×50。

4.2.2 多模態特征融合方法的有效性

為了證明本文提出的多模態特征融合方法的有效性，本文分別測試了單模態、雙模態以及三模態方法的分類效果。結果如圖3所示。

圖3 多模態分類性能對比圖

其中，NER表示只考慮NER特征作為賬號的特征向量，UU表示只考慮賬號的好友關系作為用戶的特征向量，Hashtag表示只考慮Hashtag特征作為賬號特征的單模態特征向量。NER-Hashtag表示只融合Hashtag和NER兩個模態信息的雙模態特征，Hashtag-UU和UU-NER也是同理。tensor fusion表示將這三種特征向量使用本文的方式進行特征融合得到賬號的三模態特征向量。

從圖3中可以發現，三模態的分類性能最好，其次是雙模態的分類性能，最差的是單模態的分類性能。這個結果是合理的，這是由于社交媒體數據含有多種信息，但社交媒體又不像傳統媒體那么嚴謹，它的信息種類雖然多，但每種信息都具有不完整、模糊等特性，因此，單模態的分類性能較差。通過使用多模態特征融合的方式，可以更好地利用模態之間的相關性與互補性，達到異質互補的效果。因此，融合后的雙模態分類性能要高于單模態的分類性能。隨著融合的模態數量增多，接收到的信息也越來越完整，因此，融合后的三模態分類性能要高于雙模態的分類性能，提高了賬號分類的準確性。這也證明了本文提出的多模態特征融合方法的有效性。

4.2.3 張量融合方法的有效性

為了證明張量融合方法的有效性，本文分別測試了單獨模態、基于拼接融合和基于張量融合方法的分類效果。結果如圖4所示。

圖4 融合分類性能對比圖

其中，UU、NER、Hashtag與4.2.2節表示含義相同；fusion表示將Hashtag、NER、UU三種特征向量橫向拼接成一個大的長向量然后輸入分類器進行分類；tensor fusion表示將這三種特征向量通過張量的方式進行融合得到賬號的特征向量。由圖4可見，融合多信息的分類方法優于單模態。在單模態特征中，基于賬號社交關系的UU特征最好，其次是基于賬號文本信息的Hashtag特征。UU特征表示賬號之間的共同話題，而Hashtag特征則基于賬號發布的文本內容，可能包含多個主題，有時可能過于頻繁，影響分類效果。NER特征在單獨特征中表現最差，因為有未填寫屬性的賬號。此外，基于張量融合的多模態融合方式優于直接拼接特征。這是由于不同特征的維度不同，直接拼接可能導致某些特征主導，忽略其他特征。張量融合充分利用每種信息。為了確保核心張量結構，對核心張量進行不同模式的展開，然后使用投票法提高分類性能，證明了方法的有效性。

5 結論

本文提出了一種基于多模態特征融合的賬號分類算法并給出了模型框架。在多模態特征提取階段，首先對文本進行預處理，然后提取賬號屬性模態、賬號文本模態、賬號社交模態三種模態的特征向量。在多模態特征融合階段，對本文提取的三個模態特征進行基于張量分解的多模態特征融合。接著本文使用機器學習的算法對賬號進行分類，最后通過將本文的方法與傳統方法進行對比，證明了本文方法的有效性。