李社蕾,周 波,楊博雄
(三亞學院信息與智能工程學院 海南 三亞 572022)
文本分類作為新聞過濾、信息檢索、搜索引擎、文本數據庫、數字化圖書館、數據挖掘等領域的技術基礎,是自然語言處理的一個基本問題。其中,文本表示是影響文本分類性能的重要因素之一,在傳統方法中,用手工制作的特征來表示文本,比如稀疏的詞匯特征(例如BoW(Bag of words)(詞袋)模型)。由于傳統文本表示模型的高維度性和高稀疏度等特點,這個階段的研究主要關注于高效的文本表示模型和降低文本表示維度。隨著深度學習的崛起,深度學習開始應用于文本分類問題,目前基于深度學習的文本分類方法已成為主流Kim等在預訓練的詞向量上訓練卷積神經網絡(CNN)用于語句文本分類;Lai等提出了一種無人工特征的循環卷積神經網絡分類方法;2016年Liu等人針對文本多分類任務,提出了基于 RNN 的三種不同的共享信息機制對具有特定任務和文本進行建模;Yang等提出了一種用于文檔分類的層次注意力機制網絡,簡稱 HAN。隨著CNN在圖接結構上的成功泛化,2017年Kipf & Welling提出了圖神經網絡模型(GCN:graph convolutional networks ),將深度神經網絡應用于圖結構數據上,該模型在大量基準圖數據集上獲得了最先進的分類結果; 2019 Yao等提出Text GCN 模型,異構圖結構包括單詞和文檔兩類節點,包括單詞-單詞,單詞-文檔兩類邊,單詞-單詞的權重為PMI值,單詞-文檔的權重為TF-IDF。2019年,Hu等提出了一種靈活的異構信息網絡(HIN)框架來對短文本建模,并在此基礎上,提出一種基于兩級注意力機制的異構圖注意力網絡(HGAT),嵌入異構信息網絡(HIN)進行文本分類。上述基于深度學習的研究中,目標都是學習單詞或文本的有效表示對文本進行分類,上述模型都沒有考慮文本標簽之間依賴性。在統計關系學習中利用用概率圖模型建模標簽的依賴關系,進行半監督節點分類,2019年Yoon等利用圖網絡在概率圖模型中進行推斷。提出GMNN模型,該模型使用了兩種不同的圖神經網絡,一種用于建立標簽相關性模型,另一種用于逼近后驗標簽分布,并且該方法可以用變分EM算法進行有效訓練。本文在GMNN模型的啟發下,將利用馬爾可夫隨機場和圖卷積神經網絡相結合,在文檔和單詞構成的異構圖上進行訓練,模型使用兩種不同的圖卷積神經網絡,分解建立標簽的依賴性和節點特征的相關性,利用變分EM算法在異構圖上進行訓練,TextGMCN模型取得了更優的節點分類性能。
對于圖=(,,),其中為節點集合,||=為文檔數目(語料庫大小)與詞的數目(詞匯表大小)之和。為節點間邊的集合,如果詞出現在文檔中,該文檔和詞之間有邊,兩個詞在語料庫中存在共現關系,則兩個詞之間存在邊,邊的權重由下面公式確定

(1)

TF-IDF(term frequency-inverse document frequency),TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。TF-IDF模型的主要思想是:如果單詞j在一篇文檔中i出現的頻率高,并且在其它文章中很少出現,則認為單詞j具有很好的區分文檔i和其它文檔的能力。TF-IDF定義為
-=,×


將文本數據構造成圖結構之后,文本分類問題可看作基于異構圖結構的半監督節點分類問題,對于圖,設為已標注節點的標簽,?,目標是預測剩余的未標注節點(?)的標簽。
對于上述問題的研究主要有兩種方法:統計關系學習(Statistical Relational Learning,SRL)和圖神經網絡,這兩種方法目的都是根據對象屬性和圖結構對節點的標簽分布進行建模,即(|,)
在這個問題中是固定不變的,為了簡單起見,后面的公式中省略。
GCN采用兩層GCN處理半監督節點分類問題,模型中的層間遞推關系為

(2)

兩層模型定義為:

第二層:

(3)

SRL利用條件隨機場來對圖節點標簽的以來進行建模;圖卷積神經網絡以端到端的方式學習有效的節點表示,從而解決半監督節點的分類問題,但忽略了各個節點的標簽之間的依賴性。GMNN結合CRF和GCN的優勢,既能學習到有效的節點表示,預測未知節點的標簽,又能對節點標簽之間的依賴性進行建模。
GMNN利用CRF以節點特征為條件建模節點標簽的聯合分布為
(|)
其中,是模型參數,目標是是優化這個參數來求已知標簽的最大似然:(|)。由于存在大量的未知標簽,直接最大化對數似然很困難,下面考慮最大化對數似然的證據下界()
(|)=log(,|)-log(|,)
(4)
(|)log(|)



(5)
因為:

所以

(6)


圖1 基于圖馬爾可夫卷積神經網絡的文本分類模型
利用偽極大似然變分算法進行優化。其中:
-: 使用一個來學習節點的特征表示以預測未知節點標簽;
1)方法:固定更新(|)最大化后驗分布(|,)
2)模型:基于平均場理論((|)=∏∈(|))用參數化(|),學習有效的節點嵌入來預測標簽
(|)=(|oftmax(,))
(7)
其中,(|)表示為類別分布,節點嵌入,通過模型學習得到,節點的屬性作為特征,作為參數,即模型的參數為,利用可以通過節點自身的特征和局部連接關系學習有用的節點嵌入來改進推斷結果,另外通過不同節點共享,可以大規模簡少推斷所需的參數數量。
3)目標函數:目標函數如下

(8)
另外,也可以訓練預測標注節點的標簽,因此也可以讓最大化監督目標函數如下
,=∏∈(|)
(9)
這里,為節點的標注標簽,通過式(8)和(9)相加,可以得到所有節點的最優化
=,+,
(10)
-: 使用另一個來建模節點標簽之間的依賴關系。
1)方法:固定,更新最大化似然函數

=(|)∑∈log(|(),)
(11)
其中()為節點的鄰居集合。
2)模型:用另參數化條件分布

(12)
其中,的分布特征是一個分類器,將其作為特征通過模型學習節點嵌入,這里的記為,學習節點嵌入的時候,將所有()的標簽作為節點的特征,因此,本質上建模目標節點的局部依賴關系,基于上述公式,不需要再定義勢函數。
3)目標函數

(13)
由于圖結構為異構圖,一層特征聚合,只能聚合到一階鄰居的特征,即文檔節點只能聚合到與其連接的單詞節點的特征,無法聚合到其它文檔節點的特征;采用兩層模型,在第二層文檔節點可以聚合到與其包含相同單詞的文檔的特征,為了是節點能夠聚合到更大范圍節點特征,本文模型和兩個網絡均采用三層模型,基于圖馬爾可夫卷積神經網絡的文本分類模型如圖1所示。
具體算法如下:
1)以文檔和單詞作為節點,構造異構圖=(,,);
2)模型輸入:異構圖,和標注節點的標簽(,);
3)模型輸出:未知節點的標簽;
4)利用(,)根據式(9)預訓練;
5)-:學習階段

6)-:推斷
令預測的標簽分布為(),根據()和利用式(8)、(9)更新,判斷是否收斂,不收斂則返回步驟5);
7)根據(|)確定未知節點的分類。
下面驗證圖馬爾可夫卷積神經網絡的文本分類模型(Text GMCN)進行半監督文本分類的性能。
6.1.1 數據集
對5個基準文本數據集進行實驗:20NG,R8,R52,Ohsumed和MR。首先對所有數據集進行預處理,按照(Kim 2014)對文本進行清洗并進行標注,然后刪除了NLTK6中定義的停用詞和在20NG,R8,R52及Ohsumed數據集中出現少于5詞的低頻詞。數據集MR因為文檔非常簡短,所有數據集進行預處理之后沒有刪除單詞。預處理數據集的統計信息如表1所示。

表1 數據集統計信息
6.1.2 對比模型
TF-IDF+LR: TF-IDF詞袋(bag-of-words)模型,采用邏輯回歸分類器。
TextCNN: 2014年Kim et al.將CNN用于語句文本分類,CNN-rand隨機生成單詞嵌入。
LSTM: 2016年Liu et al.利用LSTM進行文本分類。
PTE: 2015年Tang et al.提出了預測文本嵌入(PTE)模型,(在異構圖由三個二分圖組成,包括單詞-單詞,單詞-文檔和單詞-標簽等二分圖。)首先單詞、文檔和標簽三類節點構成的異構文本網絡上學習單詞嵌入,然后將單詞嵌入均值作為文檔嵌入進行文本分類。
TextGCN: 2019年Yao et al.提出Text GCN 模型,異構圖結構包括單詞和文檔兩類節點,包括單詞-單詞,單詞-文檔兩類邊,單詞-單詞的權重為PMI值,單詞-文檔的權重為TF-IDF。
WC+GCN:2020年提出了申艷光等提出了WC+GCN模型,該模型基于詞的共現關系,利用引入注意力機制的圖卷積神經網絡模型進行了半監督文本分類。
6.1.3 參數設置
本模型設置層數為3,根據已有研究,第一隱藏層的維度為200,第二層隱藏層的維度為100,設置學習率為0.02,為了防止過擬合,取Dropout rate=0.5,并設置了Earlystopping,保證正確率當在驗證集上面開始下降的時候中斷訓練。
本實驗的硬件環境為:64位Win10 系統,處理器為:intel? Core(TM) i7-9700k CPU @3.60GHz,內存為:16GB,顯卡為:NVIDIA 2070。軟件環境為:Python3.7結合Pytorch深度學習框架。
本文選擇準確率作為性能評價指標,為了防止模型運行的隨機錯誤,每個模型均運行10次取平均值,結果如表2所示。

表2 不同模型在五個基準數據集上的準確率,[*]意味著結果來自于對應的論文
實驗結果表明,本模型20NG、R8 和 R52 的分類性能均優于其它方法,在數據集Ohsumed和MR上性能TextGCN相近。
本文利用兩個圖卷積神經網絡,利用節點標簽的依賴性,更有效地訓練節點的特征表示,提出了一種基于圖馬爾可夫卷積神經網絡的半監督文本分類方法——TextGMCN。將語料庫構建成有文檔-單詞作為節點的異構網絡,從而將文本分類問題,轉化為文檔節點的半監督分類問題。TextGMCN利用變分EM算法進行訓練,學習有效的特征表示,對文檔節點進行分類。實驗表明,在E-step使用兩層GMCN,在M-step使用三層GMCN網絡結構在五個基準文本數據集中的 20NG、R8 和 R52 的分類性能均優于TF-IDF+LR、SVM、TextCNN、PTE、WC-GCN、TextGCN等分類方法。