馬儀 邵玉斌 杜慶治 龍華 馬迪南



摘要: 多領域文本分類存在領域差異和詞匯差異,導致分類的準確性和泛化性低,傳統方法無法取得很好的效果. 針對上述問題,本文提出基于變分信息瓶頸多任務算法的多領域文本分類方法,將任務建模為從綜合特征中提取任務專屬特征的分層學習表示問題. 首先基于信息瓶頸原理,將綜合特征和任務專屬特征之間存在的冗余信息建模為均值為零,方差為對角矩陣的加性噪聲,通過重參數化方法讓噪聲參與模型訓練;其次通過信息瓶頸的變分邊界構建模型損失函數以限制模型的信息流動,從而將帶有加性噪聲的綜合特征解耦為任務專屬特征;最后通過解碼器中的分類器處理任務專屬特征得到文本分類結果. 實驗表明,該模型在FDU-MTL 多領域文本分類數據集上的平均分類準確率達到92. 17%,較多個對比模型有明顯提升,且該模型具有更好的可解釋性.
關鍵詞: 信息瓶頸; 多任務模型; 多領域; 變分邊界; 可解釋性
中圖分類號: TP393 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032004
1 引言
多領域文本分類訓練數據的多樣性一定程度上能緩解標簽資源不足問題[1-3],更貼近現實場景. 但它存在兩個主要問題:首先,由于數據的稀疏性,導致部分領域標簽資源缺乏或沒有標簽,嚴重影響模型泛化[4,5];其次,不同領域的文本數據存在領域差異和詞匯差異,包括語言表達方式、領域專有的術語和詞匯、文本主題等[1,4-6]. 如多領域情感分類中,許多詞有多種定義,兩個句子中相同的單詞可以表達不同的含義,即使是只有一個定義的單詞,也可以根據上下文表達不同的情感. 如,“容易”或“預期”可以在嬰兒產品評論中傳遞積極情緒,而在電影或書評中傳達的是負面情緒.這些問題導致多領域文本分類的準確性和泛化性難以提升.
目前構建多領域文本分類模型時,域適應[7]、對抗性學習[3,5,8]、共享私有范式[3,9]和熵最小化技術[10]是優化模型的主要方向. 域適應將數據分為源域和目標域,利用源域豐富的訓練數據學到的特征對另一個資源較低的目標領域進行分類,然而域適應的方法難以訓練一個或多個域的有效分類器,并且有些域沒有標記數據,難以提升模型泛化性. 對抗性學習通過減少領域之間的數據分布差異進行特征對齊,并學習領域不變特征來提高模型的泛化性.但域間文本數據分布差異很大,目前的方法不能保證域完全對齊[3,5,8],導致預測時模型不能區分不同的領域,難以提升預測準確性. 共享私有范式包含共享特征提取器和領域特征提取器,然后通過兩類特征提取器的結合來提升模型的準確性. 其中,共享特征提取器構建共享的潛在空間來學習領域不變特征,領域特征提取器提取領域特定特征. 但現有方法不能很好地平衡兩類特征提取器的權重[3,9].共享特征提取器過于側重域間的相似性,忽略域間的差異性;而領域特定特征提取器則過度關注單一領域,忽略通用特征,導致模型將不同類別的樣本錯誤地匹配在一起,影響模型整體性能. 熵最小化技術用于正則化多領域文本分類模型,降低模型對未標記數據預測的不確定性. 但未加約束的熵最小化技術使模型在未標記數據上的表現過于自信,錯誤地確定某些樣本的標簽,將未標記數據中相似但不同的樣本歸為同一類別,導致模型的準確性下降[10].
本文提出了一種基于變分信息瓶頸多任務算法的多領域文本分類方法(Variational InformationBottleneck and Multi-Task Multi-Domain Text ClassificationMethod,VIBM)來緩解上面的問題.VIBM 通過構建多任務網絡的同時實現領域分類和文本分類任務. VIBM 為編碼器、信息瓶頸和包含多個任務分類器的解碼器的分層結構. 基于信息瓶頸降低輸入數據的復雜性,同時保留任務所需的最重要信息的思想,將問題重構為:從編碼器提取的綜合特征中獲取輸入到解碼器的任務專屬特征的分層學習表示問題,將綜合特征與任務專屬特征之間的冗余信息視為加性噪聲. 噪聲的構建與信息瓶頸的優化目標有關,通過理論推導提高了模型的解釋性. 具體來說,首先使用BiGRU 和CNN 構建編碼器來提取文本的全局和局部特征,融合全局和局部特征得到綜合特征;其次信息瓶頸網絡對綜合特征進行壓縮,以降低數據復雜度,壓縮后的綜合特征添加一個均值為零、協方差矩陣為對角矩陣的高斯噪聲進行重參數化,得到不同任務的專屬特征,使噪聲的方差可以參與訓練;最后將任務的專屬特征傳入解碼器中得到最終的分類結果,將信息瓶頸的優化目標的變分邊界表示擴展到多任務網絡中得到變分損失函數,利用變分損失函數更新網絡參數和訓練噪聲來解開綜合特征的糾纏,獲得最佳的專屬特征. 該模型不需要任務之間具有相關性[11],VIBM 的編碼器的設計能提取出更豐富的特征,多任務網絡的結構能更好地利用域間數據的差異性和相似性,提高數據的利用效率,利用信息瓶頸網絡得到任務專屬特征避免共享私有范式下的特征權衡問題,并且通過最小化信息瓶頸約束下的變分損失提高了模型泛化到未標記數據領域的能力[12].實驗結果表明,該方法能夠有效提升多領域文本分類任務的準確性和泛化性,且更具有可解釋性.
2 相關工作
2. 1 信息瓶頸
信息瓶頸原理是信息論率失真理論的拓展,其基本思想是僅保留對于任務最重要的信息,并最大限度地壓縮輸入數據的復雜性,以實現學習的最有效性[13-15]. Alemi 等[16]提出了一種信息瓶頸的變分近似,應用在深度學習模型中提高其泛化性和魯棒性. 自然語言處理中變分信息瓶頸用來實現快速非線性壓縮詞嵌入,讓標簽序列在相同的標簽粒度級別上被更準確地解析[17]. West 等人[18]引入信息瓶頸層,使模型能夠壓縮輸入的原始句子信息的同時又能夠保留與句子中最重要的信息相關的部分來實現無監督文本摘要. Mahabadi 等人[19]使用變分信息瓶頸來對大規模語言模型的微調,改進低資源場景大規模語言學習模型的效果,在文本分類等任務上取得較好的效果. Chen 等人[20]提出變分詞掩碼方法使用信息瓶頸對詞嵌入進行約束,自動學習任務專屬的重要詞,提高了文本分類模型的可解釋性.