馬 甜 張國梁 郭曉軍
(西藏民族大學信息工程學院,陜西 咸陽 712082)
近年來,在深度學習的推動下,作為人工智能的一個重要分支的自然語言處理(NLP)發展迅速。深度神經網絡,如循環神經網絡(RNN)和卷積神經網絡(CNN),已在語義理解、語音識別和機器翻譯等方面展示出卓越性能,但同時也面臨著對抗樣本和毒化攻擊等安全風險。因此,深入分析NLP模型的攻防機制至關重要。
在NLP的文本表示領域,深度學習的應用集中于開發高效算法實現詞匯嵌入和語義表示。Word2Vec[1]和GloVe[2]通過神經網絡將詞匯轉換為密集向量表示,廣泛應用于信息檢索、推薦系統和文本分類。2018年,Devlin等[3]在BERT模型中引入了基于Transformer的先進技術,通過未標記文本上的預訓練,學習雙向編碼器表示,如圖1所示。自動化組合性檢測的關注增加,幫助理解短語語義的組合性。這些發展表明,深度學習在文本表示上的應用,為NLP的多個方面提供了強有力的支持和推動。

圖1 Transformer模型架構
近年來,在NLP的語序建模領域的研究進展顯著。2018年,Devlin等[3]提出的BERT模型,利用深度雙向轉換器和預訓練機制,顯著提升了各種NLP任務的性能,改變了語序建模的方法。2019年,Yang等[4]推出的Transformer-XL模型,突破了處理長序列數據時的固定長度上下文限制,提高了模型對長期依賴關系的學習能力。此外,2013年,Graves等[5]的研究顯示了循環神經網絡及其變體,如長短期記憶網絡(LSTM)和門控循環單元(GRU)在序列建模中的強大潛力,特別是在語音識別等序列預測任務的應用。這些發展表明,深度學習模型在捕捉序列數據的時間依賴性方面具有獨特優勢。2016年,Goodfellow等[6]在《深度學習》一書中全面討論了序列建模,包括從基礎的RNN到更復雜的結構如LSTM和GRU的應用。2016年,Goldberg[7]的教程為初學者提供了序列建模技術的基礎解釋。
在NLP中,知識表示是理解和生成自然語言的關鍵組成部分。1997年,Ali等[8]提出了一種實現系統中非平凡知識表示和推理(KRR)的NLP系統的最新狀態,如圖2所示,NLP的知識表示在理解和生成自然語言中發揮著核心作用。圖中明確了不同的NLP子領域之間的關聯,包括基本任務、進階技術和NLP+的跨學科應用。知識表示學習不僅支持基礎的語言處理任務,如詞性標注和句法分析,還對高級任務如情感分析和話題建模至關重要。此外,圖中還展示了知識表示如何與其他領域相結合,為機器翻譯和對話系統等NLP+應用提供支持。他們強調了傳統KRR技術的全面實施以及為滿足NLP需求而開發的新的知識相關處理機制的重要性。IEEE Xplore的綜述和相關文章強調了知識表示學習在NLP中的應用,展示了它在理解復雜查詢和提高機器處理自然語言能力方面的作用。SpringerLink的研究突出了利用文本數據中的知識結構來改善語言模型的方法。此外,研究還討論了知識表示學習,特別是在詞匯層面上的影響,表明知識表示是NLP研究中一個多樣化且持續發展的領域,對于增強機器理解自然語言的能力極為重要。

圖2 NLP關系圖

圖3 對抗性文本樣本生成與攻擊流程圖
在NLP領域,文本生成任務面臨的攻擊技術是當前研究的熱點。2022年,arXiv的一篇研究介紹了一種基于提示的對抗性示例生成方法,指出預訓練的語言模型(PLMs)可以通過示例學習來生成對抗性文本,旨在提高攻擊的成功率并增強模型的魯棒性。2020年,在ACL Anthology發表的另一項研究中,Hao[9]等提出了T3方法,這是一種樹形遞歸神經網絡約束的對抗性文本生成技術,專門用于針對性攻擊,通過改變文本結構的關鍵信息來欺騙模型,同時保持語法和句法的準確性。這些研究表明,通過對預訓練模型的微調,可以制造出看似正常但具有欺騙性的文本,使模型作出錯誤的判斷。這些發現對NLP社區至關重要,因為它們揭示了即使是先進的語言處理系統也存在脆弱性,需要更多研究來增強其抵御對抗性攻擊的能力。
在NLP的文本分類領域,對抗性攻擊技術的發展正挑戰著模型的魯棒性。2021年,Song等提出了一種通用對抗性攻擊方法,通過對抗性觸發詞誤導分類器,即使在未知輸入的情況下也能成功。2020年,Morris等[10]開發的TextAttack框架為對抗性攻擊提供了一個模型無關的平臺,同時也支持數據增強和對抗性訓練。2017年,Ebrahimi等[11]介紹了基于梯度的HotFlip攻擊,利用對抗性梯度翻轉關鍵詞以制造攻擊。2019年,Pruthi等[12]探討了通過微小字符級擾動誤導分類器的技術,這種攻擊對人類來說難以察覺,但對分類器卻有效。同年,Zuo等[13]研究了基于粒子群優化生成對抗性樣本的方法,針對深度神經網絡模型提供了新的攻擊策略。此外,Ren等[14]檢驗了通過單詞交換操縱詞級特征的攻擊,揭示了模型在理解語義方面的漏洞。這些研究不僅展示了文本分類任務中對抗性攻擊的多樣性和復雜性,還凸顯了保護NLP應用免受惡意攻擊的重要性,推動了防御策略研究的發展。
在語義解析任務中,多樣且復雜的攻擊技術正利用解析器漏洞產生誤導性結果。2021年的研究顯示,使用橋接語言進行反向翻譯能產生保持原意的擾動,這可能影響解析器的魯棒性。2022年的研究進一步提出,通過自訓練和釋義增強,即使在數據有限的情況下也能訓練出自然化的語義解析器,這對低資源環境下的性能提升至關重要。AllenNLP框架為構建序列到序列的語義解析模型提供了重要工具,有助于保護系統免受攻擊。同時,改進VerbNet的語義表示法,采用生成詞匯的子事件結構理論,為語義解析任務提供了更豐富的語義表示。這些研究強調了在設計和改進語義解析系統時考慮抵御對抗性攻擊的重要性,以及增強語義表示和數據多樣性的必要性。
在文本生成任務中,防御技術的發展旨在提高模型對對抗性攻擊的抵抗力。根據最新的研究,文本向量化是增強模型安全性的基礎步驟,它包括基于詞頻的編碼、獨熱編碼和神經上下文編碼等方法,這些編碼方式對抗對手攻擊的性能至關重要。此外,控制文本生成中的情感也是一個重要的防御策略,這可以防止生成不正確或不恰當的內容。針對GPT和BERT這樣的預訓練語言模型,通過改進訓練方法和微調已經取得了顯著進展,這些模型正在不斷提高其防御對抗性攻擊的能力。圖4展示了BERT模型處理單個句子的一個示例。在這個過程中,文本首先被分解為tokens,然后轉換為token IDs,這是模型能夠理解和處理的數字表示。接著,生成一個mask,標識出哪些token是重要的,以及一個segment標記,用于區分不同的句子。這個過程是文本向量化的一個例子,是文本生成模型防御對抗性攻擊的基礎步驟之一。通過對模型的輸入進行精細化處理,我們可以提高模型的安全性和魯棒性,確保生成的文本既準確又合適。

圖4 BERT輸入單個句子的示例
綜上所述,通過多層防御策略的應用和不斷的技術創新,文本生成模型正在變得更加穩固,能夠有效地對抗惡意攻擊并保證生成文本的可靠性。
在文本分類任務的防御技術方面,研究者提出了多種方法來提升模型的魯棒性。2023年,TextGuard的開發者提出了一種針對文本分類中后門攻擊的可證明防御策略,這是在該領域的一個重要創新。該策略通過對訓練數據進行分割,達到了有效的防御效果。此外,研究分類了后門防御方法,包括基于數據和模型級別的策略。例如,魯棒訓練調整模型容量和訓練周期,使分類器專注于主要特征,忽略次要特征。預訓練模型如ELMo、Transformer和GPT也支持文本分類的防御,ELMo處理復雜語義,而Transformer基于注意力機制提高效果。這些進展顯示,文本分類防御技術正變得更復雜和多元化,從基本防御到利用深度學習模型增強魯棒性。
在語義解析任務的防御技術方面,近期的研究展示了多種創新方法。2023年,Drozdov[15]介紹了使用大型語言模型的動態最少提示技術,允許在實際自然語言任務中最小化提示,通過語言模型句法解析的分解和示例選擇生成解決方案。2021年,Arash Einolghozati[16]提出了基于神經語言模型重排解析結果的方法,顯著提升了解析準確率。此外,研究還提出了遞歸插入式編碼器(RINE)用于任務導向對話的語義解析,使用預訓練的RoBERTa模型生成線性化的語義解析樹。這些進展表明,語義解析的防御技術正朝著利用高級深度學習模型和復雜解碼策略的方向發展,以增強解析的準確性和魯棒性。
文本分類是自然語言處理的核心任務之一,目的是將文本自動分類到預定義的類別中。隨著深度學習技術的應用,雖然基于神經網絡的文本分類器性能有所提升,但它們也面臨著對抗攻擊的威脅。為了應對這一挑戰,集成對抗訓練(Ensemble Adversarial Training)技術出現了。這種技術通過結合多個獨立的子分類器(如BiLSTM、BiGRU等循環神經網絡)的預測,并在訓練中加入對抗樣本來提高模型的魯棒性。通過計算子分類器輸出的概率分布,模型能夠更準確地判斷預測類別。實驗結果表明,使用該技術可以提升分類準確率3%~5%和提升F1值超過2%,從而增強模型對對抗噪聲的適應能力。為評估集成對抗訓練技術的效果,實驗使用了AGNews數據集,包含120 000條訓練樣本和7 600條測試樣本,涵蓋4種新聞標題類別。實驗構建了TextCNN、TextRNN、TextRCNN等子分類器,并建立集成模型,通過計算子模型分類結果的加權平均得出最終輸出。同時,利用20%的訓練樣本生成FGSM、PGD等對抗文本,以此加入模型訓練中,旨在提升分類性能和抵御對抗攻擊。主要觀測指標有分類準確率、F1值,并與單一模型結果進行比較。實驗重復5輪,結果取平均值,數據如表1所示。

表1 實驗結果比較
結果顯示,集成對抗訓練整體提升了分類效果,并增強了對抗攻擊的適應能力。后續將測試不同組合的子模型效果。要全面評估集成對抗訓練技術的防御效果,從多個角度比較了關鍵性能指標。首先,直接比較集成模型和單一基準模型(如TextCNN)在原始測試集上的表現。評估分類的準確率和F1值,前者反映分類正確的樣本比例,后者反映綜合精度和召回率。這里Ensemble模型在兩個指標上都有一定提升。
其次,在測試集同時加入對抗樣本,比較模型的抗干擾能力。例如,FGSM和PGD生成的對抗文本一定程度破壞了TextCNN模型的判斷,而Ensemble則損失更少。這驗證了集成機制和對抗訓練增強了魯棒性。重復實驗訓練多個子模型組合,分析準確率和時間成本的權衡關系。結果顯示,加入更多分類器準確度更高,但訓練時間也增加。因此實踐中需平衡。

圖4 模型對比圖
通過實驗驗證,與單一模型相比,集成對抗訓練技術更高效穩健地完成文本分類任務。首先,模型顯示集成學習的效果。Ensemble模型整合多個分類器判斷,在原始測試集上的分類效果優于TextCNN等單模型,準確率和F1值均分別提升1.5個百分點。其次,模型表現出更強的抗干擾能力。當測試集中加入對抗樣本時從數據來看,TextCNN模型在對抗樣本上的準確率從96.3%下降到92.1%,下降了4.2個百分點。而Ensemble模型從97.8%下降到94.5%,下降了3.3個百分點。這表明,盡管Ensemble模型的整體準確率更高,但在面對對抗樣本時,其性能下降幅度相對更小,顯示出更好的魯棒性。
另外,通過集成不同數量和組合的子分類器,Ensemble模型的準確率可以進一步提升到98.5%,這超過了單一模型的性能上限。但這種性能提升伴隨著計算成本的增加,這在實際應用中需要進行權衡。所以,權衡分類效果與效率因素,集成對抗訓練框架可以生成更優、更穩定的文本分類模型,為自然語言處理任務提供安全保障,值得推廣應用。后續研究可繼續優化防御機制的性價比,以適應實際場景需求。
本文全面深入地探討了深度學習在自然語言處理(NLP)領域的關鍵應用,重點分析了文本表示、語序建模和知識表示這三大核心任務。在這些領域中,如BERT等典型模型展現了前所未有的性能和效果,標志著深度學習技術在理解和處理復雜語言結構方面的顯著進步。文章進一步探討了文本生成、分類和語義解析任務中面臨的對抗攻擊問題,深入剖析了NLP模型的潛在安全漏洞。這些挑戰不僅凸顯了現有模型的脆弱性,也為未來的研究方向提供了重要的指引。為應對這些挑戰,文章介紹了一系列防御策略和技術,包括向量化和魯棒訓練,特別是通過實證研究驗證了集成對抗訓練技術的有效性。這種技術通過結合多個獨立的子分類器,提高了模型面對復雜攻擊時的魯棒性,從而增強了模型的整體性能和可靠性。這一發現不僅為NLP領域的研究者提供了新的工具和方法,也為實際應用中的安全性和有效性提供了有力的保障。
展望未來,本文的研究將繼續關注NLP領域的最新進展和挑戰,旨在為讀者提供及時和創新的綜述視角。這不僅有助于推動該領域的研究前沿,還將為利用深度學習技術解決現實世界中的復雜語言處理問題提供理論支持和實際指導。隨著技術的不斷發展,預計會有更多創新的模型和方法出現,進一步推動自然語言處理技術的邊界,為人工智能的發展做出更大的貢獻。