尹 華,盧懿亮,季躍蕾,吳梓浩,彭亞男
(1. 廣東財經大學 信息學院,廣東 廣州 510320;2. 廣東省智能商務工程技術研究中心,廣東 廣州 510320;3. 廣州商學院 現代信息產業學院,廣東 廣州 511363)
語義分析是自然語言處理領域亟待突破的瓶頸,精準把握自然語言語義需要準確且完備的語義表示方法。語義表示的目標是將人類理解的自然語言以一種語義等價的形式轉化為計算機能夠理解的表示,以獲得更好的計算性。根據文本劃分粒度,語義分析可以從詞匯、句子和篇章三個層級展開,其中句子級語義分析通過句子中的句法信息和詞語含義,推導出反映該句含義的某種形式表示[1]。語義角色標注(Semantic Role Labeling,SRL)[2]是研究句子級語義問題的一種簡單直接的方法。SRL的理論基礎來源于Filmore提出的格語法[3],以句子的謂詞為中心,分析句子的謂詞-論元結構,即句子中各成分與謂詞之間的關系,用語義角色來描述它們之間的關系。SRL的表示方法不針對整句進行詳細語義分析,忽視句子中的其他修飾信息,導致語義信息缺失,是一種淺層語義分析方法。為了盡可能完整地保留語義信息,需要對句子進行深層分析。語義依存分析方法(Semantic Dependency Parsing,SDP)[4]分析句子各個語言單位之間的語義關聯,并將語義關聯以依存結構呈現,是一種深層語義理解的表示方式。除此之外還有一些具有代表性的語義表示方式,例如,組合范疇文法(Combinatory Categorial Grammar,CCG)[5]和抽象語義表示(Abstract Meaning Representation,AMR)[6]。CCG的語義不依賴于語義詞典,一般被認為是一種特定領域的語義表示方法[1]。Banarescu等提出的AMR則是一種領域無關的通用語義形式化表示,一定程度上緩解了跨領域整句標注的開銷問題,并補充了整句層面的語義表示。AMR目前已經被有效應用在機器翻譯[7]、文本摘要[8]、信息抽取[9]、對話系統[10]等場景。
2013年,美國賓夕法尼亞大學的語言數據聯盟(Linguistic Data Consortium,LDC)、南加州大學、科羅拉多大學等科研機構的多名學者共同提出AMR定義、AMR標注規范體系以及英文《小王子》AMR標注語料庫。AMR將句子抽象成由語義概念節點和語義關系標簽弧構成的有向無環圖,以此消除句法特質,并從句法事實中捕捉句子的核心語義。其在原有淺層語義分析(如SRL)的基礎上,進一步以圖的形式表征較為復雜的多謂詞支配單名詞的論元共享現象,并且支持對概念節點進行增刪改操作,以補充隱含語義信息,進而能夠完整且無損地表示深層句子語義。2014年,Flanigan等人[11]率先提出解析器JAMR。其后,有關AMR的相關研究引起了國內外學者的關注。圍繞AMR標注、AMR解析、AMR生成以及AMR應用的研究相繼展開。
我們采用CiteSpace對CNKI、Web of Science和 SCOPUS數據庫中自2013年至2023年的文獻統計發現,AMR研究主體呈現增長趨勢,如圖1所示。

圖1 AMR研究趨勢圖
通過設置時間切片為1,節點類型為“Institution”“Author”,選擇研究AMR的英文文獻,得到研究作者-機構共現圖,共245個節點、551條邊,網絡密度為0.018 4,如圖2所示。相關研究成果數量較為豐富, 其中以Brandeis大學和IBM Research等研究機構為主導。

圖2 AMR英文文獻作者-機構共現圖
同時,選擇研究AMR的中文文獻,得到研究作者-機構共現圖,共91個節點,201條邊,網絡密度為0. 049 1,如圖3所示。

圖3 AMR中文文獻作者-機構共現圖
聚焦于AMR研究領域的國內代表性研究機構有南京師范大學和蘇州大學等,但是國內研究成果數量相對國外較少,尚有較大的發展空間。從AMR研究內容體量看,大部分集中于AMR解析,如圖4所示,因此本文主要聚焦于AMR解析方法的研究。

圖4 AMR相關研究類別文獻統計柱狀圖
2017年,曲維光等[12]從AMR概念與規范、解析算法和相關應用的視角對AMR研究成果做了系統性的梳理。而由于時效性因素,亟需深入分析近年來涌現的AMR解析方法。本文梳理了自2013年至2023年以來有關AMR的國內外研究文獻,首先闡述作為AMR研究基礎的語料庫研究現狀與進展;然后從解析的角度分析研究中的難點問題;再根據AMR解析策略,將AMR解析算法分為四類: 基于圖的、基于轉移的、基于序列到序列(Seq2Seq)的和基于形式化的解析方法,并揭示了算法背后的核心思想及其面臨的挑戰。最后,對現有經典AMR解析算法性能進行歸納整理和比較,進一步展望AMR解析任務未來的研究方向。
AMR圖是一個單根有向無環圖。節點表示語義概念,由句子中的實詞抽象獲得。邊為帶有語義關系標簽的有向弧,由實詞之間的關系抽象獲得。Banarescu等[6]提出AMR時建立了統一的標注規范,涵蓋約一百種概念關系及其逆關系。此外,每一種關系都可以具象化為概念節點[12],并基于該規范開發了英文《小王子》AMR標注語料庫。
AMR標注體系和公開語料庫的維護由LDC負責,該組織相繼發布了LDC2017T10(AMR 2.0)、LDC2020T02(AMR 3.0)等語料庫。AMR 3.0擴充了AMR 2.0的規模,共包含來自新聞、廣播、論壇、網絡文本等59 255條自然語言文本的語義樹庫。表1為常用AMR語料庫信息,均可從LDC(1)https://www.ldc.upenn.edu/獲取。

表1 AMR語料庫
由于英文中的虛詞相對實詞而言意義不大,為了簡化并加速標注流程,英文AMR的標注規范忽略了冠詞、虛詞、時態、單復數等語言現象。以句子“The boy wants to drink water.”為例,該句的AMR圖及序列化表示如圖5所示。解析過程中,首先對句子中概念進行實例化操作并生成對應的概念節點“boy”“want-01”“drink-01”“water”,分別根據單詞的首字母對概念節點命名(如“boy”對應“b”)。當謂詞存在不同義項時,可能會導致論元與謂詞的語義關系不明確。因此,AMR圖中標注有謂詞的義項信息,如謂詞“drink”被標注為“drink-01”,這表示采用“drink”的第一個義項。AMR圖中有向弧標注“:ARG0”“:ARG1”分別代表了概念關系“施事對象”與“受事對象”,例如,根節點“want-01”和“boy”之間的有向弧標注“:ARG0”表示了“boy”為“want”的施事對象,而同理“drink”為“want”的“受事對象”。

圖5 英文句子“The boy wants to drink water.”的AMR圖表示形式及其序列化表示形式
英文的特性并不適應于所有語種,不同語種引入AMR標注規范的過程可能會有所差異。近年來,AMR對非英文語種的研究陸續開展。根據語言的不同特點,研究者們分別建立了西班牙語[13]、韓語[14]、土耳其語[15]和巴西葡萄牙語[16]的AMR標注規范及標注語料庫。
南京師范大學的李斌等[17]借鑒英文AMR的標注框架和理論,率先設計了中文AMR標注規范,并標注了對標英文《小王子》的中文《小王子》AMR標注語料庫。隨后,進一步針對漢語特性,在虛詞表示、概念關系對齊和特殊語法現象等方面改進。一方面由于在漢語中虛詞對連接上下文有較大的作用,一定程度上表征了上下文語義信息,故而其保留了虛詞并進行標注;另一方面,英文AMR缺少概念對齊信息,這為AMR自動解析帶來了不便,故而其通過在中文AMR標注中引入編號,實現了概念對齊信息的融合,構建了中文AMR標注體系[18]。
2019年,南京師范大學聯合布蘭迪斯大學基于中文謂詞庫(CPB)的謂詞框架詞典對中文賓州樹庫(Chinese Penn TreeBank 8.0,CTB)中的博客、論壇等文本標注,構建了首個較大規模的中文AMR標注語料庫CAMR 1.0,并于2021年在CAMR 1.0的基礎上進一步標注CTB 8.0中新聞網絡等文本,發布了CAMR 2.0。
AMR標注規范和語料庫為AMR解析、生成和應用等各項任務奠定了數據基礎。AMR解析器性能強依賴于概念和關系的正確識別,需要完善的AMR概念關系集合和一定規模的多領域語料庫?,F有的AMR語料庫一方面在規模上相對有限,難以滿足主流的數據驅動的語言模型;另一方面所涉及領域有限,例如,在法律[19]、醫療[20]等特定領域中語料庫的構建基本空缺。由于難以捕捉特定領域專用術語的概念和關系,導致AMR在跨領域下的解析性能相差較大。
AMR解析器將自然語言句子無損且準確地轉換為AMR圖的形式化表征。根據解析模型和解析策略的區別,曲維光等在2017年的綜述[12]中將AMR解析算法分為四類: 基于圖的方法、基于轉移方法、基于組合范疇語法的解析方法和基于機器翻譯的解析方法。隨后,吳泰中等進一步從中英文AMR解析角度簡述AMR解析的研究脈絡[21]。對于英文AMR解析方法,根據特征提取方法的不同,將2017年綜述中涉及的四種方法歸類為人工提取特征的基于統計的模型,并將自動提取特征的基于神經網絡的AMR解析模型分為組合特征提取模型、基于循環神經網絡的特征提取模型和基于卷積神經網絡的特征提取模型。由于該文側重基于轉移的解析方法創新,所以僅簡單呈現英文AMR解析的研究進展,并探討基于轉移的中文AMR解析方法。無論哪一種AMR解析器,將句子轉化為圖的表示過程對于AMR解析任務來說是統一的,均涉及圖中節點和邊的獲取任務。同時,AMR圖中的節點和邊是一種概念抽象,必然涉及將句子中的文本實例與生成的概念/關系對齊的任務。因此,本文認為AMR解析面臨以下三個關鍵難點問題。
(1) 如何準確地抽取文本中的概念以及概念關系?文本中的單詞是概念的具體實例,從實例中抽取抽象概念表示及概念關系表示,涉及傳統自然語言任務,既可以分步設計,也可以采用端到端的方式獲得。概念抽取的精度和粒度決定了解析效果。
(2) 如何捕捉AMR與對應文本之間復雜的對齊關系?自然語言表達的靈活性(主動、被動表示,英文時態等)增加了對齊任務的復雜度,圖6中consider-01這個概念節點在不同句子中所對齊的文本片段可能是不相同的。另外,由于圖結構數據的節點可重入性質,文本片段和圖中節點的對齊并不是簡單的唯一對應關系。所以,捕捉隱式對齊關系是AMR解析任務的一大挑戰。

圖6 對齊示例
(3) 如何建模并融合文本的結構信息用以指導AMR解析?文本的結構信息包括但不限于句法結構、語義角色標注、AMR本身的圖結構等。這些結構信息獲取雖然源自不同的研究視角,但是從形式和語義上存在著相通之處,相關早期任務也證明了依存句法結構信息有益于AMR解析任務[22-23]。如何有效地利用這些輔助信息,從多維度的特征中抽象出文本的準確語義,是AMR解析任務面臨的一大難題。
為了AMR研究的傳承性,我們綜合考慮了文獻[12,24]的劃分思路,再結合AMR進展,按照解析模型本質以及問題驅動的方法,詳細分析AMR解析算法研究脈絡。由于中文具有與英文不同的語言特性,英文AMR解析算法不能直接應用于中文AMR解析,且中文AMR解析方法研究起步較晚,文獻數量較少。因此,我們將中文AMR解析方法的研究單獨分為一個類別。
最早提出的JAMR[11]解析器將解析任務建模為圖搜索問題: 從由概念關系集合所構成的有向完全圖中搜索符合約束的最大生成連通子圖。該解析器提供了一種串聯式的兩階段通用解析框架: 第一階段進行概念識別獲得概念圖片段序列;第二階段進行關系識別,在滿足局部性、簡易性、連通性和確定性的約束下,以Smatch得分最高為優化目標,利用帶標記的有向弧鏈接概念圖片段獲得AMR圖,其核心解析思路如圖7所示。JAMR為了訓練解析器,根據啟發式規則,利用基于貪心策略的搜索過程實現句子與AMR圖的對齊,建立了自動對齊器。

圖7 JAMR核心解析思路
JAMR采用串聯式(也稱管道式)方式進行概念和關系識別,解析效果高度依賴于概念識別的準確性以及概念識別與關系識別之間的獨立性。事實上,概念與關系之間具有強耦合特性,當時的概念識別方法并不能達到理想的準確率。為緩解串聯式模型存在的誤差傳播問題,Zhou等人[25]提出一種增量式聯合模型同步執行概念識別和關系識別這兩個子任務,即將句子直接映射到AMR圖,通過定義概念識別和關系識別的聯合解碼目標函數,設計搜索概念片段各連通分量之間的最優邊集,實現增量式的關系識別。
由于句子中單詞與AMR圖的對齊并不是顯式存在于數據標注中,針對這一問題,Lyu等人[26]考慮到概念、關系和對齊之間的緊密聯系,對三者進行聯合建模,將AMR解析聯合概率模型定義為:
模型包含三個部分: 概念識別模塊Pθ(c|a,w)、關系識別模塊Pφ(R|a,w,c)以及對齊模塊Qψ(a|c,R,w),其中,θ,φ,ψ均為模型中的參數。w是長度為n的句子,W=(w1,…,wn),wk∈V,k∈{1,…,n},其中V為詞表;c是個數為m的概念序列c=(c1,…,cm),ci∈C,i∈{1,…,m},其中,C是概念集合;a是對齊序列a={a1,…,am}ai∈{1,…,n}表示第ai個單詞對齊第i個概念。R為關系集合。
該聯合概率模型將對齊信息視為隱變量,再用神經網絡模型求解。由于難以使用深度學習方法求解離散隱變量,他們引入Gumbel-Sinkhorn架構[27]連續松弛化對齊問題,并基于變分自動編碼(Variational Auto-Encoder,VAE)[28]架構使其得以采用計算可行的近似化方法對上述聯合概率模型進行估算,最終取得了可觀的解析性能提升。在該聯合模型的基礎上,Lyu等人[29]進一步發現,在訓練對齊器前對概念子圖的分割任務嚴重依賴現有規則定義,難以適配其他語種語料的分割規則,于是提出對圖分割任務進行學習。他們將分割任務和對齊任務建模為一個“節點生成順序選擇”問題并將其作為VAE架構中的隱變量進行處理,最終達到了與基于人工分割規則的方法相當的性能表現。
Zhang等人[30]從圖節點的可重入性質角度考慮,當節點有重入邊時,復制此類具有多語義關系的節點并構造成樹, 將AMR圖轉化為樹結構。進而將標記索引節點的AMR樹作為預測目標,把解析任務形式化為一個兩階段過程: 節點預測和邊預測。使用擴展的指針生成網絡[31]進行節點預測,解決有限AMR標注數據下的學習問題;采用深度雙仿射分類器[32]進行邊預測,在訓練階段聯合學習。該模型不需要顯式對齊器,而是通過注意力機制隱式學習源端的節點復制機制,如圖8所示。

圖8 節點預測的擴展指針生成器網絡[32]
此外,有研究者嘗試在AMR解析中引用外部結構信息。早期相關研究[22-23]已經證明了依存句法結構有益于AMR解析任務,但其是將結構信息顯式地融入模型中。Zhou等人[23]通過實驗發現,顯式和隱式融入結構信息均可以提高AMR解析性能。他們將輸入句子作為概率圖生成器的先驗來推斷隱式的句法依存圖結構,并利用圖神經網絡(Graph Neural Network,GNN)對上述結構信息進行編碼,在無對齊器的模型框架下首次提出隱式地融入依存句法結構信息以降低概念識別等子任務的錯誤率,進而提升解析性能。
圖搜索是從全圖獲得子圖的過程,而逐步構造子圖則是另一種AMR解析建模的思路,如圖9所示。

圖9 基于圖生成的解析思路
Cai等人[33]提出一種自上而下的增量式圖生成解析算法(Graph Spanning based Parsing,GSP)。受“先確定中心思想,再補充相關細節”啟發,GSP從根節點開始進行迭代操作,每一步迭代將一個新的節點及其附屬關系同步地加入圖中,最終實驗表明這種方法對于句子中核心語義的捕捉更有優勢。在圖生成的建模思路下,復雜場景的圖生成可以轉化為增量構建圖的問題。針對長句子和蘊藏豐富語義的句子的復雜解析場景,Cai等人[34]提出了基于迭代推理的求解算法,將AMR解析視為輸入序列與增量構建圖之間的一系列決策問題,迭代求解互為因果的兩個關鍵問題: ①應該對輸入序列中的哪一部分進行抽象?②應該在增量構建圖中的何處添加新的概念?迭代推理過程如圖10所示。

圖10 基于迭代推理的AMR解析算法[34]
基于轉移的方法的本質思想來源于有限自動機,其將自然語言解析任務轉變為預測一系列轉移動作決策問題,根據預先定義的轉移動作集合,分析當前轉移狀態,預測轉移動作,如圖11所示。通過一個動作序列,逐步建立起句子對應的樹狀或圖狀句法語義結構。其關鍵問題是如何定義轉移系統,并根據預先定義的轉移動作集合,通過當前轉移狀態對轉移動作進行預測,搜索最優或近似最優的動作序列。

圖11 基于轉移的方法示意圖
Wang等人[35]在基于轉移的依存句法解析器的基礎上提出了CAMR解析器,將AMR解析轉移系統定義為四元組S=(C,T,s0,Ct),其中:
(1)C是轉移狀態集合;
(2)T是轉移動作集合,其中每個轉移動作都是CAMR將輸入句子和其對應的依存句法樹映射為初始狀態,而后再執行一系列轉移動作,進而實現AMR解析。其后,研究者從提高基礎自然語言處理任務準確率、優化轉移動作集合、縮小搜索解空間等角度對這一基準模型進行改進[36-38]。
一個函數t:C→C;
(3)s0是一個初始化函數,將輸入句子和其對應的依存句法樹映射為初始狀態。
(4)Ct?C是一組終端狀態。
CAMR采用依存句法解析器構建了樹這一中間表示,再將樹轉換為圖。Damonte等人[39]則實現了直接由文本到圖的解析模式,其受到ARC-EAGER轉移系統[40]的啟發,自左向右順序讀入文本中的詞,并根據關系優先的原則,增量式地預測構造AMR圖的轉移動作序列。
Ballesteros等人[41]認為AMR解析需要解決多個自然語言處理任務,包括命名實體識別、詞義消歧和語義角色標注等,而傳統管道式方法依賴于前置任務的特征,這使得構建端到端的系統存在難度。他們采用Stack-LSTMs表示轉移狀態,在轉移系統的基礎上構造了一個直接由文本到圖的端對端解析器。有別于采用外部工具完成依存分析、語義角色標注等任務的方法[39],該解析器利用了神經網絡的向量表示將多個自然語言處理任務融于解析模型中,并將訓練目標設定為極大化轉移動作序列的似然。
Naseem等人[42]認為以上解析器的目標策略存在兩個缺陷: 第一是由于轉移動作序列的預測與對齊信息密切相關,文本片段與圖節點間的對齊不準確/不完備會影響解析結果;第二是即便對齊準確,解析器所生成的轉移動作序列也并非唯一的或者最優的轉移動作序列,可能導致局部最優而非全局最優。通過組合對齊方法、預處理命名實體和概念、引入上下文向量和應用強化學習自批評序列訓練算法(Self-Critical Sequence Training,SCST)[43],將Smatch評測指標作為策略學習中的獎勵函數以松弛對齊約束,使得模型得以在更廣泛的轉移動作空間中尋得最優轉移動作序列。同樣從優化轉移動作搜索空間的角度考慮,Guo等人[44]則關注目標端的AMR圖表示,他們將概念分為Lexical和Non- Lexical兩類,其中Lexical概念對應于輸入句子中的具體詞元,Non-Lexical概念則是由子概念產生。通過移除部分Non-Lexical概念、可重入節點關系,簡化其中的概念和關系,并提出了緊湊AMR圖,限制了轉移動作搜索空間。
準確定義轉移狀態是基于轉移的解析器取得良好表現的關鍵因素。Ballesteros等人[41]利用Stack-LSTMs編碼轉移狀態,其優勢在于對全局狀態進行了建模。但是依舊存在兩個問題: 一是忽略了局部狀態的建模,如上下文單詞表征;另一個是Stack-LSTMs處理長文本時,在預測轉移動作的過程中,對于棧和緩沖區的調整不可避免地會重用之前步驟的隱狀態,造成誤差傳播。為了兼顧全局和局部的狀態信息,Astudillo等人[45]引入注意力機制,將Stack-LSTMs替換為Stack-Transformers編碼轉移狀態。采用注意力機制計算任意兩個轉移狀態之間的相關性以捕捉全局信息和局部信息。該解析器沿用了Ballesteros等人[41]的轉移動作集合,如表2所示。盡管基于轉移的解析器自左向右順序處理的強約束提供了一種符合AMR特征的歸納偏置形式,但是上述解析器在處理例如可重入節點時需要頻繁執行SWAP動作,導致最終所得到的轉移動作序列是冗余的。

表2 轉移動作集合
為了避免轉移動作序列過長,Zhou等人[46]提出了一個Action-Pointer Transition(APT)系統以簡化轉移動作序列。APT系統融合了基于轉移的方法和圖構造方法的優勢,核心思想是將目標轉移動作序列既作為一種圖構造過程,又作為一種圖表征形式。其受到采用指針的解析器啟發,使用自左向右移動的光標來替代傳統的棧和緩沖區結構,所提出的轉移動作集合如表3所示。APT通過引入指針網絡并將其應用于目標端,根據過去的節點生成轉移動作構造生成邊,采用Transformer模型同時對轉移動作序列生成任務和指針預測任務建模,利用交叉注意力機制的Mask操作將目標節點與原文本片段相關聯。這種轉移模式優化了可重入節點的處理過程,使得圖構建過程更為簡便自然,同時這也保證了準確且完備的對齊。

表3 轉移動作集合
預訓練模型的嵌入表示中蘊含了豐富的語義表征。Zhou等人[47]嘗試將預訓練語言模型BART集成到轉移模型框架APT中。將轉移動作集合中的保留預測動作(如Ballesteros等人[41]中的CONFIRM、Astudillo等人[45]中的PRED)替換為“
文本解析為AMR圖的過程也可以被視為一個機器翻譯的過程,如圖12所示,采用Seq2Seq模型構造端到端的解析器,在融合現有深度學習模型的同時,避免了其他解析方法煩瑣的串聯式解析步驟。此類方法主要面臨三個問題: 第一,AMR解析預測的目標詞匯表過大,這可能導致數據稀疏問題;第二,Seq2Seq模型基于數據驅動,而AMR可訓練語料規模較小或者訓練數據質量不高,導致模型學習效果不佳;第三,模型的語義表示能力有限,難以充分地表征,如文本的句法信息、淺層語義信息和圖結構信息等。根據Seq2Seq模型的演化,此類AMR解析方法分為三個階段。

圖12 基于Seq2Seq的方法示意圖
3.3.1 神經機器翻譯模型
早期相關工作采用神經機器翻譯模型實現AMR解析,沿用了經典的Seq2Seq模型[48-50]。Barzdins 和Gosko[51]率先在語義評測競賽中使用帶注意力機制的神經機器翻譯模型實現AMR解析,采用單層GRU作為編碼器和解碼器。在PENMAN標記方式的AMR序列化表示中,變量名作為實例的別名并不具有語義信息,因此,他們執行了數據預處理操作,將變量名、wiki鏈接和實例化標簽“/”視為噪聲刪除,以排除對模型語義表征的負面影響。但是由于受到數據稀疏問題的影響,當時的模型實驗結果相較于主流的算法存在一定差距。
Peng等人[52]指出,造成數據稀疏問題的本質在于模型所要預測的目標詞匯表規模太大。目標詞匯表中包含構成概念和關系標簽的數萬個符號,而可訓練數據規模又相對有限。因此針對較小規模的訓練數據,他們在基于Seq2Seq的成分句法分析模型[53]的基礎上提出了只采用單層LSTM作為編碼器/解碼器的解析模型。同時,對數據進行分類(2)也被稱為重新分類(Re-Categorization),將數據集源端和目標端中出現的低頻概念和部分實體子圖,映射至新的類別,大幅縮減了目標詞匯表的規模。
此外,他們提出新的線性化策略進行AMR序列表示,該策略將關系弧視為其概念頭節點的一部分,以標識概念與關系之間的聯系。將左/右括號和關系標簽進行組合,將其記為關系范圍的開始符號和結束符號,此類顯式的劃定方式使得模型能夠較為順利地預測出結構合法的AMR圖。有別于傳統的概念和關系獨立區分的處理方式,在上述策略下模型得以更好地捕捉到概念與關系之間的關聯。
隨后,Konstas等人[54]采用堆疊雙向LSTM作為編碼器,自左向右逐個單詞地建模輸入序列。解碼器則采用了堆疊LSTM進行預測,同時引入了全局注意力機制在預測階段感知當前輸出和輸入序列的關聯信息。為了緩解訓練語料不足的問題,采用自學習策略對模型進行訓練,通過預測無標簽數據獲得高置信度數據,以擴充訓練樣本,所提出的模型在AMR解析和AMR生成任務中都取得了很大程度上的性能提升。
受到Barzdins 和Gosko[51]啟發,Van Noord等人[55]將字符作為基本處理單元并嘗試進一步提升其性能,他們采用開源的機器翻譯工具OpenNMT[56]構造了神經網絡機器翻譯模型,其中編碼器與解碼器均采用堆疊LSTM,同時在解碼階段引入局部注意力機制,用以感知輸入序列與當前輸出的相關性程度以指導預測。其分別從數據預處理、數據擴充和優化訓練過程的角度嘗試并驗證了5種有效的技術,最終取得了當時的最優性能。與Konstas等人[54]采用自學習策略擴充訓練數據不同,他們利用現有的AMR解析器生成訓練數據,篩選后獲得銀數據(Silver Data)以確保訓練數據高質量,避免噪聲對模型的影響。由于當以字符為基本處理單元時待處理序列較長,會導致數據稀疏問題,且對于長距離關聯的學習效果較差,后續的研究者大都還是將單詞作為輸入序列的基本處理單元。
3.3.2 Transformer模型
機器翻譯模型的性能因Transformer模型的提出得到了大幅提升[57]。利用自注意力機制讓模型能夠學習到輸入序列中不同部分之間的關系,其通過計算各部分之間的注意力分數,從而能夠更全局地捕捉上下文信息。
為了提升解析模型的語義表示能力,許多研究者關注于建模和捕捉文本和圖數據中所蘊含的結構信息。Ge等人[58]嘗試將語法和語義信息融合到解析器中,采用一種可結構感知的AMR解析器隱式地建模上述信息。Transformer模型對整句層面的上下文信息學習更為充分,得以將元素間對齊、句法路徑、句法距離和語義關系等信息融入編碼之中。
機器翻譯、句法解析和AMR解析3個任務是從不同的視角捕捉文本中的語言學知識。Xu等人[59]在微調階段通過聯合學習上述3個預訓練任務,初始化構建AMR解析器模型。此外,他們還嘗試引入預訓練模型BERT[60]對源句子中的語言學知識進行表征,結果顯示BERT的引入顯著提升了模型的解析性能。
BERT本身并非生成式模型,其源端和目標端詞匯表不共享的特性會給AMR解析任務帶來困難。Bevilacqua等人[61]提出了一種基于BART的Seq2Seq模型SPRING(Symmetric PaRsIng aNd Generation)實現AMR解析和AMR生成任務。BART[62]是一種基于Transformer架構,結合了BERT雙向編碼和自回歸模型GPT自左向右解碼特點的編碼器-解碼器模型。BART通過降噪自監督任務還原亂序、帶掩碼以及存在損壞的文本,執行上述預訓練任務以增強模型泛化能力。其源端和目標端的詞匯表在很大程度上相交,以及生成式模型的特點可以滿足AMR解析任務的條件。
前述工作中數據預處理是對諸如變量名、wiki關系等信息進行刪減后以啟發式的方法進行還原,這將不可避免地導致信息丟失和非法標注的問題。SPRING提出了一種無損的同構圖線性化技術,引入特定標記

圖13 AMR的三種線性化表示示例
其后,許多研究者通過引入額外結構信息進一步提升模型解析性能。引入額外結構信息的本質是為了提升模型的文本語義表征能力。Chen等人[63]在SPRING解析器中引入中間任務學習(Intermediate-Task-Learning,ITL)作為輔助任務訓練,選擇語義角色標注和依存解析作為中間任務,將其輸出的數據轉換為偽AMR數據(PseudoAMR),然后利用這些數據構建訓練任務以滿足模型對額外結構信息的學習。Yu等人[64]在SPRING的基礎上設計多種策略將AMR圖節點的祖先信息添加到解碼器中以指導AMR圖的生成,即引入了圖結構信息。Cheng等人[65]則是在BART模型的基礎上對文本和其對應的AMR圖序列聯合學習,提出雙向貝葉斯學習(Bidirectional Bayesian Learning,BiBL)方法,對上述兩種數據形式的聯合概率分布進行單階段多任務學習,通過輔助生成和重構這兩項輔助任務,模型得以有效捕捉到概率分布中的潛在信息。
由于先前工作中的預訓練語言模型大都是基于文本數據進行的,這導致模型對AMR這種圖結構數據的學習和結構信息捕捉并不充分。Bai等人[66]嘗試在BART模型的基礎上,引入基于圖結構模型中的圖預訓練策略,類比BART中的降噪自監督預訓練策略,通過節點/邊重構和子圖重構兩種操作實現圖預訓練任務的降噪。他們進一步提出一種文本-圖聯合預訓練框架,將文本和AMR圖同時作為輸入進行聯合學習,并輸出期望的文本或圖。這種預訓練框架通過消除預訓練和微調之間的輸入和輸出格式差異,來使模型在微調階段中充分利用預訓練知識,對于模型而言能夠同時利用文本和圖的信息,以捕捉更豐富的結構信息。
3.3.3 大語言模型
大語言模型出現后,Lee等人[67]嘗試采用FLAN-T5大語言模型實現AMR解析,為了適配模型輸入,首先對訓練數據做了一系列AMR預處理操作,如刪除wiki標簽、線性化AMR等。然后對模型采用全參數微調、LoRA微調以及先全參數微調后再LoRA微調三種方式,以實現英文AMR解析。在AMR 2.0和AMR 3.0數據集上,加入銀數據后,經過全參數微調再加LoRA微調的FLAN-T5-XL模型的性能優于采用BART預訓練語言模型的性能,達到了目前AMR解析任務的SOTA。
除上述類別外,還有一類解析方法,通過引入不同的文法、代數方法對圖結構數據進行形式化建模,并生成對應的中間形式,進而將AMR解析任務轉換為基于新形式下的相關問題求解,其示意圖如圖14 所示。

圖14 基于形式化的方法示意圖
3.4.1 超邊替換文法
超邊替換文法HRG[68]是上下文無關文法(Context-Free Grammar,CFG)在圖結構上的一種表示,而派生的同步超邊替換文法(Synchronous Hyperedge Replacement Grammar,SHRG)能夠被用來實現圖結構與其他結構(線性結構或者樹結構)的雙向轉換。每一條SHRG規則由一對相互映射的CFG規則和HRG規則組成,根據SHRG規則可以并行地生成文本和對應的AMR圖。Peng等人[69]首先將文本轉換為超圖,其中節點、超邊分別為單詞或短語,及其之間的關系,并同時構建初始SHRG規則集,每條規則將一條超邊替換為一個子圖。然后,根據文本與超圖的對齊信息構建片段分解森林[70],片段分解森林是一個包含所有與輸入文本和AMR圖對齊的可能規則的集合。再采用馬爾科夫鏈蒙特卡洛算法對片段分解森林進行采樣學習,根據規則得分和采樣策略選擇得到最佳的SHRG規則。對測試數據應用所得的規則,最終實現AMR解析。
3.4.2 組合范疇文法
從計算語言學的角度看,CCG[68,71]是1類上下文有關文法,其通過一階邏輯實現從語法到語義的自動推理,較其他語法形式相比更擅長于增量式的句子處理方式。Artz等人[22]率先提出了一個基于CCG的AMR解析算法,其采用CCG的句法分析過程生成組合性的AMR結構,再采用因子圖對非組合性語言現象(如指代關系等)建模求解。具體來說,首先,將文本轉換為CCG樹,CCG樹是一種能夠將句子的句法結構和語義表示相互關聯起來的樹形結構,其中,樹中每一個節點都包含一個表示該節點語法類型的范疇。然后,根據CCG樹中的范疇信息生成對應的邏輯形式,邏輯形式是一種表示句子語義的形式,通常使用Lambda演算表示。最后,在邏輯形式中,每個AMR概念對應一個Lambda項,每個AMR關系對應一個應用于這些變量的二元謂詞,以此實現AMR解析。
3.4.3 HR代數
HR代數是由Courcelle[72]于1993年提出的一種用以研究圖性質的代數系統,HR代數是一種細粒度的代數,可以靈活地組合語法規則。Groschwitz等人[73]從代數圖論的角度進行研究,他們認為AMR由多個原子圖所組成,其中每個原子圖對應單詞及其在句子中的語義關系。通過對各原子圖使用HR代數的通用圖融合操作來實現AMR解析,這導致語法推理的計算量巨大。因此,他們提出AM代數,通過使用將謂詞與補語或修飾語相結合的操作來進行原子圖(又稱為AM項)融合操作,這不但顯著地減少了候選組合的數量,而且可以直接對控制、提升和并列等句法現象進行建模。
基于上述研究,Groschwitz等人[74]進一步提出使用AM代數實現AMR解析,其初衷是提供一種準確、可控和可擴展的方法以更好地捕捉句子的語義信息,巧妙地將AMR解析任務轉化為計算給定文本的最佳AM依存樹問題。具體來說,首先,利用AM代數將文本轉換為as-graphs的中間形式,as-graph是帶有節點和邊標簽的有向圖,每個 as-graph 對應文本中的一個單詞或短語;然后,采用超標記方法為每個as-graph分配類型信息;再使用依存句法解析器將as-graphs組合成一個依存句法樹,并通過定義apply(APP)和modify(MOD)這一組操作來組合依存句法樹中的as-graphs,APP操作將一個參數添加到謂詞中,MOD操作將一個修飾語添加到圖中,最終得到表征整個句子的as-graph,并將其轉換為對應AMR解析結果。
中文AMR在英文AMR體系的基礎上進行了較大的調整和改進,包括新增了概念關系和原句詞語的對齊,對漢語離合詞、重疊式等特殊語言現象的改進標注,對虛詞的標注等,以更好地表示中文句子的語義結構[75]。由于中文AMR語料庫2019年才構建,其研究起步較晚,因此,我們按照發展時間線論述中文AMR解析方法的研究成果。
吳泰中等人[76]受依存分析中基于Shift/Reduce的依存分析算法啟發,在依存圖分析基礎上,采用基于雙棧的擴展Shift/Reduce轉移解碼算法,解決交叉邊和可重入邊問題,設計了一個基于轉移神經網絡的增量式中文AMR解析模型。該模型在LA、RA、SHIFT、REDUCE四種轉移動作的基礎上,增加將主棧中的棧頂元素壓入到次棧中的動作MEM,以處理交叉邊或多個父節點等特殊情況,然后通過 LSTM模型學習語義關系表示和上下文相關詞語義表示,并在此基礎上,引入深度雙向LSTM-CRF模型進行概念識別和消歧以對中文AMR進行解析。
Huang等人[77]基于Transformer模型實現了一個適用于中文的序列到序列AMR語義解析系統。該解析系統參考英文AMR解析中的預處理方法處理中文AMR圖,刪除了共指關系、對齊信息等,在不改變句子語義的情況下獲得中文AMR的線性化序列,比較了BERT、BERT-wwm、NEZHA等五個預訓練語言模型應用于中文AMR解析的性能,發現在模型中融合BERT-wwm的上下文表征的性能最好。
在2022年第二屆中文AMR解析評測中[78],Chen等人[79]提出了概念預測和關系預測雙階段預測方法,實現中文AMR解析。在概念預測階段,設計了直接對齊、標準化對齊、連續多字對齊、不連續多字對齊、分割對齊和空對齊6種不同的對齊規則,將輸入的單詞與抽象概念相對應,在關系預測階段,利用RoBERTa和BiLSTM對預測的概念進行編碼,然后輸入到深度雙仿射分類器(Biaffine)中預測兩個概念之間的關系。
在同年競賽中,周仕林等人(3)https://github.com/zsLin177/camr使用Chinese-RoBERTa預訓練模型對輸入數據進行編碼,并通過BiLSTM將詞性信息和句法依存信息與編碼信息相結合,解碼器再對編碼器生成的節點進行動作預測、對齊預測、關系預測、屬性判斷和根節點預測處理。為了使輸出的AMR符合中文規范,還設計了節點對齊、恢復共指信息等后處理,最后對AMR解析的結果采用多圖聚合的操作,該模型在此次競賽中取得了最好的成績。
2023年,Gu等人[80]借鑒SPRING的框架結構,遷移至中文AMR解析。線性化AMR圖得到AMR序列后,全參數微調Chinese-BART-large預訓練語言模型,并將額外的詞性與句法依存信息通過BiLSTM與BART Encoder的輸出相結合,輸入到BART Decoder中,隨后通過對齊等后處理使得模型生成的AMR序列符合中文AMR的標注規范,最后將該模型輸出的結果與上一模型輸出的結果進行多圖聚合操作。他們提出的方法在2023年第三屆中文AMR解析評測中[81]取得了5項第一的成績。
Yang等人[82]利用大型對話語言模型ChatGPT進行零樣本學習(Zero-shot)和少樣本學習(Few-shot),對ChatGLM-6B進行全參數微調和LoRA微調實現中文AMR解析。由于大模型在Zero-shot和Few-shot的設定下,長文本輸入導致生成效果不理想,并且無法生成未見過的AMR關系,這使得解析性能欠佳。實驗結果表明,經過全參數微調的ChatGLM-6B雖然具備一定的AMR解析能力,但是會損傷模型的泛化性,而LoRA微調尚不足以讓模型實現AMR解析。Gao等人[83]選擇對Baichuan-7B模型進行全參數微調來實現中文AMR解析,首先線性化AMR圖,然后構造數據對大模型進行微調。構造的輸入數據包含任務指令、原始句子以及帶有詞編號的分詞后的句子,標簽則是線性化后的AMR序列,最后基于規則匹配等方式對模型輸出的AMR序列進行后處理,以使其符合中文AMR規范。
大型語言模型的出現及“預訓練-微調”的范式不斷地提升著AMR解析的性能,但如何將AMR的解析任務和大型語言模型的預訓練任務結合起來是提升大語言模型進行AMR解析性能的關鍵。
評測AMR解析器性能可以通過將AMR解析圖和人工標注AMR圖進行相似度匹配來度量。Smatch[84]用于衡量兩個AMR圖的匹配程度,是目前最主流的AMR解析評測指標。Smatch評測中,首先將AMR圖轉換為三元組集合的形式,然后采用啟發式的爬山算法(Hill-climbing Method)進行貪心搜索,以獲取兩個集合在最優匹配下的三元組匹配個數,最終返回準確率P、召回率R和Fβ值等度量指標。Smatch三元組集合包含節點、節點屬性和有向弧三個子類別,表4給出圖5示例的三元組表示形式。

表4 Smatch三元組表示形式
Smatch評測指標基于英文AMR而設計,無法較好地兼容中文AMR解析評測。一方面是由于英文AMR只關注實詞,而其所忽略的虛詞以及部分語言現象在漢語中往往蘊藏著語義信息;另一方面是因為英文AMR缺乏對齊信息,中文AMR的概念、關系對齊結果并不能由Smatch所體現。為了彌補中文AMR解析評測在對齊信息上的空缺,肖力銘等人[85]在Smatch的基礎上添加了描述概念對齊和關系對齊的信息,提出Align-Smatch用以評測中文AMR解析器。
Align-Smatch將中文AMR圖轉換為一個多元組,每個多元組包含3個或者4個元素。具體而言,對Smatch的三元組集合作了下列修改: ①在原節點屬性類別中,對其三元組新增了表示概念對齊的三元組; ②在原有向弧三元組類別中,新增了表示關系對齊的四元組; ③使用有向弧多元組來表示位于根節點的詞, 而不再使用節點屬性三元組表示。Align-Smatch評測公式同Smatch評測公式,其中的準確率P為黃金AMR的多元組集合和解析生成的AMR多元組集合間的最大匹配個數與解析生成的 AMR多元組總個數之比; 召回率R為黃金AMR的多元組集合和解析生成的AMR多元組集合之間的最大匹配個數與黃金AMR的多元組總個數之比;Fβ值同Smtach。
英文AMR解析器性能評估主要在AMR 2.0、AMR 3.0上進行,中文AMR解析器性能評估則是在CAMR 1.0、CAMR 2.0上進行。為驗證跨領域泛化能力,部分解析模型也會在分布外(Out-of-distribution)設定下,在如The Little Prince 3(TLP)(4)3https://amr.isi.edu/download.html、BIO[86]等特定數據集上進行實驗。評估實驗結果基于Smatch或Align-Smatch評測指標去衡量黃金AMR圖和解析結果的匹配程度,同時如表5所示的子指標也在一定程度上反映了AMR解析器在某項子任務中的表現。整理歸納現有中英文AMR解析器實驗結果,表6為AMR 2.0上的評測結果,表7為AMR 3.0上的評測結果,表8為CAMR 1.0和CAMR 2.0上的評測結果。

表5 評測指標含義

表6 英文AMR解析器在AMR 2.0上的實驗結果 (單位:%)

表7 英文AMR解析器在AMR 3.0上的實驗結果 (單位:%)

表8 中文AMR解析器實驗結果 (單位:%)
借鑒集成思想,Hoang等人[87]提出使用圖聚合操作來提升解析性能。圖聚合的核心思想是在多個解析器所得到AMR圖集合中,求解最大公共子圖作為最終的聚合圖。Lee等人[88]則進一步提出了極大貝葉斯Smatch集成決策(Maximum Bayes Smatch Ensemble, MBSE)。其受到圖聚合[87]和知識蒸餾[89]啟發,通過集成Smatch-based模型和多種解析器的集成蒸餾模型來生成高質量的銀數據以達到數據增強的目的。最終不僅進一步提高了在公開數據集上的AMR解析器性能表現,還在特定領域語料和跨語言的場景下均取得了較大的性能提升。因此,我們將此類研究實驗結果作為四類方法的一種補充。
4.2.1 研究趨勢分析
從時間發展維度分析發現,如圖15、圖16所示,AMR 2.0發布早,時間跨度大,其上的解析器性能反映了英文AMR發展的歷程。前期工作主要以基于圖和基于轉移的方法為代表,2021年之后,基于Seq2Seq的方法占據了主導地位,綜合解析性能超過其他方法。AMR 3.0發布時間較新,可以反映AMR解析器的前沿研究進展。AMR解析器自動解析性能已經達到較好水平,Transformer架構和預訓練語言模型的引入使得基于Seq2Seq的AMR解析器性能取得了較大進步,但是近期研究中AMR解析器性能提升趨勢漸緩。

圖15 英文AMR解析器在AMR 2.0上的Smatch值

圖16 英文AMR解析器在AMR 3.0上的Smatch值
4.2.2 英文AMR解析方法對比分析
分析表6、表7發現,早期基于轉移的方法以及基于形式化的方法性能較差,且缺少分項指標度量。實驗顯示,無論在AMR 2.0上還是AMR 3.0上,基于Seq2Seq的方法均是當前的SOTA。
刪除缺少分項指標的數據后,構造折線圖,如圖17、圖18所示。針對否定義項(Neg.)和可重入關系(Reen.)的識別還有著較大的提升空間,這意味著現有模型對于復雜的多語義關系的捕捉亟待加強。Lee等人的解析器在AMR 2.0和AMR 3.0上的Smatch值分別達到了86.4%和84.9%,雖然預訓練技術乃至大模型的引入顯著提升了解析性能,但是依舊還有不小的上升空間。如何在可承受的計算復雜度范圍內進一步提升預訓練模型的語義表征能力,是一個亟待解決的問題。

圖17 英文AMR解析器在AMR 2.0上的指標折線圖

圖18 英文AMR解析器在AMR 3.0上的指標折線圖
4.2.3 中文AMR解析方法對比分析
分析表8發現,中文AMR解析方法研究較晚,早期中文AMR解析方法由于缺少對齊信息,仍然采用英文AMR評測指標Smatch。中文AMR語料庫引入對齊信息后,主要采用基于圖的方法以及基于Seq2Seq的方法,在CAMR 2.0數據集上構造指標折線圖, 如圖19所示。可以發現,不同于英文AMR解析中基于Seq2Seq的方法優于其他方法,在中文AMR解析器中,基于圖的方法評測效果優于基于Seq2Seq的方法。

圖19 中文AMR解析器在CAMR 2.0上的指標折線圖
AMR以圖的形式,突破淺層局限實現領域無關的整句通用語義表示,解析是AMR應用的關鍵步驟。通過CiteSpace工具分析發現,AMR解析方法是當前的研究熱點,積累了較多研究成果,但尚缺乏與時俱進的文獻綜述。本文以問題驅動聚焦AMR解析方法的演化歷程。結合文獻理解,分析AMR 解析面臨的關鍵難點問題,包括語料稀疏、對齊缺失、結構信息學習等。根據其解析策略,將AMR解析方法分為四類: 基于圖的解析方法、基于轉移的解析方法、基于Seq2Seq的解析方法和基于形式化的解析方法。以方法發展及問題解決為思路,重點闡述經典英文AMR解析方法、中文AMR最新解析方法,最后從評測和經典算法實驗結果分析角度,分析了AMR解析方法的研究趨勢,以及不同方法類型在中英文AMR解析上的性能。
研究發現,AMR解析的早期成果大都延續依存句法分析的相關方法進行遷移,而近三年來AMR解析性能的大幅提升主要受益于深度學習和預訓練技術的引入。由于AMR評測語料庫的規模較小,解析器性能依舊受限于多領域樣本標注及數量,導致對于特定領域數據以及復雜語義現象的學習不夠全面。未來AMR研究可以從以下方面展開: 第一,構建高質量AMR標注語料庫。語料庫開發是AMR解析的基石,尤其在特定領域、其他語種下的語料庫標注工作意義重大。第二,英文AMR對齊信息的錯誤和缺失在一定程度上會影響自動解析的效果。可以考慮借鑒中文AMR標注規范,將對齊信息顯式地加入到英文AMR標注中以緩解對齊問題。第三,盡管中文AMR標注有顯式對齊信息,但是在解析器中正確獲取對齊信息是解析的難點,可以重點研究AMR后處理方法或采用隱式學習對齊信息的方式,解決中文AMR對齊問題。第四,基于圖的學習具有捕捉圖結構信息的天然優勢,圖神經網絡等相關算法有望在未來更好地實現AMR解析。