999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語篇章理解研究綜述*

2019-08-13 05:06:38王紅玲周國棟
軟件學報 2019年7期
關鍵詞:結構

孔 芳, 王紅玲, 周國棟

1(蘇州大學 計算機科學與技術學院 自然語言處理實驗室,江蘇 蘇州 215006)

2(江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)

1 引 言

人們理解自然語言通常是在篇章級進行的.作為自然語言處理的一個核心任務,篇章分析(discourse analysis)的主要任務就是從整體上分析出篇章結構及其構成單元之間的語義關系,并利用上下文理解篇章.根據不同的篇章分析目的,篇章單元及其關系可以表示為不同的篇章基本結構.篇章結構可以是篇章內部關系的不同結構化表達形式,主要包括修辭結構、話題結構、指代結構、功能結構、事件結構等范疇[1].從語言學角度講,這些不同的結構表達形式從不同的角度對篇章進行描述;從計算的角度來看,它們可用線性序列、樹和圖等數據結構進行抽象表示.隨著詞法、句法分析技術的不斷成熟,篇章分析已成為制約自然語言處理發展的一個瓶頸.

作為篇章分析的基本概念,篇章(discourse)又稱為語篇或文本,是由一系列連續的詞、短語、子句、句子或段落構成的語言整體單位[1].這里,詞被認為是自然語言中有意義的最小單位,相繼可以構成短語、子句和句子,句子又可以構成段落,并最終構成篇章.需要強調的是,篇章不是其構成單元的無序堆砌,只有當構建的整體單位上下連貫相互關聯,所含信息整體一致,表達完整的思想和意圖,才能具有明確的意義,從而稱為篇章.以圖 1給出的兩個例子進行對比說明.在例1中,盡管每個獨立子句語義正確,句法完整,但是順次連接在一起并不能夠構成一個篇章.原因在于,這些子句所表達的意義彼此沒有關聯,難以形成一個整體,也無法表達明確的主題.與此相比,例2中,盡管有些子句的句法成分缺失(例2所示的段落由6個基本篇章單元構成,基本篇章單元分別用(a)~(f)表示;〈〉擴起的內容表示篇章關系中缺省的連接詞;[]表示對應子句在該位置缺少相關的句法成分),然而借助于句子之間的意義關聯,可以構建形成一個以“李四”作為中心話題的語言整體,因而構成了一個篇章.

篇章一般圍繞某個話題展開.篇章信息的一致性(篇章信息性)和篇章意圖的整體性(篇章意圖性)通常表現為一個話題,該話題的完整性從形式和內容兩方面分別體現為篇章的兩大基本特性,即篇章連貫性(coherence)和篇章銜接性(cohesion).篇章銜接性和篇章連貫性分別從內容和形式兩個方面保證了篇章所要表達的意圖性,即作者所要表達話題的正確性和可理解性,二者相互依賴,相互補充.

具體而言:一方面從篇章連貫性角度,話題在形式上的完整性往往體現為某種篇章基本構成單元通過遞歸組合,基于不同層面的邏輯關系聯接,形成一種修辭上的層次化結構,即篇章修辭結構.如圖2所示,B和C之間構成并列關系,B和C都是中心,BC的組合和A構成遞進關系,ABC的組合和DEF的組合之間構成轉折關系,DEF的組合為中心.各基本篇章單元組合后形成高一級篇章單位,進而通過再組合形成更高一級篇章單位,如此層層組合,最終可以表示成一棵篇章修辭結構樹.各層篇章單位賴以組合的原因在于其間存在一些為數不多的、反復出現的修辭結構關系(如并列、遞進等),這些修辭結構關系有時以連接成分作為形式標記(如例 2中的“既…又…”),有時則完全隱含(如例 2中的缺省連接詞,“〈而且〉”).

上述篇章修辭結構的分析結果對篇章話題理解非常重要.例如,在自動問答系統中,通過例2中的因果關系,可以較容易地自動抽取出相關問題的答案:“領導非常器重他”的原因是“不論做啥事情,他都認真負責”.又譬如,對于自動文摘而言,根據圖 2中最高層的“轉折”關系,可以得出“基本篇章單元 DEF的組合”比“基本篇章單元ABC的組合”更重要;而對于次一級“因果”關系而言,“基本篇章單元 F”可能比“基本篇章單元 DE的組合”更重要;如此層層推進,最終可以得到該段篇章的核心話題,即為“基本篇章單元 F”.當然,上述推進過程的實現,主要依賴于篇章關系傳遞性及中心指向原則.

另一方面,從篇章銜接性角度來看,話題在內容上的完整性往往體現為思維的放射性與表達的線性之間的有機聯系.這里所謂“思維的放射性”是指一個話題(或稱主題)由若干子話題(或稱小主題)構成,而“表達的線性”則是指各分話題的排序應符合思維的邏輯性和次序性,兩者一起構成篇章話題結構.

譬如仍然以例 2作為分析對象,對于自動問答系統而言,我們能夠利用圖 2所示的篇章修辭結構為問答系統提供為什么“領導非常器重他”的答案(即回答“Why”問題),但是,如果需要提供“‘他’是誰?”這樣的問題答案(即回答“Who”問題)時,圖2所示的篇章基本結構就顯得力不從心了.這時,需要我們構建如圖3所示的篇章話題指稱結構來解決該問題.通過其所含的指稱鏈接關系,我們就能夠回答問題“‘他’是誰?”中的“他”即指“李四”.不過,與上述篇章修辭結構類似,圖3中的單一篇章指稱結構也只能夠解決“Who”這一類問題,對“Why”問題無能為力.

不同篇章基本結構及其關系的研究可以提供不同層面的篇章理解.顯然,篇章修辭結構和篇章話題結構這兩者相互依賴,相互補充.對于需要解決包含5W1H問題(Who,Why,Where,When,What,How)的篇章理解而言,迫切需要聯合不同類型的篇章結構共同解決不同類型的篇章理解問題.

2 國內外相關研究

篇章理解是自然語言理解的最終目標.認知科學家和語言學家對這個問題的研究,始于20世紀70年代.其中,概念依存(concept dependency)理論[2]開啟了篇章理解研究的先河,腳本(script)方法緊隨其后,用于分析理解某種具體的場景“故事”.通過對內容的簡化處理,類似腳本方法的技術思想已經在信息抽取(information extraction)領域得到成功應用.然而,腳本方法的缺陷在于對領域所在場景存在過度依賴,導致腳本的構建需要隨時同步場景變化.這對于有些無法表示為場景的篇章而言,很難采用該類方法加以分析理解,因而進一步需要發現更為通用及開放的結構來表示篇章.為達到此目的,通過探尋篇章的基本特征來尋求解決之道不失為可行方法.

篇章的 7個基本特征[1]已被自然語言處理領域的研究者廣為接受,其中,前 4個基本特征,即連貫性(coherence)、銜接性(cohesion)、信息性(informativity)及意圖性(intentionality)更是有力地促進了自然語言處理研究的發展[3-9].通過分析篇章的銜接性和連貫性,可以發現篇章表層的形式表示;而通過分析篇章的信息性和意圖性,則可以挖掘篇章的語義特征.同時,后兩者的分析過程需要以前兩者為基礎關聯起來綜合考慮.例如,從內容表示角度,篇章的信息性注重新舊信息的變化推進,強調在符合銜接和連貫的特點下,如何合理、恰當地向讀者傳遞新信息.相比于傳遞新信息的篇章信息性,篇章意圖性更關注作者通過傳遞新信息后所產生的某種期望影響,這也反映了讀者對篇章的理解程度.因此,篇章的信息性和意圖性與篇章理解存在著密切的深層關系.

無論西方語言或者漢語,篇章的銜接性和連貫性都是最需要關注的兩個問題,是篇章的兩個最基本特征[1].連貫體現篇章的整體性,是篇章中句子級的關聯,采用句子間的語義連接來表示篇章的關聯.而銜接是一種詞匯級的關聯,采用詞匯(或短語)之間的語義關聯來表示篇章中各語言單元之間的關聯.從表達和內容兩個角度,通過篇章的連貫性和銜接性的共同作用,篇章的信息性和意圖性得以體現,即作者所要表達話題的正確性和可理解性得到保證.

可以看到,篇章的信息性和意圖性的研究是以篇章的銜接性和連貫性研究為基礎的,目前,篇章分析的研究主要集中在銜接性和連貫性的研究方面,下面分別從篇章結構分析的理論研究、資源建設、計算模型這3個方面,重點探討篇章修辭結構(體現篇章連貫性)和話題結構(體現篇章銜接性)這兩種結構,從而充分展現國內外研究現狀.

2.1 理論研究

篇章結構理論主要有淺層銜接理論[10]、Hobbs模型[4,5]、修辭結構理論(rhetorical structure theory)[6,7]、賓州篇章樹庫理論(Penn discoursetreebank)[11,12]、意圖結構理論(intentional structure theory)[8]、主述位結構理論[13]、主位推進理論(thematic progression theory)[14,15]、句群理論[16]、復句理論[17,18]、基于連接依存樹的漢語篇章結構(connective-drivendependency tree)理論[19,20]、廣義話題結構理論[21-23]等.

2.1.1 篇章修辭結構理論體系

涉及篇章修辭結構理論體系的理論主要包括Hobbs模型、修辭結構理論、賓州篇章樹庫理論、漢語句群理論、漢語復句理論、基于連接依存樹的漢語篇章結構理論等.

(1) Hobbs模型

Hobbs模型[4,5]提出篇章單元和篇章單元間的連接關系是組成篇章結構的基本部分.其中,篇章單元可以是子句、句子、句群,甚至是篇章本身,而連接關系是指篇章單元間的語義關聯性.Hobbs定義了 12類關系,包括:詳述、并列、結果、背景和時機等.

(2) 修辭結構理論

修辭結構理論(RST)[6,7]是一種基于樹狀模型的修辭結構理論,早期應用于計算機文本自動生成,目前主要作為篇章結構和功能描述研究的理論基礎.RST與Hobbs模型具有很大的相似性,共定義了4大類、25小類修辭關系,每個關系可連接兩個或多個篇章單元.如果修辭關系連接的篇章單元間存在主次,那么中心信息單元稱作“核(nucleus)”,傳達支撐信息的其他單元稱作“衛星(satellite)”.當修辭關系連接的單元無主次之分時,則稱其為“多核”關系.與Hobbs模型相比,RST更注重句子內部的結構,篇章單元可以小到短語或語塊.RST認為功能語塊是最基本的篇章單元(elemental discourse unit,簡稱EDU),EDU間的語義關系具有開放性和可擴充性.在RST構造出來的樹形結構中,葉節點、非葉節點、弧線和垂直線分別表示EDU單元、連續文本塊、修辭關系和核心語塊.這里的“核心”與RST中的3個基本概念之一,核心性有關.核心性是指篇章由輔助單元和核心單元構成,具有不對稱性.RST的另外兩個概念分別是“制約因素”和“效果”,前者表示輔助篇章單元及核心篇章單元至少有一個具有制約特性,從而表明命題存在的必要性;后者表示篇章關系的解釋機制,即可以用關系達到的效果反向解釋關系本身.

(3) 賓州篇章樹庫理論

賓州篇章樹庫(PDTB)[11,12]理論將源自修辭結構理論的篇章修辭關系作了改進,將其劃分成 3層,其中,第 1層共4大類,第2層16類,第3層23類.相比RST,PDTB體系凸顯了篇章修辭關系中連接詞的作用,它以連接詞為核心,根據有無顯式的連接詞將篇章關系區分為顯式和隱式關系,并對隱式關系人工添加了可表示當前語義關系的連接詞,在此基礎上再標注相關的篇章單元.另外,PDTB體系中的篇章單元不再考慮短語級,將從句作為最小篇章單位,從而大幅度增加了實用性.

(4) 漢語復句理論

漢語復句理論起始于 19世紀末,普遍認為是以1898年馬建忠的《馬氏文通》出版為標志[24],創建了漢語復句理論.《馬氏文通》是最早討論到復句問題、首次把復句問題引入漢語語法理論領域的語法著作.然而,另外也有人認為《馬氏文通》在分析句子成分時使用的是自己的一套“句讀論”,固然已經分析出了許多基本復句類型,但并未明確提出“復句”的概念,是“有實無名”.真正最先提出漢語復句系統之“名”的是嚴復的《英文漢詁》.

復句由兩個或兩個以上意義相關、結構上互不作為句子成分的分句組成.分句是結構上類似單句而沒有完整句調的語法單位.復句中的各個分句之間一般有停頓,書面上用逗號、分號或冒號表示;復句前后有隔離性語音停頓,書面上用句號或問號、嘆號表示.語法上是指能分成兩個或兩個以上相當于單句的分段的句子.同一復句里的分句,說的是有關系的事.一個復句只能有一個句終語調,不同于連續幾個單句[17,18].

(5) 漢語句群理論

句群也叫句組,由前后連貫共同表示一個中心意思的幾個句子組成.如同分句組成復句,句子組合成為句群一樣的道理[16].語法學對句群的研究最早始于黎錦熙等人[25],在我國漢語語法研究史上首次詳盡地論述句群,并提出了“句群是介乎復式句和段落之間的一種語言單位”的定義.

從構成成分來看,句群是句子的組合,至少需要有兩個句子組合而成的語言單位才能叫作句群.從語義聯系上看,組成句群的句子之間要有緊密的邏輯關系,它們必須共同擁有一個中心思想.從組合方式來看,幾個句子運用一定的方式組合在一起成為一個句群,組合方式有兩種:語義組合和關聯組合.

句群的分類角度有很多,例如:根據句群中句子的結構關系分類,可以將其分為“并列關系”“連貫關系”“遞進關系”等 12種類別.從句群的功能角度來看,則可將其分為主題句群、過度句群和插入句群三大類.句群分類大都是借鑒句子和復句的分類方法,分類方法眾多,還未形成統一的標準.

(6) 基于連接依存樹的漢語篇章結構理論

蘇州大學自然語言處理實驗室結合 PDTB體系中連接詞驅動策略和 RST體系中篇章樹形表示結構的優勢,同時結合漢語復句和句群理論,提出了一種基于連接依存樹(connective-driven dependency tree,簡稱CDT)的漢語篇章結構表示體系[19,20,26].該理論對完整的篇章結構(包括篇章單位、連接詞、篇章結構、篇章關系、篇章主次)進行了系統的定義和描述.在該基于連接依存樹的篇章結構中,葉子節點表示基本篇章單位(elementary discourse units,簡稱 EDUs),內部節點為連接詞(connective),由連接詞連接的基本篇章單位組合稱為篇章單位(discourse units,簡稱 DUs).各子句之間通過連接詞形成更高一級的篇章單位,層次組合直至形成一棵完整的篇章結構樹.連接詞既可以表示篇章單位層次,也可以表示篇章單位之間的邏輯語義關系,一個連接詞可以連接兩個或多個篇章單位,篇章單位根據在篇章中的重要程度可分為主要篇章單位和次要篇章單位.

2.1.2 篇章話題結構理論體系

涉及篇章話題結構理論體系的主要包括淺層銜接理論[10]、主述位結構及推進模式理論[13-15]、意圖結構理論[8]、話題鏈理論[27-32]、廣義話題結構[21-23]、微觀話題結構理論[33,34]等.

(1) 淺層銜接理論

淺層銜接理論是最早研究篇章銜接關系的理論體系.淺層銜接理論[10]指出,“當篇章中的某個成分的解釋依賴于篇章中另一個成分的解釋時,這兩個成分之間就產生了銜接關系”;銜接方式通常分為語法銜接和詞匯銜接兩大類,其中語法銜接手段包括指稱、省略、替代和(邏輯)連接,連接又劃分為增補型(additive)、轉折型(contrastive)、原因型(causal)、時間型(temperal)4類,詞匯銜接手段包括詞匯的重復和搭配.

Grimes在深化 Halliday的淺層銜接理論時考慮了非詞匯化的命題關系,給出了更詳細的銜接關系類別.此外,Grimes首次提出了銜接關系的論元有主次之分,并明確指出,并列(paratactic)關系的論元同等重要,而主從(hypotactic)關系的論元有主次之分.

(2) 主述位理論

主述位理論中的主位、述位兩個概念,最早來自于布拉格學派提出的功能語句觀理論框架[13-15].Mathesius從功能語句觀的角度提出主位、述位信息理論,用于描述句子所傳遞的信息結構.主位是指在既定語境中已知或至少是明顯的信息,是說話人信息的出發點;述位是話語的核心,是說話人對主位的闡發.

Mathesius對主位的界定涉及3個方面的內容:句首性(sentence-initialness)、相關性(aboutness)、信息的新舊性(informational status).隨后,Firbas又從“交際動力”的角度對主位作了進一步闡釋:他提出主位是已知信息,所承載的交際動力低;述位是新信息,所承載的交際動力高;主位-述位的推進更替推動了篇章交際動力的動態傳遞.

此后,以Halliday(1994年)為代表的系統功能語言學派認為布拉格學派對主位的界定有些含混,故區分了主位研究的兩個層次:句法層次上的主位-述位結構和語意層次上的信息結構.主位-述位結構是從篇章產生的角度來界定的,突出小句或話語的起點,而信息結構(已知/未知信息)是從篇章接受的角度來界定的,側重篇章解讀者對信息的處理.

從篇章功能的角度來看,每個小句和小句復合體的第 1個句法成分是主位,其余成分是述位.從系統功能語法學角度來看,主位和述位一起構成一則信息,主位是信息的起點,是小句組合的基礎;述位是對主位的闡釋和發展.

(3) 意圖結構理論

意圖結構理論由Grosz和Sidner最早提出[8],他們認為篇章是包含意圖的,原因在于篇章的作者就是懷有表達自身意圖的目的開始寫作的.所以,篇章意圖的解釋應該和篇章內容一樣納入篇章結構理論的研究范疇,因而意圖結構完全可以成為篇章結構理論的基礎.在他們提出的篇章結構中,包括 3個方面,分別是語言結構(linguistic structure)、意圖結構(intentional structure)、焦點狀態(attentional state).

根據 Grosz和 Sidner對篇章結構的定義,篇章意圖(discourse purpose,簡稱 DP)由篇章段意圖(discourse segment purpose,簡稱 DSP)分解和表達,顯示出篇章意圖的層次性特點.同一個意圖層,如果 DSP1有助于表達DSP2,則 DSP2占主導地位,稱為支配(dominance)關系,支配關系與修辭結構理論中的“核心-衛星”結構相似,因此可以看作是主次關系在篇章意圖層上的定義.

Moser和 Moore的研究表明,意圖結構理論和修辭結構理論之間存在共性,如意圖結構中的支配和修辭結構理論中的核相對應.

(4) 話題鏈理論

曹逢甫[27]最早提出了漢語話題鏈(topic chain)的概念,細致地分析了話題在控制小句連接方面的作用.話題鏈的形成主要依賴各種指代回指(anaphor)形式,即零形回指(zero anaphor,簡稱 ZA)、代詞回指(pronoun anaphora,簡稱PA)和名詞回指(nominal anaphor,簡稱NA)的選擇方法.曲承熹[28]總結了前人的研究成果,提出了操作性較強的話題鏈定義“一組以零回指ZA形式的話題連接起來的小句”.

劉禮進[29]使用人工標注的小規模漢英篇章對比語料庫,深入分析了話題鏈在漢英篇章的宏觀語義結構描述功能上的差異情況;孫坤[30]對英漢篇章組織模式進行了對比研究;王建國[31]把話題鏈的描述作用從句子拓展到句群和篇章,重新定義話題鏈為“由同一話題引導的系列語句”,并深入分析了話題鏈在漢英篇章中的不同描述特點;周強[32]引入話題鏈描述形式,設計不同類型的話題評述關系集,構建了以話題鏈為主,融合關聯詞語和其他連貫形式的描述機制.

話題鏈是指由各個話題連接而成的鏈條.根據話題相同與否以及是否包含不同話題,話題鏈可分為“同題鏈”“異題鏈”和“包題鏈”3種基本類型.同題鏈是相同的話題形成的話題鏈;異題鏈是由不同的話題形成的話題鏈;包題鏈是由有包容關系的話題形成的話題鏈.在實際的篇章中,同題鏈、異題鏈、包題鏈層層相套,互相交錯,交織形成話題網,共同推進篇章的發展(生成).

(5) 廣義話題結構理論

宋柔等人針對漢語篇章話題結構進行了比較深入的研究,根據漢語篇章的特點,以標點句為基礎,給出了廣義話題結構的概念和相應的表示方法,提出了“話題的不可穿越性”和“話題句的成句性”兩個廣義話題結構性質;描述了漢語的話題結構和話題句特征,給出了話題句動態堆棧模型[21-23].這一研究成果是漢語篇章分析領域的一項開創性工作.但同時,廣義話題理論的動態堆棧模型,強調子句語法成分的完整性,在分析層面描述粒度過細,在操作層面也面臨可計算問題.

(6) 微觀話題結構理論

蘇州大學自然語言處理實驗室在分析話題結構相關理論的基礎上提出了基于主述位理論的篇章微觀話題結構表示體系[33,34].該體系從篇章視角確立基本微觀話題單元,將該單元表示成包含主位和述位的實體形式化表示模式,并基于主位推進理論搭建基本微觀話題的上下文關聯模式,再融合實體和上下文關聯形成完整的漢語篇章話題結構表示體系.

2.2 資源建設

目前篇章結構的資源建設主要與上述篇章修辭結構(篇章連貫性)和篇章話題結構(篇章銜接性)理論體系相關,代表性資源包括修辭結構篇章樹庫(rhetorical structure theory discourse treebank,簡稱RST-DT)[35]、賓州篇章樹庫(Penn discourse treebank,簡稱 PDTB)[36]、ACE(automatic content extraction)評測語料[37]、ARRAU[38]、OntoNotes[39]和篇章圖庫(GraphBank)[40]等.

2.2.1 篇章修辭結構資源建設

目前與篇章修辭結構有關的英文資源主要包括賓州篇章樹庫PDTB[36]和修辭結構篇章樹庫RST-DT[35].

(1) PDTB:由美國賓夕法尼亞大學、意大利托里諾大學和英國愛丁堡大學聯合標注,并由 LDC(linguistic data consortium)于 2006年正式發布.2008年 PDTB 2.0發布,它是目前規模最大的英文篇章語料庫,共標注了40 600個關系,其中,包括18 439個顯式篇章關系,16 224個隱式篇章關系,624個由非連接詞表示的篇章關系,5 210個通過實體重復或共指表示的關系,還有254個相鄰句子不存在所定義的關系.

(2) RST-DT:由美國南加州加利福尼亞大學標注,并由LDC于2002年正式發布.RST-DT選用賓州樹庫的文章構建二叉修辭結構樹.RST-DT對EDU進行了嚴格的定義,規定主語或賓語從句不屬于EDU,充當主要動詞的補語的從句也不屬于EDU.此外,所有詞匯或句法標記的起狀語作用的從句屬于EDU,定語從句、后置的名詞修辭短語或將其他EDU分割開的從句或非謂語動詞短語為內置語篇單位.RST-DT完成了85篇文章的標注,共標注了53種單核心關系和25種多核心關系,這78種關系又分成16個組別,每組都具有相同的修辭功能.標注的文章內容涉及到財政報道、商業新聞、文化點評、讀者來信等多種話題.

相比英語,漢語篇章修辭結構的資源構建主要采用4種方法.

(1) 基于RST的標注

樂明[41]以RST為指導,參考漢語復句和句群理論,進行了篇章結構標注的嘗試.他定義了12類47種漢語修辭關系,以句號、問號、嘆號、分號、冒號、破折號、省略號及段落結束符等為標記定義漢語基本篇章單位,完成97篇財經評論文章的修辭結構標注,探索了中文篇章分析中采用 RST的可行性.陳莉萍[42]試圖采用RST標注漢語篇章,其基本篇章單位以標點分割,如“目前,…”中的“目前”也會作為基本篇章單位.他們的研究都表明RST的很多篇章關系無法在漢語中找到與之對應的關系.

(2) 基于PDTB體系的標注

Zhou和Xue[43]嘗試使用PDTB體系標注漢語,PDTB體系以連接詞為謂詞標注其論元結構,結合漢語自身的特點對PDTB體系進行了改進,并以此為參考從中文樹庫(Chinese Treebank,簡稱CTB)中選取了98篇新聞語料進行了標注.2015年,Zhou和Xue[44]進一步將該語料擴大到164篇,并最終提交LDC對外進行發布.但漢語中連接詞大量缺省,PDTB體系表現出很大的不適應;又由于連接詞并不能覆蓋每一個篇章單位,PDTB體系通常不能構建一個完整的篇章結構,這對篇章結構分析而言顯然缺少了很重要的內容.張牧宇等人[45]在英文篇章關系研究的基礎上分析了中英文的差異,總結了中文篇章語義分析的特點,提出一套面向中文的層次化篇章關系體系,并進行了標注實踐,目前發布了哈爾濱工業大學中文篇章關系語料(HIT-CDTB),該語料選取 LDC發布的OntoNotes 4.0中的525篇漢語文本按照PDTB體系進行了分句、復句和句群3個層次的篇章關系的標注.標注內容包括顯式篇章關系的關系連接詞、關系元素和關系類別信息;以及隱式關系的可插入的連接詞和篇章關系類別信息.他們將篇章關系分為時序、因果、條件、比較、擴展和并列這6類,標注的關系連接詞共1 472類.

(3) 采用漢語本土復句和句群理論標注

參考邢福義的漢語復句研究成果[17],華中師范大學標注了漢語復句語料庫[46],目前已收有標復句 658 447句,約44 395 000字,語料來源以《人民日報》和《長江日報》為主.但漢語有標復句只占漢語復句的30%左右,這就使得該語料庫的應用受到很大限制.而且該語料庫僅關注復句內部關系,沒有涉及句子及其以上篇章單位的結構問題,這顯然不能滿足篇章結構分析的需求.清華漢語樹庫(Tsinghua Chinese Treebank,簡稱TCT)[47]是從大規模的經過基本信息標注的漢語平衡語料庫中提取出100萬漢字規模的語料文本,經過自動斷句、自動句法分析和人工校對,形成的高質量漢語句法樹庫語料.TCT中標出了復句內各分句之間的關系信息,復句分類采用比較常用的并列關系、連貫關系、遞進關系、選擇關系、因果關系、目的關系、假設關系、條件關系、轉折關系分類方法.但清華漢語樹庫中沒有標注特定復句關系所對應的復句關系詞,也沒有標注句子之間的關系.

(4) 基于連接依存樹的篇章結構資源建設

蘇州大學自然語言處理實驗室結合PDTB和RST體系的優勢,提出了使用連接依存樹(CDT)表示漢語篇章修辭結構的方案,并基于該方案,選取賓州漢語樹庫6.0版(Penn Chinese TreeBank,CTB 6.0)上的500篇文章進行了篇章修辭結構的標注,構建了漢語連接詞驅動的篇章語料庫(CDTB)[19,20],每個段落標注為一棵連接依存樹,共有效標注2 342個篇章(段落),標注信息包括基本篇章單位、連接詞、篇章結構、篇章關系和主次篇章單位.

表1給出了篇章修辭結構的4種核心體系的對比情況,從中可以看出,CDT借鑒了RST、PDTB和漢語的復句、句群理論,一方面明確了EDU和篇章樹結構,考慮漢語中的復句,以標點句作為EDU判別的基本依據;另一方面兼顧了連接詞在篇章關系中的地位,以連接詞為關系類別判斷的基點,可實現關系不同分類體系的遷移.

Table 1 Comparison of several important architectures of discourse rhetorical structure表1 篇章修辭結構的核心體系的對比

表2給出了3個具有一定影響力的漢語篇章修辭結構語料庫的對比情況,其中,HIT-CDTB和LDC-CDTB都遵循了PDTB體系,進行了篇章關系的淺層標注,SUDA-CDTB則遵循了CDT體系,進行了篇章樹結構的標注.

Table 2 Comparison of Chinese corpora for discourse rhetorical structure表2 漢語篇章修辭結構語料庫對比

Table 2 Comparison of Chinese corpora for discourse rhetorical structure (Continued)表2 漢語篇章修辭結構語料庫對比(續)

2.2.2 篇章話題結構資源建設

篇章話題結構方面的語料庫相對較少,主要包括面向話題指稱結構、面向篇章意圖性、漢語篇章廣義話題結構和基于主述位理論的漢語微觀話題語料庫資源建設等.

(1) 面向話題指稱結構的語料庫資源建設

指稱結構是一種存在于篇章中前后兩個語言單位之間的特殊語義銜接關系,而確定兩者的過程即稱為指稱消解.目前主要的語料資源有ACE評測語料[37]、ARRAU語料庫[38]、OntoNotes語料庫[39].

? ACE評測語料

ACE是美國政府支持的自然語言處理重要會議,ACE語料評測起始于2000年,自2004年開始引入中文語料.ACE評測語料基于之前的MUC評測語料,其中的指代信息采用指代鏈的形式標注而成,每個指代鏈獨立編號并被記錄在文件中,而相同指代關系的實體都位于同一個指代鏈上.MUC和 ACE評測語料為面向銜接關系的自然語言處理研究提供了重要的語料資源,但在它們通過指代形成的語料銜接關系資源中,僅僅標注了顯式實體指代,而忽略了對隱式實體(或稱為省略)的指代標注.

? ARRAU語料庫

由University of Trento(意大利)和University of Essex(英國)針對較難處理的指代問題,聯合建立的指代標注語料庫.該語料包括對話、說明文和新聞報道,不僅標注了實體指代,也標注了抽象指代(如事件、行為指代),但并不包含漢語部分.

? OntoNotes語料庫

由 BBN Technologies、University of Colorado(美國)、University of Pennsylvania(美國)和 University of Southern California’s Information Sciences Institute(美國)相互合作創立.OntoNotes集成了多層面的標注,包括詞匯層面、句子層面和篇章層面的標注,并不為特定評測服務.OntoNotes在篇章層面主要包含實體間以及事件的共指關系.OntoNotes中既包含英語,也包含漢語,漢語部分還標注了主語位置的零指代信息.

雖然面向話題指稱結構的語料庫資源相對豐富,但是對于漢語中非常突出的零指代問題,資源卻非常匱乏.OntoNotes語料雖然包含了少量的主語位置的零指代信息,但該語料更多關注的是句法成分的缺失,面向篇章分析的零指代標注資源極其匱乏.

(2) 篇章意圖性資源建設

為克服子句間的多種篇章關系不能被樹模型的篇章結構有效表達這一缺陷,Wolf和Gibson提出了通過圖結構表示篇章的方法[40],并研究了篇章圖庫(discourse graph bank,簡稱DGB)的構建問題.同時,以該結構標注了135篇文章.該方法主要分為 3步:首先,根據標點符號將篇章分為基本單元(句子/子句),稱為篇章段(discourse segments);然后,再根據標點符號和話題,將上述基本單元歸并成組(group),每一個組都集中表達了某個話題;最后,確定基本單元、組之間的連貫關系(coherence).

(3) 漢語篇章廣義話題結構資源建設

在針對廣義話題結構理論的語料資源方面,宋柔課題組基于他們提出的廣義話題結構的概念,以標點句為基本篇章單位,開展了漢語篇章的話題結構標注工作[21-23].目前,已標注了《圍城》、《鹿鼎記》和其他語料(涉及章回小說、現代小說、百科全書、法律法規、散文、操作說明書等語體),共約 40萬字.其中,《鹿鼎記》第 1回的廣義話題結構標注及其說明已在網上公開發布(http://clip.blcu.edu.cn/).

(4) 基于主述位理論的漢語微觀話題語料庫資源建設

蘇州大學自然語言處理實驗室提出了基于主述位理論的篇章微觀話題結構表示體系[33,34],并據此標注形成了500篇文本的微觀話題結構語料庫CDTC(Chinese discourse topic corpus)[48,49].該語料從CTB 6.0中選取500篇文檔標注了基本篇章單元、基本篇章話題的主位(theme)和述位(rheme)、篇章微觀話題結構(micro-topic scheme)、微觀話題聯接、微觀話題鏈等信息,為微觀話題結構的自動分析奠定了基礎.

2.3 計算模型

基于不同的理論體系和相應的語料庫,近年來很多有關計算模型的研究工作陸續展開,下面我們就按研究的不同角度分別展開介紹.

2.3.1 篇章修辭結構計算模型

(1) 基于RST-DT的研究

基于RST-DT的篇章結構分析主要包含兩個子任務:EDU的識別和篇章連接關系的生成.其中,EDU的識別負責對文本進行切分,提取出EDU,即構造生成的修辭結構樹的樹葉;連接關系的生成則采用自底向上的方法生成修辭結構樹中的功能節點,并為每一節點確定一個最可能的修辭關系.

關于 EDU的自動識別研究較多,結果也比較理想.其中比較有代表性的研究包括:Soricut等人[50]采用基于統計的方法進行識別,EDU識別在自動句法樹上獲得F1值為83.1%,在標準句法樹上F1值為84.7%.Hernault等人[51]給出了一個基于序列數據標注的篇章分割模型,使用詞匯和句法特征,采用 CRF進行學習,實驗結果表明,作者的序列篇章分割模型F1值達到94%,接近于人工篇章分割的F1值98%.綜上可知,目前RST-DT上EDU識別準確率較高,但進一步提升的空間不大.

在篇章連接關系的生成方面,結果則不理想.Soricut等人[50]利用語法和詞法信息進行句子級的篇章結構分析,他們的算法稱為SPADE,在篇章關系識別時采用概率模型計算各種篇章關系的概率.篇章結構分析模型采用全自動的方法,識別無標注的篇章關系F1值為70.5%,采用正確的基本篇章單位和正確句法樹的結果是96.2%.但是,SPADE并不對整篇文本進行篇章關系識別.Huong等人[52]給出了一個文本自動篇章結構生成系統,該系統分為兩個層次:句子級的篇章結構分析和文本級的篇章結構分析.句子級的篇章結構分析使用句法和線索詞來進行基本篇章單位的識別和篇章結構的生成.對于篇章級別,為縮小篇章結構分析的搜索空間,加入了文本相鄰和文本組織限制.最終在縮小搜索空間后,系統的F1值達到了 70.1%,其缺點就是計算量較大.Hernault等人[53]在RST上實現了基于SVM的篇章結構分析器HILDA.對篇章切分和關系識別使用SVM訓練了分類器,采用貪婪的自底向上的方法構建篇章結構樹,篇章結構樹構建的時間復雜度取決于輸入文本的長度.HILDA在樹構建和篇章關系分析上的效果較好,結構識別F1值為72.3%,完整句法樹識別F1值為47.3%.Feng[54]在HILDA的基礎上進行了篇章結構樹的構建和關系識別,抽取了更豐富的特征,性能比 HILDA有所提升.Joty等人[55]給出一種使用動態條件隨機場進行句子級篇章分析的方法,使用人工 EDU切分結果識別 18類關系F1值為 77.1%.Surdeanu等人[56]利用感知器模型結合邏輯回歸算法進行結構創建和關系預測,同時,該分析器還借助預訓練的句法依存樹獲取句法特征.近幾年來,研究人員開始注重用若干篇章中文本的分布特征來表示篇章的內部單元.Braud等人[57]使用層次神經網絡模型(hierarchical bi-LSTM)構建了一個端到端的篇章分析器.Li等人[58]用基于注意力的層次型雙向LSTM模型結合CKY算法構建了圖篇章解析器.Braud等人[59]使用一種前饋神經網絡模型構建了兩種過渡型篇章分析器.Ji和Eisenstein[60]使用支持向量機結合shift-reduce轉移系統構建了DPLP篇章分析器.導致篇章分析結果較低的主要原因是 RST-DT中標注的篇章結構樹的數量有限,模型沒有能力獲取深層次的語義信息.

(2) 基于PDTB的研究

賓州篇章語料庫(PDTB)的構建,以及CoNLL 2015和2016年Shared Task的舉辦,顯著推動了篇章結構分析的研究,在篇章計算方面受到了極大的關注.

基于PDTB的篇章分析包含論元的抽取、篇章關系的識別和端到端系統的構建這3個方面,下面分別加以介紹.

? 論元的抽取

代表性的工作包括:Dines等人[61]針對Subordinate類型的連接詞提出了一種tree subtraction算法來自動完成句內論元的抽取,但該方法使用了一套具有很強針對性的規則,對其他類別的連接詞并不完全適用.Lin等人[62]借鑒 Dinesh的 tree subtraction算法,借助機器學習方法首先識別覆蓋論元的最小子樹,再利用 tree subtraction算法在子樹中抽取論元.但覆蓋論元的最小子樹也會包含非論元的部分,造成后續的抽取不能完全正確.他們的實驗結果也證實了這一點:完全精確匹配的標準下,Arg1和Arg2同時正確的性能僅為40%,而在部分匹配的標準下,這一性能可達到 80%以上.Wellner等人[63]提出一種機器學習的方法來確定連接詞對應論元Arg1和 Arg2的 head,但是 PDTB語料中并沒有標注論元的 head信息,因而評測上缺乏一致的標準.Ghosh等人[64,65]基于條件隨機場模型將論元抽取看成序列標注問題,給出了一個論元識別方案,但他們使用了一些來自PDTB的標準信息,例如語義類別、Arg2信息等,給出的結果也只考慮了標準句法樹,未對自動句法分析結果進行評測.Kong等人[66]借鑒SRL中的句法樹裁剪策略給出了一個論元構成子樹的提取方案,并借助ILP進行全局最優,大大提升了完全精確匹配下論元識別的性能.

? 篇章關系識別

Pitler等人[67]指出,在PDTB篇章語料庫中隱式篇章關系與顯式篇章關系大約各占一半.由于顯式篇章關系中連接詞(connective)的存在且歧義較少(大約只有 2%),因此比較容易識別.這使得隱式篇章關系研究成為篇章結構關系分析成敗的關鍵.識別隱式篇章關系的研究可以歸納為 3類:基于偽隱式篇章關系語料的研究,基于純隱式篇章關系語料的研究和基于偽隱式和純隱式的篇章關系混合語料研究.基于偽隱式關系的研究的代表性工作包括:Marcu和 Echihabi[68]首次提出使用無監督的方法識別隱式篇章關系.他們使用一系列文本模式從網絡上自動獲取語料資源,同時去除篇章連接詞構成一個偽隱式篇章關系語料.他們的實驗結果表明,使用詞對(word-pairs)特征為識別隱式篇章關系提供了幫助.Saito等人[69]擴展了他們的工作,從文本域中提取短語模式特征,實驗結果表明,同樣有助于提高隱式篇章分析的性能.盡管如此,我們認為偽隱式篇章關系并不能從真正意義上代表純隱式篇章關系,因為它們在表示關系上存在著很多的不同,比如隱式關系的存在表明上下文的聯系足夠強而不需要使用篇章連接詞來銜接.

隨著PDTB 2.0的發布,該語料顯式地區分了隱式篇章關系和顯式篇章關系,并且僅針對段落內相鄰句子間的隱式篇章關系進行標注.至此,很多工作開始側重研究純隱式篇章關系識別.這方面具有代表性的工作包括:Pitler等人[67]首次提出使用不同的語言學特征,比如動詞、極性和上下文環境等,識別隱式篇章關系.Lin等人[70]受Pitler等人的啟發,首次提出使用兩類句法特征,即成分句法推導規則和依存句法推導規則,來識別PDTB中第2層隱式篇章關系.Park和 Cardie[71]使用了貪婪的特征選擇算法確定了識別隱式篇章關系的最優特征子集.他們的實驗在第1層4大類關系上取得了最好的F1值.近年來,一些研究表明,樣本不平衡問題成為了提高隱式篇章分析性能的重大阻礙.有人提出使用偽隱式和純隱式關系混合的篇章關系來進行分析.相關工作包括:Zhou等人[72]使用語言模型來計算困惑度以判斷相鄰句子間插入連接詞的合理性.Biran和 McKeown[73]使用聚集詞對嘗試解決特征稀疏問題,但他們的實驗結果表明性能提升很小.為了解決隱式關系標注樣本缺少的問題,Lan等人[74]提出使用多任務學習的方法引入偽隱式篇章關系來輔助隱式篇章關系的識別.Zhou等人[75]提出一種基于信息檢索的無監督方法識別隱式篇章關系,他們利用 Web上的資源提取大量的偽隱式關系輔助識別隱式篇章關系.

近幾年,越來越多的研究人員開始尋求用神經網絡的方法來完成隱式篇章關系識別的任務.同時,為了緩解有標數據缺少帶來的問題,很多傳統算法和神經網絡算法都借助沒有標注的數據,輔助完成隱式篇章關系識別.Lan等人[76]提出了一種基于多任務注意力機制的神經網絡來解決隱式篇章關系的表示和識別問題,并取得了當前最好的性能.

? 端到端的篇章結構分析

Lin[77]研究如何在PDTB上進行篇章結構分析,對于難度較大的隱式篇章關系識別,采用上下文、詞對、句法特征、依存樹特征進行識別.整個系統包括連接詞識別、論元識別、顯式關系分類、隱式關系分類、屬性標注,這是第一個端到端的PDTB分析工作.此后,隨著CoNLL 2015和2016年Shared Task以端到端的篇章邏輯語義分析為任務,大量工作隨之展開,主要可以分成3類:一是跟隨Lin等人的工作,進一步完善各個模塊;二是借助ILP、Structured Perceptron等全局優化策略對系統進行全局優化;三是引入神經網絡、深度學習框架對平臺中影響性能的論元識別和隱式關系識別進行改進.

(3) 漢語篇章修辭結構分析

由于語料缺乏,這部分研究受到了制約.代表性的工作包括:張牧宇等人[78]在哈爾濱工業大學中文篇章關系語料(HIT-CDTB)上進行顯式篇章句間關系和隱式篇章句間關系識別,并給出初步的實驗結果,但其所標語料參考英語 PDTB體系,不能進行完全的篇章結構分析,只能進行部分篇章分析.CoNLL 2016的 Shared Task中以Zhou和Xue[44]標注的、LDC發布的CDTB V0.5為語料,引入了漢語淺層篇章修辭結構分析的任務,使得漢語淺層篇章修辭結構分析得到了一定的關注,但大部分工作都采取用英文一致的體系進行.涂眉等人[79]在TCT上進行了基于最大熵的漢語篇章結構自動分析方法,實驗結果表明,篇章語義單元自動切分的F1值能達到89.1%,當篇章語義結構樹高度不超過6層時,篇章語義關系標注的F1值為63%.Kong等人[80]基于蘇州大學的CDTB語料采用流水線的方式構建的端到端的中文篇章解析器,該平臺包括子句識別、連接詞識別與分類、隱式篇章關系識別、篇章單位主次識別等部件,最終輸出構建完成的篇章結構樹.在CDTB上的結構性能的F1值達到了46.7%,但若再綜合進篇章樹中的每個關系的具體屬性,整個分析器的F1性能只有20.0%.Jia等人[81]利用轉移系統和深度學習的方法,給出了一個完整的從平文本到樹形結構的篇章結構自動解析框架,在英文RST和蘇州大學的 CDTB語料上都取得了較好的性能.孫成等人[82]給出了一個完整的基于轉移系統的篇章結構樹的生成框架,并參考RST上相關評價體系給出了完整的漢語篇章結構樹的評價體系.

2.3.2 篇章話題結構計算模型

受限于理論體系的可計算性和相應語料資源的匱乏,目前有關篇章話題結構的計算模型研究主要集中在指代結構的研究,而指代結構的研究又分別從實體指代、事件指代和零指代3方面展開.

(1) 實體指代消解研究

作為信息抽取的核心組成部分之一,指代消解一直都是自然語言處理領域的一個研究熱點.早期指代消解方法均采用啟發式規則方法,從 20世紀 90年代開始,隨著各類指代消解標注語料的不斷發布以及一些有影響力的自然語言處理會議和公開評測的召開,例如 MUC(Message Understanding Conf.)[83,84]、ACE(automatic content extraction)[37]、CoNLL shared task[85,86]等,指代消解的研究重點也轉向了數據驅動的指代消解方法研究.目前主流的方法有:

· 基于規則的方法:2010年,Raghunathan等人[87]提出了一個基于多重過濾框架的共指消解模型.這個框架是由 7個消解模塊組成,這些模塊按照精度從高到低進行排列,每一層的輸入以上一層輸出的實體聚類體為基礎.該框架通過共享屬性傳遞全局信息保證了強屬性信息的功能要優于弱屬性,也使得過濾模型做出共指判斷時能使用所有的屬性信息.2011年,Lee等人[88]基于Raghunathan的思想進行了擴展,通過添加過濾器,增加候選先行語的抽取和確定以及全局優化,使得系統在CoNLL-2011 Shared Task測評中獲得最高的準確率.

· 基于統計的方法:1999年,Cardie等人[89]提出通過聚類方法進行名詞短語的同指消解,其基本思想是收集篇章中的基本名詞短語,根據短語的特征對名詞短語聚類,判斷兩個名詞是否屬于同一個類.

· 基于分類的方法:1995年,McCarthy[90]把判斷先行語的問題轉換成分類問題,通過分類器判斷指代語與每個先行詞候選之間是否存在指代關系.這一思想為日后指代消解的研究開辟了一條全新的道路.Soon等人[91]則給出了詳盡且完整的實現步驟,并開發出實用的系統.在此基礎上,許多研究者進行了不同程度的擴充和改進,主要包含3類:(1) 抽取強而有力的平面特征以及篇章中結構化信息支持學習模型.例如,2012年,孔芳等人[92]提出基于樹核函數的中英文消解方法;(2) 單一模型向多重模型融合逐漸演變,并以此增強分類器效果.例如,2012年,Xu等人[93]提出融合基于規則與基于分類的方法用于指代消解;(3) 優化共指鏈的形成.2012年,Belder等人[94]提出一種新的方法優化二元分類后共指鏈鏈接問題,把共指鏈接問題看成是一個線性規劃問題,并提出用列生成的方法獲取最優解以此達到準確消解的目的.

· 深度學習方法:深度學習是通過模擬人腦神經元和突觸處理感知信號的過程,構建含多個隱層的機器學習模型.其主要優勢在于能自動地學習數據中比淺層特征更加抽象的高層特征表示.Wiseman[95]提出利用循環神經網絡來學習潛在的、全局的實體聚類的特征表示,利用貪婪搜索算法實現實體-實體表達模型.Clark[96]使用增強學習方法結合神經網絡對實體表達排序模型進行直接優化,并提出了兩種優化算法:增強策略梯度算法和獎勵重調最大化算法,后者實現了更好的性能.Lee[97]利用循環神經網絡對實體表達的上下文信息進行編碼,結合單詞的分布式表達,利用注意力機制形成 mention的有效表示,然后最大化得分函數來訓練神經網絡,在CoNLL 2012任務上取得了最好的結果.

上述研究主要針對英文.相比英文指代消解,目前漢語指代消解的研究要少很多,主要屬于跟進型研究.代表工作包括:王厚峰等人[98-100]分別從領域和語義等知識出發,提取規則進行了指代消解的研究;李國臣等人[101]將英文平臺的類似做法移植到中文指代消解中,采用決策樹方法對中文人稱代詞的消解進行了研究.周俊生等人[102]提出了一種基于圖劃分的無監督的漢語指代消解算法,其性能與監督的漢語指代消解性能相當;楊勇等人[103]給出了一個基于機器學習的指代消解平臺,并對指代消解中各類距離特征對指代消解性能的影響進行了深入的探索;王海東等人[104]探索了語義角色對指代消解性能的影響,他們的研究表明,語義角色信息的引入能夠顯著提高指代消解的性能;李渝勤等人[105]針對基于機器學習的中文共指消解中不同類別名詞短語特征向量的使用差異,提出一種基于特征分選策略的方法,提高了共指消解的性能.張牧宇等人[106]提出一種利用中心語信息的新方法.該方法首先引進一種基于簡單平面特征的實例匹配算法用于共指消解.在此基礎上,又引入了先行語與照應語的中心語字符串作為新特征,并提出一種競爭模式,將中心語約束融合進實例匹配算法,提升了消解效果.Song等人[107]提出一種基于馬爾可夫邏輯網的共指消解模型.

(2) 零指代研究

除上述名詞短語的指代消解外,零指代現象在中文中頻繁出現,近年來,中文零指代成為研究熱點.代表性的工作有:Zhao等人[108]給出一個完整的基于機器學習的中文零指代消解方案,并提出一套有效的適用于中文零指代任務的特征集合.但是他們的工作主要關注零指代的消解子任務,對零指代項的識別僅給出一個保證高召回率的規則方法.他們的實驗結果也表明,過低的零指代項識別準確率會嚴重影響后續消解的性能.Kong等人[109]給出一個中文零指代消解的完整框架,將中文零指代消解清晰地劃分成零元素識別、零待消解項識別和零元素消解 3個子任務,并采用基于樹核函數的方法分別給出每一個子任務適用的結構化特征集.但是,他們僅關注平臺的統一性,只給出了標準句法樹上平臺的性能,未給出完全自動狀況下方法有效性的驗證.Chen等人[110]首次給出完整的端到端的全自動狀況下的中文零指代消解平臺,并提出一組更有效的句法和上下文特征.Chen等人[111]給出一個無監督方法的生成式模型,并借助它進行中文零指代消解.基于這一工作,Chen等人[112]進一步在生成式模型中基于概率將零待消解項識別和消解任務進行聯合學習,取得了一定性能的提升.Chen等人[113]又進一步在該平臺中引入深度學習方法,取得了更好的性能.Sheng等人[114]在傳統零指代消解平臺中考慮了篇章修辭結構信息,從篇章修辭樹結構中提取各類篇章級的信息來幫助中文零指代,并通過一系列實驗驗證了修辭結構信息的引入能夠提升中文零指代的性能.Kong和 Zhou[115]參考普通名詞短語消解平臺的研究進展,提出了一種全新的鏈到鏈的中文零指代消解方案,其基本思想是將普通名詞短語的指代消解結果看作對中文零元素的先行詞候選的一種過濾,并以指代鏈為單位進行中文零指代消解,實驗取得了目前最好的性能.Yin等人[116]提出了一個借助深度記憶網絡將零元素的上下文信息向量化,從而自動學習相關的語義信息來幫助零指代.Zhang等人[117]給出了一種深度神經網絡方法,通過對零元素的上下文和可能的先行詞候選及其上下文進行高效的向量化表征來提升零指代的性能.Liu等人[118]為了解決零指代標注語料不足這一問題提出了一種自動生成大規模偽訓練語料的方法,使用這些偽語料,借助神經網絡方法提升漢語零指代消解的性能.進一步地,Yin等人[119]在神經網絡平臺中引入強化學習策略,進一步提升了漢語零指代消解的性能.

(3) 事件指代消解研究

受限于標注語料及任務的復雜度,相比實體指代消解而言,事件指代消解的相關研究剛剛起步,大多參考實體指代消解的解決思路.主要的代表性工作有:2006年,Ahn[120]通過構建事件對,計算事件對之間的相似度來判斷事件的同指關系.隨著機器學習方法的推進,事件指代消解任務的研究轉向通過人工構建事件的特征來計算事件之間的“距離”,進而判斷同指關系.Chen等人[121]利用最大熵模型建立事件指代消解系統,并在各項評測指標下評估了系統的性能.Bejan和Harabagiu[122]運用無監督的非參貝葉斯模型將詞匯特征和WordNet中的語義相似度引入事件指代消解任務中.2015年,Araki等人[123]首次提出一種聯合學習模型,即將事件抽取任務和事件指代消解任務同時研究.隨后Lu和Ng[124]也構建了一個基于一元二元以及三元特征融合的聯合學習模型.近年來,神經網絡在自然語言處理的各個領域都取得不錯的研究成果,Nguyen[125]通過非連續卷積模型在 KBP[126]語料上完成事件指代消解任務的研究.同年,Krause等人[127]也搭建了卷積神經網絡模型,并在ACE和ACE++語料進行了相關任務研究.在中文事件指代消解方面,受限于語料,目前只有少量工作,代表性工作包括:Lu和 Ng[124]構建的平臺不僅匯報了英文事件指代消解的性能,也匯報了 KBP中文語料上的性能;滕佳月等人[128,129]基于ACE中文語料進行了中文事件指代消解的研究,并提出了基于全局優化進行性能改善的策略.

除指代外,針對篇章意圖性的計算模型的研究很少,代表性工作是Pustejovsky等人[130]在GraphBank上的相關工作,他們對 GraphBank進行了分析,認為篇章連接詞和兩個句子間的跨度距離是高效識別顯式和隱式篇章關系的關鍵因素.

2.4 存在的問題和研究趨勢

從上述國內外研究現狀的分析中我們可以看到,相比英語,漢語的篇章研究剛剛起步,漢語篇章閱讀理解研究鮮有見諸文獻.目前漢語篇章理解還存在如下一些主要問題.

(1) 適用于漢語篇章閱讀理解的篇章結構理論體系很不完善.有必要借鑒英語的相關篇章理論,并結合漢語特點和復句、句群、廣義話題結構等本土理論,逐步建立漢語篇章結構理論體系.

(2) 適用于漢語篇章閱讀理解的篇章結構大規模標注資源非常缺乏.雖然有一些研究者,或基于英語篇章理論體系,或基于漢語的復句、句群和廣義話題結構等理論,對漢語篇章結構資源庫展開了研究,但相關研究比較分散,大多屬于探索性工作,有待進一步深入、系統地進行研究.

(3) 適用于漢語篇章閱讀理解的篇章結構分析關鍵技術十分匱乏.由于適用于漢語篇章結構分析的理論體系尚未有效建立,相關標注資源缺乏,因此很難大規模有效地進行關鍵技術研究.

(4) 篇章理解需要涉及不同視角、不同層次的篇章結構分析結果,各種結構間也存在明顯的互補關系,構建統一體系(包括理論體系和資源)進行多視角、多層次的聯合分析研究,有待進一步深入.

2.5 機器閱讀理解的相關研究

雖然適用于漢語篇章閱讀理解的篇章結構分析研究處于起步階段,機器閱讀理解的相關研究卻吸引了眾多研究者.目前,機器閱讀理解方面已經開展了一些工作,具體包括:Hermann等人[131]借助爬蟲技術從CNN和每日郵報新聞網頁爬取數據,構建了一個完形填空類型(cloze-style)的閱讀理解數據庫CNN and Daily Mail.2016年,斯坦福大學通過亞馬遜眾包平臺建立了一個新的閱讀理解數據集 SQuAD[132],它包含 536篇維基百科文章,100 000多個問題,而且每篇文章都是經過人工閱讀,提出問題并給出答案片段.微軟公司選取了100 000多名用戶通過Bing搜索引擎提出的問題,每一個問題都會對應大約10篇相關的從網頁抽取的文章,相關人員會根據10篇文章給出問題的答案,以此構建了MS MARCO[133]語料庫.隨著這些語料的正式發布,各種機器學習方法、深度神經網絡方法和 attention機制都不斷被提出并被應用到這一任務中[134-142].此外,Cui等人[143]發布了第一個中文cloze-style閱讀理解語料People Daily News數據集和Children’s Fairy Tale(CFT)數據集.從2017年至今,“訊飛杯”中文機器閱讀理解評測已經成功舉辦兩屆,從第1屆以填空型閱讀理解問題為主,到第2屆關注基于篇章片段抽取的閱讀理解,評測會議發布了人工標注的中文填空型和篇章片段抽取型閱讀理解的數據集[144],很多的相關研究也在這些數據集上有所展開.但本質上,這些工作只是把篇章看作一個詞符號序列,缺乏真正意義上的篇章理解.當然,從另一層面而言,這些研究也大大推動了人們對篇章理解的關注和重視.例如,NSFC最近幾年就批準了多個漢語篇章理解方向的重點項目和人工智能應急重點項目,包括哈爾濱工業大學劉挺主持的篇章級中文語義分析理論與方法,中國科學院自動化研究所宗成慶主持的漢語多層次語篇分析理論方法研究與應用,蘇州大學張民主持的面向多層次篇章語義的機器翻譯理論、方法與實現,北京理工大學黃河燕主持的中文語義深度計算與閱讀理解,以及蘇州大學周國棟主持的話題驅動的漢語篇章機器閱讀理解等.

3 總 結

綜上所述,在自然語言處理領域,與詞法分析、句法分析等研究相比,篇章結構分析研究相對滯后.特別是適用于漢語篇章閱讀理解的篇章結構分析研究還處于起步階段,尚未形成一套有效的理論體系,相應語料庫資源建設薄弱,關鍵技術研究嚴重滯后.相應地,機器閱讀理解的相關研究也剛剛起步,目前主要是基于檢索技術的相關片段抽取,缺乏真正意義上的篇章理解.眾所周知,與英語等西方語言相比,漢語無論是篇章結構和信息意圖表達方式,還是事件描述方式和話題表述方式等方面都有較大的差異.這就迫切需要進一步完善適用于漢語篇章閱讀理解的篇章結構理論體系,建立一定規模的適用于漢語篇章閱讀理解的漢語篇章結構資源庫,并在此基礎上建立漢語篇章結構分析的計算模型,實現高性能的漢語篇章結構分析和篇章深度理解平臺,為自然語言理解和篇章級應用提供基礎支撐.

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 国产亚洲精久久久久久无码AV| 亚洲色图在线观看| 日韩在线欧美在线| 久996视频精品免费观看| 日本成人一区| 99久久亚洲综合精品TS| 国产亚洲精品97AA片在线播放| 日韩欧美一区在线观看| 凹凸国产熟女精品视频| 91丝袜乱伦| 欧美国产日韩一区二区三区精品影视| 91探花国产综合在线精品| 国产黄色爱视频| 中文字幕无码av专区久久| 潮喷在线无码白浆| 亚洲欧美一区二区三区图片| 91精品人妻互换| 一本综合久久| 国产精品无码久久久久久| 亚洲人成日本在线观看| 久久久久国产一级毛片高清板| 91亚瑟视频| 青青草一区二区免费精品| 老熟妇喷水一区二区三区| 日韩在线播放中文字幕| 丰满人妻久久中文字幕| 国产精品九九视频| 在线日本国产成人免费的| 亚洲国产天堂在线观看| 一级毛片中文字幕| 国产无码制服丝袜| 精品久久久久久中文字幕女| 人人澡人人爽欧美一区| 国产内射一区亚洲| 国产伦精品一区二区三区视频优播 | 97se亚洲综合| 婷婷亚洲天堂| 午夜小视频在线| 国产精品99久久久久久董美香 | 在线观看国产精美视频| 欧美97欧美综合色伦图| 97国产一区二区精品久久呦| 熟妇人妻无乱码中文字幕真矢织江| 国产产在线精品亚洲aavv| 日本五区在线不卡精品| 国产免费a级片| 色噜噜在线观看| 国产精品久久久精品三级| 在线观看国产黄色| 久久综合五月| 国产精品私拍在线爆乳| 中文字幕久久波多野结衣| 波多野结衣一区二区三区AV| 九色免费视频| 国产高清在线观看91精品| 天天做天天爱夜夜爽毛片毛片| 成AV人片一区二区三区久久| 国产成人无码AV在线播放动漫| 国产成人精品免费视频大全五级| 亚洲色婷婷一区二区| julia中文字幕久久亚洲| 国产爽妇精品| 日本免费a视频| 国产日韩av在线播放| 91av成人日本不卡三区| 岛国精品一区免费视频在线观看| 国产成人a在线观看视频| 国产免费久久精品99re不卡| 67194在线午夜亚洲| 亚洲国产av无码综合原创国产| 国产精品黄色片| 永久免费AⅤ无码网站在线观看| 国产在线小视频| 国产无码网站在线观看| 99爱在线| 国产人碰人摸人爱免费视频| 人妻一区二区三区无码精品一区 | 精品少妇人妻一区二区| 国产成熟女人性满足视频| 在线视频一区二区三区不卡| 亚洲日本中文综合在线| 91精品国产情侣高潮露脸|