盧露 矯紅巖 李夢 荀恩東
20世紀90 年代以來,漢語開發了很多體系成熟、影響較大、規模不等的樹庫,短語結構樹以賓州中文樹庫(Chinese treebank,CTB)[1]、北京大學漢語樹庫(Peking University treebank,PCT)[2]、清華漢語樹庫(Tshinghua Chinese treebank,TCT)[3]等為代表,依存結構樹主要有Chen等[4]的Sinica、哈爾濱工業大學中文依存樹庫(HIT Chinese dependency treebank,HIT-CDT)[5]、蘇州大學漢語依存樹庫[6]等.短語結構樹細致地描寫了句子結構層次、短語的類別與功能,轉換為淺層結構樹與依存關系樹較為容易,但往往中心詞、語義關系不突出,節點與標簽較多,計算開銷大;依存結構樹突出中心詞信息及依存關系,便于轉化為語義依存描述[7],同時,計算開銷較少,符合語言直覺而更易于標注,但缺乏短語類別與整體功能信息,缺乏明確依存關系的現象較多,長距離依存也難以被解析.一些樹庫嘗試融合短語結構樹與依存樹的優點,如TCT、北京大學多視圖依存樹庫(Peking University multi-view Chinese treebank,PMT)[8].為克服長句分析不理想的問題,組塊分析采取 “分而治之”的策略,北京大學中文語塊庫(Chinese chunkbank)[9]根據句法功能,無嵌套地標注句子骨架,中文命題樹庫(Chinese proposition bank,CPB)[10]探索 “謂詞?論元”結構(Predicate-argument structure)的語義組塊分析,這些樹庫初步探索了漢語淺層分析樹庫構建、組塊自動分析;隨著篇章級句分析及句間關系日漸被重視,TCT與PCT 則在構建樹庫的同時,以傳統單復句理論為指導,區分單復句、句群,TCT同時標注句間關系,PCT 則初步區分了篇章標記;而一些篇章理論與語料庫則不同程度地探討了顯明篇章標記的作用與分布,并結合實際需求深入探討了漢語 “句”邊界問題[11].
整體而言,現有樹庫在規模與句法表示方面主要面臨兩個挑戰: 1)大規模標注困難.全樹句法分析技術在大規模真實語料上正確率不高[12],現有樹庫標注體系及加工模式,人工擴大規模難以既保證標注質量,又兼顧標注規模與速度.2)對雖在句中但屬于篇章層面、語用表達層面的成分處理牽強,要么將其納入句法分析范疇,增加了句法分析的冗余度與難度,要么被看作一種可忽略或消除的噪音[1?2],忽視了篇章的完整性與銜接連貫性,不便于樹庫系統地擴展標注層次,也不利于分析非標準書面語文本.
此外,大部分樹庫主要采用20 世紀末至21 世紀初的新聞雜志語料,領域相關性問題促使不少樹庫,加入了部分學術科技類、應用類、口語類等非標準書面語語料[1, 3, 6, 8, 13].然而,一方面,句法結構標注難度限制了標注速度與規模,各樹庫主要在100~250 萬漢字之間;另一方面,忽視了大規模真實語料中標點往往具有高歧義性、缺失性、錯誤性的現象,很難在標點斷句的基礎上實現有效句法分析及標注的高一致性.
本文提出一種利于大規模加工的淺層句法標注體系: 以明確的斷句方法,盡可能地反映開放域篇章中句子的結構,提高標注一致性;根據短語功能與句法角色,將句子分析為由句法成分、銜接成分、輔助成分構成的塊狀組合序列,以組塊狀短語結構樹為句法表示(見圖1),直接根據各組塊的性質及功能,標注句子骨架,突出中心詞信息.以該標注體系為指導,初步完成樹庫1.0 構建工作: 包含Kappa值大于0.8 的合格文本1 萬余篇,共計1 千余萬字,由于樹庫構建將以短語結構標注為基礎,分級分層逐步完成缺省結構、句間結構標注,因此先行構建淺層句法結構樹庫,因此為后續應用任務及組塊依存結構標注、句間關系標注奠定了基礎。

圖1 組塊狀標注結果及淺層分析的樹結構示例Fig.1 A sample of shallow chunk-based syntactic tree
本文結構如下: 第1 節介紹本樹庫的設計,第2 節介紹本樹庫標注實踐,第3 節對樹庫已有數據進行統計分析,第4 節為總結和展望.
盡可能保持樹庫中篇章語料完整性,不作刪減;句子成分,不獨以句法功能作為劃分標準及取舍標準,也考慮部分成分表達句間語義結構關系的篇章功能[11]、表達語氣的復雜功能[14],對這些成分不勉強納入句法分析,也不籠統歸入可忽略部分,根據功能與用途加以分析;從而逐步構建一個以短語結構標注為基礎,包含組塊依存及話題共享結構、句間關系結構標注的多層次樹庫,本文稱這種樹庫為基于篇章的樹庫.本文主要介紹先行構建的、以淺層骨架分析為主的短語結構樹庫.
在篇章中分析句子,無論是自底向上,還是自頂向下,都繞不開分句,建立合理又系統的標準以確立小句邊界是首要任務,繼而才能在小句的基礎上探討組塊邊界與結構,最后根據所確定的語塊關系設計標注符號;為說明方便,本文先假定已進行了分句處理,從組塊及標注符號開始說明,最后介紹句邊界標準設定(詳見第2.2.3 節).
1.1.1 短語結構樹中組塊的種類與定義
篇章中的句子之間并非孤立存在,而是通過指稱、結構銜接、邏輯連接等手段組織起來的[15],因此,一些句子成分作為組織篇章的手段,雖不一定參與句法構造,但對篇章分析尤為重要,不能將其籠統地看作冗余成分;而漢語中一些表達語氣、態度、意圖等虛詞也并非全然是句法分析層面的問題.為盡可能清楚地描寫 “謂詞?論元”結構為中心的句子骨架,本文在句中根據詞或短語在句中的功能與用途,將組塊分為3 類: 構成基本句子結構的句法成分組塊;起銜接上下文的銜接組塊;表達附加性語義的輔助組塊.
短語結構標注的主要任務是解決句子結構層次問題,但同時也盡可能為后續組塊依存與話題結構、句間結構標注打下基礎,樹庫以充當謂語的最長短語組塊中的謂詞為核心,標注最長主語塊、賓語塊與謂詞的主謂賓結構,以及最長狀語塊、補語塊與謂詞的狀中補結構,目的在于識別如下功能塊邊界及相互之間關系:
充當謂語的最長短語塊—“述語”,述語包括一個核心謂詞,及修飾補充核心謂詞的狀語塊、補語塊;此外,一些修飾或補充性成分并不與核心謂詞比鄰,而是游離在主賓語前后,但這種成分除了少數只出現在句首的狀語外,都可看作修飾、補充說明核心謂詞的成分,本文將其稱為 “句飾語”,也是狀語、補語的一部分.需要說明的是,本文認為述語是句子核心,不可或缺,除了獨詞句外,每個句子都有述語,缺省述語的情況下將補出述語空位;而對于多謂詞結構連用,如復謂句中的多謂詞結構連用,則認可該句有多個謂詞核心;對充當主語與賓語的謂詞性結構,進行進一步的遞歸分析.這與其他類似樹庫有所區別,如CTB 強調每個句子都有主語,而本文則強調每個句子都必須有述語;而強調謂詞性主語與賓語的遞歸分析也是與語塊庫的顯著區別,謂詞性組塊的遞歸分析,避免了組塊分析過于平鋪、籠統,有助于更準確地進行句法分析、后續擴展標注;然而,在本階段雖然強調了述語的中心謂詞與狀語、補語邊界,但未對狀語與補語內部作進一步分析,容易導致狀語與補語冗長,使得一些重要句法語義信息不突出,這是后期擴展階段需要解決的問題.
主語塊與賓語塊是相對述語的句法位置的,因其分布在述語兩側,稱為 “主賓語”,其內部差異由其與述語塊的相對位置標識.
銜接性成分和輔助性成分與述語在結構上,并不直接相關.前者起著連接上下文的作用,后者幫助表達語氣與狀態、引起話題注意等,分別認定為“銜接語”、“輔助語”.
銜接語除了傳統單復句理論中篇章連接詞外[16](這部分詞較封閉,大約在450 個左右),也包括一些難以進行句法分析但起顯明連接作用的標記成分,系統功能語法中以元話語標記來分析具有篇章組織功能的成分,這是一種結合緊密、高頻使用、主要表達程序意義、具有語篇組織功能及人際功能的語言單位.徐赳赳[17]將書面形式的元話語概括為詞匯元話語、標點元話語和視覺元話語.詞匯元話語主要由詞匯化、語法化的話語標記充當,話語標記的語篇功能,有著與傳統連接詞相似的語篇連接作用、句法功能邊緣化的特點[18?19],因此本文也將其看作一類銜接組塊,這類詞很難精確個數,但往往以某類構式為標記,如 “代詞+感官類動詞”,漢語中常用的話語標記大約在400 個左右.此外,標點元話語起連接作用的主要是一些插補成分.在篇章行文過程中,臨時插入到詞串序列中,以補充、解釋、說明、強調前面提到的內容,但并不與前后語言單位有句法結構關系,本文也將其看作一種銜接組塊,以 “尤其是” “特別是” “如”最為常見,在書面上,這些插補成分往往前后有逗號、破折號,或者被括號 “()、[ ]”封閉標識出來.事實上,一些樹庫,如CTB、TCT、PCT,在構建過程中,已有意識地將部分高頻出現的元話語在性質與功能上加以區分,但并未對這類成分進行系統探討,通常優先將其分析為狀語、謂語等,只有實在難以進行句法分析的成分,才單獨分析,主觀性較大.
輔助語主要包括語氣詞、語氣輔助語、呼應詞、感嘆詞、擬聲語、“是······的”等;其中,語氣輔助語是指原本具有實在意義的詞或詞組在句中語義泛化,不帶后續成分,不具言說義,成為非語義重心,發生詞匯化、語法化,幫助表達語氣的詞或詞組(如: “我們去食堂好不好/行不行/對不對?”);“是······的”中這種 “是” “的”,作用是指明全句焦點或強調謂語、表達對主語的評議、敘述、描寫.其歸屬問題,學界莫衷一是,本樹庫將其處理為輔助語,目的并非為其最終定性,而是為了標引出來,以便后期根據需要進行合適的處理;其他主要是指用在謂詞后,不做述語的助詞,如 “罷了”、“而已”等.
人工標注時,只需要根據各組塊的定義,以幾個簡單的標注符號直接標注.述語組塊方面,以 “()”標注述語及核心謂詞的左右邊界,“{}”標注主謂謂語句的謂語的左右邊界,“[]”標注句飾語;主賓組塊方面,以 “||”標注雙賓語之間的邊界,“{}”也標注謂詞性主語與賓語,而體詞性的主賓語因其他組塊邊界的區分而自然得以區分;以 “<>”標注銜接組塊;以 “<<>>”標注輔助組塊.如 “<但是>多數人(還是(受)不了)這份苦<<啊>>.”,通過組塊的界定,以及分類的標注符號,專業的標注人員能以更符合語言直覺的方式,區分出銜接組塊、主語塊、狀語塊、核心謂詞塊、補語塊、輔助組塊.
此外,以 “|”作為增加句邊界的符號,以 “\”作為取消句邊界的符號(詳見第2.1.2 節);對文句錯誤,難以分析的句子,以 “** **”標注錯句左右邊界,內部不再進行分析.
至此,本文便以符合語言直覺的方式,在可分析的線性序列上,窮盡所有句子成分,完整地刻畫出了句子以述語中的核心謂詞為中心的句子骨架.人工標注的句子骨架可以通過代碼無歧義地轉化為組塊狀句法結構樹,也可部分地轉化為組塊狀依存結構,為后續樹庫擴展標注打下基礎.
1.1.2 篇章中 “句”的層次與邊界標記
篇章中的句法分析、結構分析,“句”都是最基本的分析單元.然而漢語并無被廣泛認可的 “句”定義,篇章分析理論中,普遍以句號、問號、嘆號作為句邊界,將篇章切割為一個個待分析的句子,但大規模非標注書面語文本中,幾乎所有斷句標點都可能存在歧義性,也存在缺失或缺省的情況;而從句調以及完整性等語音、句法角度籠統地對 “句”定義,又缺少理論依據,進而缺乏應用的指導意義[20].大規模樹庫構建,如無系統的斷句標準,一方面影響標注者對各層級標注單元判斷的一致性,從而影響數據質量,另一方面也不利于后期樹庫的使用與系統擴展.
從符合漢語基本原理及可計算的角度,本文基本保持篇章原有段落結構,在段落層面采納了傳統單復句的篇章理論,將篇章中的 “句”首先分為單句、復句.單句,由句法成分、輔助成分、銜接成分構成,獨立表達完整語義,與其他 “句”沒有依存關系.復句,復句是由分句構成的表達一套完整語義的句子;分句又由相對獨立又互相依存的 “小句”和 “片段”構成;小句由句法成分或輔助成分、銜接成分構成,而片段是指能獨立表達一定邏輯關系、施為義、情感態度義,但需要語境才能較為獨立表達意義,一般由銜接成分、輔助成分充當.因此,自底向上地:小句作為基本句單位,可獨立充當單句,也可與其他小句形成分句關系,共同構成復句;一些片段主要起連接作用、語氣作用,也可看作一種特殊的分句;而若干單句或復句構成段落,若干段落構成篇章(見圖2).
如此,在短語結構的句法樹上,復句和單句都有根節點(ROOT),單句與分句都必有一層小句節點(Independent phrase,IP),分句可能還有一層片段節點(Holophrastic phrase,HLP) (見圖2).樹庫中有句層次標注的樹庫不多,CTB 從性質和功能角度,描寫了簡單子句(IP)與復雜子句(CP)、祈使語氣(IMP)與疑問語氣(Q);TCT與PCT,則以整句(ZJ)、復句(FJ)、單句(DJ)、句群(JQ)描述句子間組合層次;此外,TCT 也對句間關系進行了標注;本文句的描寫與TCT、PCT 更接近,借鑒了傳統單復句理論,對句間組合層次作了必要的標識,對句子類型、句間關系的標識目前并未涉獵,將留待句間結構標注完成,不過對各層級句間邊界的判斷、銜接成分(其他樹庫稱為語篇成分、篇章連接成分等)的判斷標準更為明確客觀,從而降低了主觀隨意性.

圖2 篇章中 “句”的層次結構示例Fig.2 A Sample of the hierarchy in Chinese discourse sentences
有了對篇章中 “句”的層次結構區分后,就可對各層次的句設定更為清晰的邊界標準了.本文綜合前人研究成果,歸納了3 條允許標注者增加或刪除句邊界的標準: “終止性停頓標志” “互不作句法成分” “表述功能” (限于篇幅,僅簡要介紹,具體論證將另行他文).
終止性停頓標志,主要指有斷句作用的標點符號及一個標點句中多個謂詞所支配的主語不同的情況.
標點符號往往是篇章中句邊界的顯性標記,根據上述 “句”層次,本文將句號、問號、嘆號、省略號、分號、冒號作為可標記單句、復句邊界的標點符號;逗號、破折號作為標記分句邊界的標點符號;這8個標點符號統稱為標句點號,是一種重要的終止性停頓標記.在分句時,首先默認標句點號切句功能,在此處斷句,但遇到并非表達成句作用時再根據其他標準取消其斷句功能.
在一個標句點號所分割出來的句子內,可能包含多個述語組塊(形式上如同復謂句),而述語組塊所支配的主語塊并不相同,即在連續的無標句點號的詞串序列中,包含、隱含著兩個不同的獨立主語或主語只在后一個述語塊前出現,形成兩個較為獨立的命題,如例句1~ 3 中,豎線比鄰的詞組分屬兩個不同的命題結構,包含或隱含著兩個迥異的主語.如果不加以分割,無論是句法分析還是后續話題結構標注都會受到影響.這種包含兩個命題結構的詞串序列,前一組合結構后的賓語或后一組合的主語,本文稱其為 “換主語”標記,是一種終止性停頓標記.這種情況往往出現在 “V1NV2”詞串序列中,以及非規范,或錯誤使用標點造成標句點號缺省的詞串序列中.
例句1.剛想拿起來讀 | 書就掉了.
例句2.內線(打不開) | (贏不了)對方!
例句3.(不(發酵))| 面包(會比較(干)).
標句點號與 “換主語”標記作為兩種 “終止性停頓標志”作用互補.標句點號針對大概率的句邊界顯性標記,而 “換主語”標記是針對標句點號缺失的情況設定的句邊界.
標句點號的不可靠性不僅表現為可作句邊界的標點缺位,也往往表現為語音停頓與切句停頓不一致的矛盾.此時,需要從句法上加以區分: 線性序列上,標句點號比鄰的兩部分內容有主謂結構、狀中/定中結構、述補結構關系,則認為標句點號比鄰的兩部分是一個單句或一個分句,否則是兩個單句或兩個分句.這種判別標準稱為 “互不作句法成分”,用以解決標句點號歧義問題,如:
例句4.5G (是)在4G 基礎上\,把人的連接拓展為物的連接.
例句5.13 億多中國人{,一個(都不能(少))}!
“互不作句法成分”在面對體詞性、謂詞性組合與標句點號比鄰的句子有主謂關系時,依然會有難以判定的情況,如圖1 中的例句增加逗號 “后來,機場建設征用農田,引起農民強烈反對,······”如果仍看作一個小句,那么假如第二個逗號后還有多個類似結構與之并列,這個 “小句”可能會過長,結構嵌套過深,不利于人標注,也影響句法分析效果;而在理論上也有學者指出,謂詞性組合具有表述性,而體詞性組合表述性不強,一般不充當分句[21];由于動轉名可以無標記的方式進行,subject–verb–object (SVO)、subject–verb (SV)、verb–object (VO)結構可作話題主語,然而這種句式話題與述題關系松散,可以重新分析為復句[22].因此本文據此設定了 “表述功能”的切句標準: 比鄰的兩個詞組,前面的謂詞性組合與后一組合有主謂關系時,將其看作兩個小句(例句6);標句點號比鄰的組合序列是體詞性與謂詞性組合,且二者構成主謂關系,則看作一個小句(例句7);標句點號比鄰的組合序列都是體詞性組合,且二者構成主謂、并列關系,則將其看作一個省略了述語的主謂句(例句8);如沒有主謂、并列關系,此類句式有明顯的描繪性語義,主要用于表達形象感,則認為各自獨立自足(例句9).
例句6.{考試(考砸了)}(讓)爸爸(很(失望)).考試(考砸了),(讓)爸爸(很(失望)).
例句7.五年的時光\,(讓)他(學會了){(游泳)、(撈)魚、(養)雞、(喂)鴨}.
例句8.粒徑\,()泥沙顆粒大小的一種量度.
例句9.藍藍的天空,潔白的云朵,高高的白楊樹,明亮耀眼的陽光,一望無際的草場,這(就(是))我憧憬的蒙古科爾沁大草原<<呵>>.
1.1.3 樹庫標記集
根據第1.1.1~ 1.1.2 節所述的標注體系,本文的樹庫標記主要包含組塊性質標記、組塊功能與用途標記、句邊界標記.表1 中,第1~ 4 為組塊性質標記,NP與VP、UNK 主要用于描述主賓語、述語整體及核心謂詞的體謂性,其他成分的組塊性質不作分析,以NULL 標記;第4~ 11 為組塊的功能與用途標記,功能是從句法上描述組塊單元充當句法角色的情況,用途是從語篇功能與人際功能描述組塊單元的連接作用、語氣作用;第12~ 15 為句邊界與層次標記.

表1 樹庫標記集Table 1 Tags for chunk-tree
本樹庫以大規模多領域篇章語料為標注對象,前期以人工標注為主,分階段、分語料層次逐步加入機器標注的方式構建完成.根據用詞與句法結構復雜度,標注語料類型由簡單到復雜逐步過渡,以便打磨規范、開發標注平臺、訓練標注人員、開發自動標注工具.而前期以百度百科、新浪和新華社新聞、國家專利為標注對象: 百科與新聞涉及到社會生活的各方面,內容豐富、結構嚴謹、用詞造句的風格多樣,但并不復雜且較為標準,可以作為樹庫的基礎數據,而專利文本是典型的技術說明型、法律型文本,用詞偏晦澀、結構雖然嚴謹但復雜,涉及技術領域廣,可以覆蓋較多技術性文本的特點;后期用已標注的數據訓練機器標注模型,采用機器標注,人機校對的模式,標注其他語體文本,并不斷用已標注的語料訓練迭代機器標注模型,以標注模型表現的領域穩定性決定某一領域的語料規模;此外,注重長尾句型,根據機標錯誤句型分布,動態增減相應句型的語料.
制定標注規范是樹庫構建過程中最重要也是最困難的任務.科學、完善的標注規范,對數據符合預期目標、保證標注的一致性和準確性至關重要.在規范起草與修訂過程中,為保持規范與預期目標一致,本樹庫有三條主要原則: 1)以述語為核心,無歧義呈現句子骨架;2)人工標注及句法樹合格性校驗時,不做分詞及詞性處理,切分后形成組塊狀的組合序列,訓練機器標注模型時,則在組塊分析的基礎上,塊內分詞及詞性標注;3)平衡規范的穩定性與動態修訂性,規則分級,上級穩定,下級慎重動態增減,例句動態詳舉.
漢語中存在身兼數職、功能復雜的實詞或虛詞;同時,進入篇章中的句子,語序靈活,意合現象普遍,語用層面的 “經濟性”原則被普遍使用,反過來促使語序、省略、類比、并列等變得靈活,往往導致在篇章層面標注的句法結構與語義結構錯配,句法分析得不到語義、語用的支持.為此,本樹庫堅持“以述語為核心,無歧義呈現句子骨架”的原則,即,參考上下文意,使標注的句子骨架能盡可能無歧義地表示組塊間依存關系,反映實際支配關系,也為后續成分缺省與共享標注任務準備高質的帶標數據.如:
例句10.我<<是>>(歷來(主張)){軍隊(要(艱苦奮斗))}<<的>>.
這書(是)她的.
例句11.這孩子[跟狐貍一樣,] (很(狡猾))
今年的題(跟去年(一樣)).
例句12.電磁流量計密封性能(好),(還可(用于))自來水和地下水道系統.<而且>(測量過程不與流體(接觸)),(適于)制藥、生物化學和食品工業.
例句13(a).(給)你(拿)件毛衣[來](如何)?
例句13(b).[不用](),[不用](),我(不(冷)).
例句10 中起焦點標記作用的 “是”與系動詞的“是”區分開來,一個以述語符號標注,一個以輔助組塊符號標注;例句11,都是 “跟······一樣”,一個表示比擬,一個表示比較,標注出來的句子骨架也有所區別;例句12,“測量過程”,在單句層面是主語,但從上下文看,并非 “測量過程”不與流體接觸,而是在 “測量過程”中,“電磁流量計”不與流體接觸;例句13(b)實際省略核心謂詞 “拿”,這在對話中是常見情況,即,對話題進行刪除或省略,主要強調連句成篇、約束焦點、觸發預設、表達立場或情感和態度、人際互動等作用,而將述語缺省,因此在本樹庫規范中規定需依據實際情況補出述語空位.
“不做分詞及詞性處理,切分后形成組塊狀的組合序列”,主要針對通用性、固定表達,不做進一步切分.熟語、固定表達、古語引用、古語用法、公式結構等,內部結構高度凝固成為一種習用的、結構相對固定的敘述性語言單元,對這部分表達盡量大顆粒度標注.
最后,標注規范是對樹庫設計思想的具體體現,語言現象的復雜性,決定了任何一種標注規范都無法一步到位,需要在標注實踐過程中不斷充實、修訂、完善,但無規劃的修訂,會導致整個標注工作缺乏系統性,增加標注與標注平臺開發成本.本項目在經過長達5 個月的規范制定工作后,起草了初版標注規范,并確定了 “規則分級,上級穩定,下級慎重動態增減,例句動態詳舉”的增訂原則,將規則按類逐層細分,上級規則穩定不易變動,根據實踐以增加詳細說明的細則,而對每類細則詳舉典型或需復雜判斷的標注例句,以減少標注者主觀判斷,提高標注一致性,目前規范中有11 章、87 節內容、900 多條例句,除詞表附錄共66 頁.通過這樣的策略,可以盡力平衡規范前期的穩定性與動態修訂性,同時這樣的編排也便于標注者索引.
平衡標注質量、速度與規模,需要高專業素養的標注人員、有效的質量評測與反饋機制、高效的標注與管理辦法.
句法結構標注的難度遠高于其他標注任務,對標注人員的專業素養要求高.本文始終維持著一個語言學專業的標注團隊,參與標注的團隊成員都需通過標注考核,每期有效標注人員保持在35 人以上.
在質量評測與反饋方面,本文主要做了以下工作:
1)改進計算標注一致性的Kappa 算法,以精確衡量每個組塊及全文本標注質量,為組織標注工作、數據使用提供參考.句法結構標注的一致性,本質是遞歸結構切分與定性的一致,結合自身標簽設計特點以及參考Holle等[23]相關工作,將比對文本中每個字符依次從0 開始編碼,每個非標注字符都有一個唯一的、有序的起止位置編碼,每兩兩標注一致的字符起止位置對齊,嵌套結構按起止碼由大到小的順序排列,中間按組合順序依次排列,一方缺失的補空,標注符號與起止位置都相同即為一致的判定標準.據此按標注符號構建列聯表,計算全文本單個標注符號Kappa 系數,再根據各標注符號在文本中的占比為權重,計算全文本Kappa值,計算公式為(具體算法推導超出本文范圍,將另行他文詳述):


式中,對數加1 以防止出現 l g0 的情況.權重(1)為計算文本質量的方法,權重(2)用以作為評估標注人員標注表現進而計算工資的一種方法,從而鼓勵標注者重視低頻標簽的標注準確性.
2)按20%~ 30%的比例,人員與語料由系統雙隨機派發 “埋雷文本”與 “審核文本”.每一篇 “埋雷文本”需要兩位標注人員在得到第1 次一致性校驗結果后,討論協商后再次提交進行一致性校驗,難以一致的問題提交管理人員仲裁;埋雷文本第1次所得Kappa 值,作為該標注人員工資系數標準,也作為該標注人員當期所標注的其他 “審核文本”是否進入樹庫備選的依據(需Kappa ≥ 0.8);“審核文本”則是不進行一致性校驗,但由管理人員隨機抽查的文本,通過審核的 “審核文本”的字數總和,決定標注人員的工資總額,而不合格的文本直接全文本報廢處理,管理人員同時也通過程序抽取出的句子骨架,重點審核低頻出現的句子骨架,加以反饋修訂.所有備選樹庫中的數據需要再經過樹結構轉換代碼檢驗,不合法的句法樹將被拋出,合格的句法樹構成了最終的樹庫.
3) 開發通用型在線標注平臺、管理計算工具(見圖3).項目組研發了一個標注管理平臺,并在實踐中不斷完善.在淺層句法標注上,符號標注比樹圖可視化編輯更直觀便捷,而有層次嵌套的結構,符號標注比色塊標注更便利,但色塊標注更便于標注檢查;因此,平臺支持選擇性輸入與快捷鍵輸入,支持以色塊和標注前后比對進行檢查;此外,通用標注平臺也支持標注相關人員協調管理,對標注行為進行實時跟蹤、反饋,為標注任務管理提供參考;集成的管理工具可輔助、補充在線管理系統,保證管理靈活性的同時,確保管理的系統性.

圖3 標注平臺標注界面及管理工具界面Fig.3 The interface of annotation website and management tool
在完成一定規模數據標注后,初步分類訓練了機器標注模型,初步探索了 “機標人校”的標注模式(具體實驗另行他文介紹).本文以已標注的百科、新聞及專利語料為訓練語料,采用自注意力機制編碼[24]和基于Cocke-Younger-Kasami (CYK)的圖表算法解碼[25],以Bert[26]進行預訓練,訓練所得句法分析器的F1 值為94.3;其次,以句法分析器自動標注新聞、百科、專利以及小學生作文、法律判決書、科技說明文的測試文本;最后,將機器標注的結果與人工標注的結果進行一致性校驗,經過多次校訂的人工標注與前三類文本校驗Kappa 值分別為0.835、0.834、0.639,而后三類文本與人工標注一致性校驗的Kappa 值,分別為0.70、0.63、0.83.本文根據機器標注的表現,對于機器標注已能滿足使用需求的文本領域(使用需求根據任務定義),則不再進行人工標注;對機器標注還不能滿足使用需求的領域,則采用機器標注、人工校訂的方式增加該領域訓練數據,不斷迭代標注模型的領域遷移能力,以最大限度減少了人工投入,豐富樹庫語料領域.
截至到目前為止,以根節點計,樹庫中已有27.8 萬句,見表2,其中47%為新聞,28%為百科,25%為專利(擴容中).新聞數據涉及領域廣泛,因此語料占比較高,專利數據將陸續加入新數據.所有數據中,兩類黃金數據占總數據的25.5%,隨著樹庫擴容,黃金數據會增加,但比例變化較小.根節點(ROOT)字長分布也在一定程度反映了文本難度,統計數據也驗證了這一點,三類文本平均字長由小到大依次為百科、新聞、專利文本.

表2 目前有效標注語料分布Table 2 The data distribution of the valid annotated data
以小句(IP)為對象,從67.4 萬余條IP 中僅抽取出3 萬余條句型骨架,其中有9408 條句型骨架包含至少兩條例句,而10 余條句型骨架卻涵蓋樹庫中絕大多數小句(圖4 展示了9408 條實例句大于1 的句型框架頻次與排名順序雙自然對數分布),低頻句型骨架涵蓋小句數量少,自身條數卻較大.后期樹庫構建需要據此有針對性地擴充低頻句型相關語料;與此同時,根據這些句型骨架,已初步構建一個提供結構檢索、詞、詞性混合檢索的句型庫,以供語言學研究使用,如以檢索式 “%(.v 以){@}”檢索 “‘動詞/動語素’+‘以’”后跟謂詞賓語的所有結構,目前庫中可檢索到157 條記錄,比如: “被告人呂宏(予以){應允}.” “權錢交易、權力尋租現象(得以){防控}.” 等,而隨著自動標注模型的標注準確性提升,可以自動分析任何語料,以提供更多結構檢索實例,為語言學研究服務.

圖4 基本句型隨機法齊夫對數分布Fig.4 The rank-frequency random logarithmic distribution for the sentence patterns
此外,從小句標點使用情況的分布來看,破折號、嘆號、句號在較為正式的文本中做句邊界的置信度非常高(圖5),分號、省略號次之,冒號、逗號、問號作句邊界,則需要謹慎,其中問號的情況較為復雜,有不識別的符號轉碼造成,也有本身使用有誤的情況;然而在句邊界識別問題上,最突出的問題不是標句點號的歧義性,而是缺省標句點號,以空格代替是常見情況,少部分沒有任何顯性句邊界標記,需以 “換主語”標記進行判斷.

圖5 標句點號失效、缺省在IP 小句中的分布Fig.5 Sentence-division-punctuation is invalid or missing
一致性校驗是衡量樹庫質量和標注難度的可靠指標,也是銜接本樹庫構建過程中各環節的最重要的數據參考.由于本樹庫構建以全文本篇章為語料,因此在決定文本是否進入備選樹庫時,以全文本Kappa ≥ 0.8 為標準(見圖6).目前,平均Kappa 值為0.87,各主要標注符號的一致性校驗也均在0.8以上,其中13%的文件Kappa 值超過0.95,約24萬余字規模;除了文件總體的一致性校驗合格,大部分成分塊及邊界判斷的一致性校驗也是合格的,而句邊界(注銷符)及謂詞性主賓語、主謂謂語一致性校驗結果較低.一方面,這些邊界及成分塊判定往往是標注的難點,其內部較為復雜,主觀判斷較多,另一方面也是后期本文要著重增加的長尾句型.

圖6 樹庫全文本Kappa 值分布與各標注符號Kappa 平均值Fig.6 The distribution of Kappa coefficient of the text in the Treebank,and the mean of every kind of label's Kappa
本文介紹了一種基于篇章的、便于多層次結構擴展標注的淺層句法標注體系,并據此,初步構建了一個千萬漢字級的淺層短語結構樹庫,提出一種以述語為核心的句子骨架標注體系,有助于保證質量的情況下,進行大規模、多層次結構標注.同時也探索了眾包環境下高效標注管理模式,為后續各項擴展任務奠定了基礎;未來本文將從三個方面對樹庫進行擴容: 1)依據解析器分析句型骨架效果、目前樹庫句型骨架分布抽取相應的篇章、段落、句子進行有針對性的標注,豐富樹庫中低頻句型語料,同時依據模型標注準確率的穩定性決定語料類型在樹庫中的比例;2)對已標注Kappa 值較低的文本進行人機互助的二次復標、審校,完善人機協同標注模式、全面開啟人機協同標注,加快樹庫構建速度,提升預標注模型性能;3)對已構建的句法塊樹庫,進行組塊依存與話題結構標注,開發依存樹庫解析模型,進一步完善本樹庫,從而構建完整的篇章塊依存樹庫,為后續延展任務打下基礎.