摘 要:詞性標注是語言研究者進行句法分析和其他研究的基礎,其劃分是否得當直接影響著語料庫的下一步建設。本文從句法分析實際操作的角度對國內幾個常用分詞系統的詞性標記問題進行了對比分析,著重探討了其中一些標記給句法標注帶來的問題,如習用語和簡稱、前接成分和后接成分。針對這些問題,本文從實用的角度,在參考多方建議的基礎上,提出了相應的標注策略。
關鍵詞:詞性標注 句法分析 習用語 詞綴 語素字
一、引言
對語料進行詞性標注,只是語料庫建設的初期階段,也是進行下一步句法標注的基礎。我們在對語料進行句法標注的過程中發現,分詞系統中一些不恰當的詞類標記不僅影響到句法標注的效率,也影響到標注的準確性和一致性。因此,本著節省人力、物力的原則,在綜合考慮詞類標記對句法層面的影響之后,本文力圖在詞性標注這一問題上提出更加科學的可行性建議,以促進基于語料庫的進一步的語言研究。
首先,分詞類別(或POS標記)應該在句法上有功能意義,例如名詞、動詞等。不是從句法層面劃分出來的標記即使標示出來也無法在句法分析中進行處理。
其次,在有意義的基礎上,需要把握一個度。在語料庫的標注過程中,詞類劃分不宜過多或過少。詞類過少,對句法分析的深度和精度不夠,詞類過多,又會使語言分析和處理的過程太復雜,代價太高。那么,到底劃分多少詞類才能在句法層面達到自足呢?通過對世界上13種語言依存句法的考察表明,在進行自動句法分析時,一種語言所劃分出的詞類數量一般應當控制在10~20之間。
本文針對兩個與句法有關的詞性標注問題即習用語和簡稱、前接成分后接成分和語素字,對比了當前國內的幾個分詞標注系統①,經過綜合分析探討之后,提出了一些具有可行性的建議。
二、習用語和簡稱
關于習用語(也就是熟語)的界定,學術界的看法并不統一。黃伯榮的《現代漢語》對其做了界定:“熟語結構上比較固定,功能上相當于一個詞,包括成語、慣用語、歇后語等”。周薦則認為習用語在功能上大于等于詞,它既指成語、慣用語、歇后語等詞匯單位,又指諺語、格言、警句等非詞匯單位。
簡稱和略語,國家語委的《信息處理用現代漢語詞類標記集規范》中將其定義為“專有名詞或常用語的簡略表達形式”,并提到“簡稱和略語通常起名詞或區別詞的作用,少數有動詞的作用”。
對比國內現在通用的幾個分詞系統后,我們發現,各系統在對習用語和簡稱標記的處理上存在一定的差異。有幾個系統將習用語i(或慣用語l)和簡稱j下面分出了小類,標記出了詞性,如分出了名詞性、動詞性習用語,標記為in、iv等;有的系統將成語和習用語分開,各給出一個標記,但沒有再細分出詞性;有的則只分出習用語i(或慣用語l)和簡稱j兩類。
從語言信息處理的角度來看,分詞系統分出來的單位,應該都在詞匯層面,這樣才能有利于進一步的句法分析。如果分詞的結果既有用法與詞相當的單位,又有不作任何句子成分而作為獨立語句出現的單位,這樣無論是在短語結構語法下還是在依存句法下,都難以處理。因此,從自然語言信息處理的實用性原則出發,可以認為習用語包含兩部分,一部分是詞匯單位,其用法相當于一個詞,如“葉公好龍”“簡而言之”這樣的成語或慣用語等,可按詞匯的方法來處理,內部不再分析,另一部分是非詞匯單位,如格言、警句等,應當對其內部單位進行標注,像普通句子一樣處理,而不應將其整體劃為一個單位。
關于簡稱,從定義來看,它大體和習用語中的詞匯單位相當,這兩部分應該做同樣的處理。習用語i、簡稱j這類標記并不是按照語法功能劃分出來的,那么這種標記對于進一步的句法分析有什么影響呢?我們對哈工大信息檢索室的依存樹庫中習用語i的句法關系分布情況,進行了統計,結果如表1:
表1:依存樹庫中習用語i的句法關系分布
習用語做支配詞習用語從屬詞
句法關系出現次數占總數百分比句法關系出現次數占總數百分比
adv狀中結構1828.93%sbv主謂關系38415.90%
att定中關系1648.05%vv連謂結構1837.58%
coo并列關系1457.12%att定中關系24610.23%
de“的”字結構33816.59%adv狀中結構46519.25%
di“地”字結構773.78%coo并列關系1375.67%
ic獨立分句1145.60%cnj關聯結構構321.33%
pob介賓關系502.45%ic獨立分句963.98%
sbv主謂關系1055.15%lad前附加關系311.28%
vob動賓關系42120.67%其他84134.82%
vv連謂結構1758.59%
cmp動補結構7<1%
dei“得”字結構16<1%
is獨立結構281.40%
其他21510.55%
由上表可以看出,習用語i展現出非常分散的句法關系分布,說明在句法層面不能籠統地將其視為一種詞類標記,而應根據語法功能進行細分,給出功能性小類標記(如in、iv等),否則,習用語的這種功能上的多樣性,會導致句法剖析器精度的下降,也不方便句法標注者進行標注。
同樣,簡稱j也存在類似的問題,雖然簡稱大部分是名詞性的,句法關系上的分布相對習用語來說比較集中,但是鑒于簡稱j同樣不是句法層面的標記,同樣會對標注、研究工作造成一定的影響,我們建議簡稱和習用語一樣,按照句法功能進行細分(如jn、jv)。
當然,in、iv的細分造成了標記的增加,雖然有利于語言學的研究,卻不利于機器學習和使用。因此,我們需根據研究目的來進行取舍。對于這個問題,可以將這樣的詞進行雙層標記,即先給出詞性標記(如n、v、a等)為下一步句法標注做準備,進而再給出詞匯范疇標記(如習用語i、簡稱j等)以滿足多層次語言研究的需要(如“畢恭畢敬/a/i”),這樣不失為一種好的解決方案。
三、前接成分后接成分和語素字
前接成分、后接成分,即前綴、后綴。在黃伯榮、廖序東的《現代漢語》中,對詞綴下了定義:“有一類不成詞語素同別的語素組合成詞時,位置是固定的,只表示一些附加的意義,又叫詞綴。”
《中學教學語法系統提要(試用)》認為:“語素是小的語音語義結合體,是最小的語法單位。”這是一個集眾家意見,能為最大多數人接受的語素定義。
在對國內現在幾個分詞系統作對比后,我們發現,有的系統將語素字非語素字列入標記集,有的系統則沒有,還有的系統在語素字大類下劃分名詞性語素、動詞性語素、形容詞性語素、時語素、副語素等小類。多數系統作了前接成分(前綴)、后接成分(后綴)的劃分,還有的進一步在大類下區分名前接成分、數前接成分、名后接成分、動后接成分。
從定義可知,語素字非語素字和前接成分后接成分這些概念,并不是按照語法功能劃分出來的,不屬于詞層面,而是屬于構詞法層面。如果在詞層面的集合中摻雜了語素成分,則不利于進一步的句法分析。
那么各大系統將語素字非語素字作為切分單位的原因是什么呢?我們發現,在系統自動分詞的處理過程中,將語素和非語素字作為切分單位,主要包含兩種情況:一,某些雙音節離合詞分開使用時;二,單字名詞或名詞性語素后接單純方位詞。其中,第二種情況的劃分,實質未在最終切分結果中體現語素字,只是將語素字的標記作為合成處所詞或時間詞的一個中間步驟,不會對句法分析造成影響。而第一種情況,則因為在最終切分結果中包含語素字這個非詞單位,給句法分析造成了困擾。
那么如何處理涉及離合詞標注的語素字問題?目前主要有兩種做法:其一,也是目前有些系統采用的方法,即進行小類區分,將語素字分為名詞性語素、動詞性語素、形容詞性語素等;其二,對離合詞進行標注。
對于第一種處理方法,靳光瑾等提出:“所以必須按照語法功能進行細分,給出功能性小類標記,以方便后續的自動句法分析。基于這種想法,我們采納了專家們的意見,對縮略語、習用語、語素字等都給出了小類標記。”
王春霞主張在自然語言處理中標注離合詞。認為許多語素孤立地來看是多義的,但在離合詞里其意義是確定的,而且常常需要從整體上來理解離合詞的意義。在王春霞的研究中,封閉測試和開放測試的結果顯示,標注召回率達到98.27%,正確率達到81.74%,這說明,離合詞的標注是有可行性的。對比以上兩種做法,我們傾向于對離合詞進行標注,這樣可以不必增加標記數量,更利于句法分析。
在處理前接成分后接成分時,以A系統為例,是以與前后接成分結合的成分的長短為標準來決定是否獨立劃分前后接成分的。前接成分以“非”為例,當“非”管轄的范圍在一個詞內的時候,按具體情況組成名詞、專有名詞等,而一旦“非”所管轄的范圍超過一個詞,則仍然切分開,如“非國家工作人員”被處理成“非/h國家/n工作/vn人員/n”,這里的“非”作為前接成分標記為“h”。后接成分以“者”為例,當“者”前面為較短的詞或短語時,它和前面的詞一起合成一個切分單位,標注為n,“者”前面為較長的短語或句子時,分開來,標注為k,如“經過苦苦追求而獲得幸福者”被處理為“經過/p苦苦/d追求/v而/c獲得/v幸福/a者/k”,這里的“者”作為后接成分標記為“k”。
當前后接成分所附著的成分超過兩個,確實可以劃分開時,能夠進行句法分析,只是如上切分出來的“h”和“k”,只是構詞成分,并不屬于詞層面,無法進行句法分析,所以應該另尋一種處理方式。從信息分析處理的角度看,可以提升“非”“者”等前后接成分的地位,將其切分為形容詞或名詞,如把“非國家工作人員”處理為“非/a國家/n工作/vn人員/n”,“經過苦苦追求而獲得幸福者”處理為“經過/p苦苦/d追求/v而/c獲得/v幸福/a者/n”。
四、結語
本文從句法分析實際操作的角度對分詞系統進行了分析探討,并提出了一些意見和解決方案,希望能對語料庫的建設有所幫助。首先,從句法分析的可操作角度講,分詞結果必須是從句法層面劃分出來的單位。因此,我們建議將習用語中的詞匯單位和簡稱按句法功能細分,給出in、iv、jn、jv之類的小類。習用語中的非詞匯單位按普通句子處理。前接成分、后接成分我們建議將其和中心成分劃為一個整體單位,在中心詞可以分析的時候將前后接成分地位提升,按詞性標注。去掉語素字和非語素字的標記,在出現離合詞的時候將離合詞單獨標記,而不再標出語素。第二,從語料庫工程建設的角度講,我們堅持經濟省力原則,對于不必要的詞類標記建議能簡則簡。對于兼類詞,除少數名詞活用之外,應嚴格按功能區分詞性,將其劃到各個詞類之中。而對于區別詞、狀態詞,我們建議不再和形容詞區分開來。
(本文受中國傳媒大學“211工程”三期重點學科建設項目支持,項目名稱為“漢語有聲媒體語言依存句法樹庫構建與應用研究。”)
注 釋:
①A系統:北京大學現代漢語語料庫加工規范,中文信息學報,16
卷第5期;B系統:國家語言文字應用研究所計算語言學研究室,信息處理用現代漢語詞類標記集規范,語言文字應用,2001年8月(3);C系統:哈工大信息檢索研究室漢語依存樹庫;D系統:中科院計算所漢語詞性標記集
參考文獻:
[1]郭銳.現代漢語詞類研究[M].北京:商務印書館,2002.
[2]Liu, Haitao Huang, Wei. A Chinese Dependency Syntax
for Treebanking. Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation[Z].Beijing: Tsinghua University Press,2006.
[3]黃伯榮,廖序東.現代漢語[M].北京:高等教育出版社,2002.
[4]周薦.熟語的典型性與非典型性[J].語文研究,1994,(3).
[5]安娜,劉海濤,侯敏.語料庫中熟語的標記問題[J].中文信息學
報,2004,(1).
[6]謝承志.語素定義中的偏頗[J].上海師范大學學報,1997,(4).
[7]靳光瑾,郭曙綸,肖航,章云帆.語料庫加工中的規范問題——
談《信息處理用現代漢語詞類標記集規范》[J].語言文字應用,2003,(4).
[8]王春霞.基于語料庫的離合詞研究[D].北京:北京語言大學,2001.
(牛雅嫻 劉丙麗 萬紅雅 董藝 北京 中國傳媒大學應用語言學研究所 100024)