


摘 要:詞類劃分是為句法分析服務的,名詞的再分類也必須遵循這一原則。但就現有的名詞細類看,由于在分類時為句法分析考慮得不夠充分,所以劃出的小類對自動句法分析難以起到應有的作用。鑒于此,本文一改過去那種為了把某詞放到合適的詞類中而找“特點”的做法,按照詞的句法分布,詳細描述每個詞的句法功能。按照句法功能總和相同即為一類的標準為名詞進行再分類,以期為自動句法分析提供客觀依據。
關鍵詞:句法結構 句法分析 句法功能 詞類
一、引言
自動句法分析是自然語言處理中的一個重要課題,其任務是將句子中的詞之間的線性序列轉換成具有結構的分析樹。一般來說,自動句法分析的操作對象是句子或短語的詞類標記序列,要想使計算機能夠準確地分析詞類標記序列的內部關系,必須為它提供完備的語法知識。對于簡單的NP+VP→S這種模式的詞類標記序列,現有的詞類知識能夠很好地為自動句法分析服務,但對于嵌套的名詞結構如“經濟體制改革”或者是在句法結構上存在遠距離依存關系的短語等具有多層次較復雜的情況來說,必須為它提供更多的詞類知識。但遺憾的是,現有的語法知識中的詞類知識是粗糙的和不完備的,難以支持自動句法分析。以現有的名詞細類為例,具體地說有以下幾個問題:名詞究竟有哪些語法功能并不清楚,一般語法書只列舉幾條“語法特點”,例如,說名詞可受數量結構修飾,不受副詞修飾,可以作主語、賓語等等。但即便是這幾條語法特點,往往也缺乏普遍性;都標記為“N”的名詞,有的詞相互間的語法功能卻相差很大,一般的名詞可以作主語、賓語、定語、體詞性偏正結構的中心語等,而“年間”“時”等只具有上述的最后一種功能;缺乏詞的各種語法功能的定量描寫,上述問題都給計算機進行自動句法分析帶來一定的困難。鑒于這種情況,我們主張“按照詞的句法分布,根據其充當句法成分的功能來對名詞進行分類,語法功能總和相同即為一類。說一個詞能充當主語,等于說它能在主謂結構里作第一個直接成分;說一個詞能充當賓語,等于說它能在述賓結構里作第二個直接成分。這樣,我們就是用句法結構來作為名詞歸類的測試環境,換言之,是從句法結構推導出詞類。這種做法能使詞類劃分更直接地為句法分析服務。”①
二、名詞句法功能信息庫的構建與實現
(一)名詞句法功能信息庫屬性字段的確立
名詞句法功能信息庫旨在考察每一個名詞具體的句法功能,然后根據句法功能的總和來確定詞類的總數。也就是說,只要句法功能的總和相同,這樣的詞就歸為一類。既然是從句法結構推導出詞類,我們首先就要確定句法結構的種類以便統計列出句法成分的清單,然后詳細考察每一個詞。只要能充當所列清單中的成分,我們就標記為“1”,如果不具備某項功能,就標為“0”。我們為名詞分類而采用的句法結構共8種,句法成分共21種,具體如下表:
1.并列結構跟句法分析沒有多大關系,即便是強調它也作句法成分,其功能已經包含在上述八種結構中,所以沒有必要列出。
2.中心語用下標作區別的意義在于考察名詞是否能直接受其他詞的修飾。
3.對定語用下標作區分的意義在于考察名詞是否能直接作定語,狀1、狀2也屬于類似的情況,只不過句法成分是狀語而已。
4.在“定‘的中結構”里作第一直接成分的,絕大多數情況下也能在“的”字結構里作第一直接成分,所以沒有列出“的”字結構這一項。
(二)句法功能統計的原則
要確定這么細致的句法成分,對于一些復雜情況的定類必須遵循一定的原則:
1.主謂結構作賓語時,只統計結構內部各成分的功能,不考慮整個結構的外部功能。如“我們聽說學校開除了兩名夜不歸宿的學生”這句中的“學校”看作主語,不考慮它在整個句子中的句法功能。
2.兼語記入賓語,如“這件事情讓公司處理吧”,這里的“公司”看作賓語。
3.聯合結構、同位語結構中的成分按其整體功能標記,如“老師學生同臺演出”中的“學生”看作句子的主語;“在一架鉗工工作臺前,一位穿藍大褂的中年人注視著孩子們,他是教師塔吉耶夫。”這里的“教師”看作句子的賓語。
4.方位結構一律按定中結構處理,如“從電視上學到不少東西”中的“電視”看作“上”的定語。
5.“的”字結構作主語或者賓語的,按定語處理。如“個人的利益要服從集體的”中的“集體”看作定語。
三、 基于語料庫統計的名詞細分類及其對句法分析的作用
(一)名詞的細分類
我們隨機抽取了1998年《人民日報》語料中的高頻名詞100個,每個名詞隨機抽取100個例句進行句法分析,根據分析結果構建了一個小規模的語料庫,下面略舉幾例以便說明
從上表的統計結果可以看出,名詞的句法功能是復雜多樣的,但并非如有些學者所想象的那樣一詞一類。按照句法功能總和相同即可歸為一類的原則,通過分析統計,這100個詞分屬于73類。這個數目,對于我們人來說是太大了,掌握起來比較困難,但卻給計算機自動句法分析帶來了方便。因為屬于同一詞類的詞,其語法功能是完全相同的。原有的名詞細類的確在數量上要遠遠少于這種分類方法的結果,但是我們通過分析發現,原來歸為不同小類的名詞,其語法功能是完全相同的,我們不妨通過分類結果來剖析這個問題,句法功能完全相同的14類列舉如下:
按以前的標準,上述14類中有些功能相同的卻分屬不同的小類,而功能不同的卻歸為相同的類。比如上面的第5小類中的5個名詞,按彭睿先生的劃分標準要分屬三類:“群眾、軍隊、專家”屬于群體類的;“區域”屬于地域類的;“產品”屬于實體類的。這本該是句法功能完全相同的一類卻分成三類,勢必對句法分析帶來困難,背離了詞類為句法分析服務的宗旨。
100個詞73類,對于人來說,分得是過于細致了,但對于機器來說分得越細提供的句法功能信息就越多,越有利于句法分析。這73類并不是不可歸并的,如果只是粗略地按照五大成分(謂語除外)來劃分的話,這73個小類可以歸并為5大類:
1.能作主語、賓語、定語的名詞(占81%),如:政府、設施、水平。
2.能作主語、定語的名詞(占1%),如:金融。
3.能作主語、賓語、定語和補語的名詞(占9%),如:地區、醫院、市場。
4.能作主語、賓語、定語和狀語的名詞(占8%),如:集體、電話、重點。
5.能作定語和狀語的名詞(占1%),如:電子。
(二)名詞細類對句法分析的作用
在談劃分出的名詞細類對句法分析的作用之前,我們先看看利用原有的名詞細類進行句法分析存在哪些困難。
前面已經提到,自動句法分析的操作對象是句子或短語的詞類標記序列。如果詞類標記序列比較單一的話,傳統的分類方法是能夠很好地為句法分析服務的。如:“我喜歡音樂”這樣一個線性序列,機器能夠準確地把它轉換成下面的分析樹:
但對于嵌套的名詞結構如前面所舉的“經濟體制改革”或者是在句法結構上存在遠距離依存關系的短語、有歧義的結構等具有多層次較復雜的情況來說,僅有簡單的詞類標記序列機器是很難分析出正確的結構關系的。如“經濟體制改革”,僅憑“N+N+N”這樣的標記序列,計算機很難確定究竟是第一個名詞修飾后兩個名詞還是前兩個先結合然后修飾第三個,因此它可能給出兩種分析結果:“經濟/體制改革”或者是“經濟體制/改革”。而我們的名詞細類,因為詳細考察了每個詞的語法功能,所以它可以解決原有的詞類知識無法解決的問題,具體表現在以下幾個方面:
1.可以正確分析多層嵌套的名詞結構
漢語句子中,有許多名詞嵌套的情況,連續的幾個名詞之間究竟是并列關系還是修飾關系,究竟是前一個修飾后幾個,還是前幾個修飾后一個,僅憑詞性標記序列,系統很難作出正確地判斷。但我們的細類因為是在詳細地考察了每個成員全部的句法功能后確定的,它給系統提供的不再是籠統的一個詞類標記,而是每個詞所有的句法功能,所以系統會根據每個詞的具體功能以及前后詞的句法功能信息進行正確地分析。比如“學校生活豐富多彩”,其中的“學校生活”,人們一看就知道是定中結構的,但只給機器提供詞類標記,它很難確定究竟是并列還是偏正,有了每個詞的句法功能信息后就大不一樣了。首先,它會比對上表中有關“學校”的句法功能,發現它具有“中1定1”的功能,也就是說它可以直接修飾名詞,然后再根據“生活”的句法功能信息進行選擇,“生活”有“中1主”的功能,就是說它要求前面的一個詞能作定語,它充當這個定語的中心語后作主語,利用這樣一個互信息,我們就可以確定兩者的關系是定中而不是其他的。
2.能夠有效地分析句法上的歧義結構
我們知道,“N+V→NP”和“V+N→VP”這兩條句法規則都可以有兩種句法結構,前者可以是主謂結構和定中結構,后者可以是動賓結構和定中結構。單純地看詞性標記序列,很難確定一句話中這樣的規則究竟是什么結構關系,但是我們提供的名詞細類,既給出了每一個詞的所有的句法功能,也對每項句法功能進行了定量的描寫。有了這樣的定量描寫。機器就可以根據具體詞每一項句法功能的概率來確定其最終的句法關系,從而作出正確的句法分析。例如“工程改造已經結束”中的“工程改造”,“工程”單獨作主語的幾率只有1%,而作定語的幾率是7%,根據這個比率,我們會優先確定該結構是定中結構的而不是主謂結構。如果量的分析還不能使其作出正確分析,再考慮其后的“改造”具有哪些功能,根據上面所說的利用前后詞的句法功能的相互限制最終作出正確的分析。
3.對在句法結構上存在著遠距離依存關系的句法成分能夠進行有效地分析
在漢語句子中,有一些離中心詞較遠但又跟中心成分存在依存關系的成分,這樣的成分,單靠詞性標記序列,機器是難以作出正確的分析的。如“這一舉措具有十分深遠的,不可磨滅的偉大的歷史意義”這里的“意義”受四層修飾語的限制,它的詞性標記序列為“r+m+n+v+d+a+u+d+v+u+a+u+n+n”,如果我們不看上面的原句,單看這一串詞性序列,是很難對該句進行正確地句法分析的,更不用說缺少語法知識的機器了。但是如果知道了“意義”具有“中1賓1”這項功能,我們就很容易地能分析出它在句中作賓語。越長的句子,其相互限制的條件就越多,其結構的可選擇性就越小,分析結果的正確率就越高。
四、結語
由于時間倉促,我們構建的語料庫規模比較小,盡管如此,我們發現按這種方法劃分詞類是可行的,具有一定的可操作性。雖然這100個詞中有59個詞是獨成一類,但畢竟規模太小。如果語料足夠大,相信這種情況會大大減少,會做到“詞有定類,類有定職”,這必將為句法分析帶來很大的方便。只有這種真正意義上的以句法功能為標準劃分出的細類才能為句法分析服務。這只是我們工作的開始,在后續的工作中,我們將遵照這種原則和方法,為自動句法分析重建詞類體系,只要句法功能總和相同,不管是所謂的名詞還是所謂的動詞,都可以歸為一類。漢語的詞類劃分和詞的歸類問題,是中文信息處理領域的基礎性研究問題,希望通過我們的工作,能對自動句法分析提供一定的依據。
(本文得到教育部人文社科基金項目“基于語法功能匹配的自動句法分析研究[11YJA740118]”的資助。)
注 釋:
①陳小荷.從自動句法分析角度看漢語詞類問題[J].語言教學與研究,1999,(3).
參考文獻:
[1]郭銳.現代漢語詞類研究[M].北京:商務印書館,2003.
[2]胡明揚.詞類問題考察[M].北京:北京語言學院出版社,1996.
[3]胡明揚.語言學論文集[M].北京:商務印書館,2003.
[4]劉順.現代漢語名詞的多視角研究[M].上海:學林出版社,2003.
[5]羅振聲,袁毓林.計算機時代的漢語和漢字研究[M].北京:清華大學出版社,1996.
[6]莫彭齡,單青.三大類實詞句法功能的統計分析[J].南京師大學報(社會科學版),1985,(3).
[7]彭睿.名詞和名詞的再分類[A].詞類問題考察[C].北京:北京語言學院出版社,1996.
[8]史存直.句本位語法論集[M].上海:上海教育出版社,1996.
[9]張斌.漢語語法學[M].上海:上海教育出版社,2003.
[10]朱德熙.語法講義[M].北京:商務印書館,1982.
(徐艷華 山東煙臺 魯東大學文學院 264025)