摘 ?要:立足于面向計算機的語言本體研究,從切分語料中選擇數條N+V結構,從句法、語義和語用特征的角度探索該結構形成歧義的原因,找尋搭配兩個成分的搭配規則,并將之形式化,進而制定相應的機用識別策略,從而提升計算機對該結構進行分析的能力。
關鍵詞:中文信息處理 ?“N+V”結構 ?自動消歧
“N+V”格式是一種比較常見的同形異構結構,雖然表層形式簡潔,從層次劃分上不存在困難,但是內部可能存在不同的語法關系、語義關系。
一、“N+V”結構本體分析
(一)“N+V”結構的語法關系
本文所指“N+V”結構是指可以自足的、無其他成分或標記的合法語言單位,不包括“把N+V了”“N的V”等結構形式。根據馮志偉先生的潛在歧義理論,我們將這種結構底層存在的語法關系區分如下:
主謂關系,其中“N”作主語,“V”作謂語,二者之間是陳述與被陳述的關系,如:糧食豐收、媽媽做飯、小二黑結婚;
偏正關系,其中“N”為修飾語,“V”是中心語,如:口頭創作、直線上升、文藝演出、汽車制造、語言研究、核試驗;
既可以分析成主謂關系也可以分析成偏正關系,這種結構在沒有給定語境時會產生理解上的歧義,如:機器生產、專業人員培訓。
其中,前兩種屬于“格式真歧義短語”,它們具有相同的表層類型形式,但是對應著兩種句法功能結構,計算機在處理時不能判斷采取哪種句法結構,就會產生兩種結果,而這種歧義對人來說是不存在的;最后一種屬于“實例真歧義短語”,即實例化后產生的短語對應至少兩種句法結構,這種歧義對人和計算機都是存在的。……