摘 要:英語從句識別是句法分析的基本問題,它是進一步進行英漢機器翻譯的基礎(chǔ)。提出一種基于最大熵原理的英語從句識別方法,即先將提取后的特征表示為最大熵模型形式并對其編碼,再采用最大熵原理完成最后的識別過程。采用該方法進行完整從句識別的正確率和召回率分別達到80.92%和62.36%,實驗表明,該方法的正確識別率遠高于CoNLL01的底線標準,是一種簡單有效的從句識別方法。
關(guān)鍵詞:從句識別; 最大熵; 特征
中圖法分類號:TP391文獻標識碼:A
文章編號:1001—3695(2007)02—0089—03
1 引言
目前的機器翻譯系統(tǒng)仍不能很好地處理復(fù)合句。為了提高翻譯質(zhì)量,人們提出淺層句法分析的概念,即將復(fù)雜的句子分割成較小的單元,并對它們分別進行識別分析。從復(fù)合句中將一個個從句分離出來的過程就被稱為從句識別。復(fù)合句中從句的識別問題不僅可以應(yīng)用于機器翻譯,而且可以用于語料庫的對齊、文語轉(zhuǎn)換和信息檢索等領(lǐng)域。
英語從句的識別問題始于20世紀90年代初。1990年Aberney在他的CASS分析器中采用了一個從句濾波器來識別從句。20世紀90年代中期美國的New Mexico State Univ.(NMSU),Univ.of Southern California(USC),Carnegie Mellon Univ.(CMU)三所大學(xué)聯(lián)合實現(xiàn)的機譯系統(tǒng)——PANGLOSS MARK Ⅲ是使用DCG規(guī)則來識別四種類型的從句[4]。2001年在CoNLL(Conference on Computational Natural Language Learning)會議上,人們首次提出將統(tǒng)計的方法應(yīng)用于從句識別中,其中Xavier Carrearas[1]采用Adaboost Decision Trees的方法效果最好,其召回率達到73.28%。
近年來,最大熵模型[2]已經(jīng)被成功地用于分詞、詞性標注、短語識別等自然語言處理領(lǐng)域。它的優(yōu)點是在試驗過程中,只需要選擇特征,而無須考慮如何使用這些特征;并且可以很靈活地選擇使用各種不同類型的特征,這些特征之間相互獨立。
2 系統(tǒng)介紹
該試驗根據(jù)最大熵原理建立從句識別模型。最大熵方法的主要思想是,在只掌握關(guān)于未知分布的部分知識時選取符合這些知識且熵值最大的概率分布。系統(tǒng)具體實現(xiàn)如圖1所示。輸入為已經(jīng)實現(xiàn)詞性標注、短語標注的Penn Tree Bank語料。識別從句句首的過程是:首先從訓(xùn)練語料中提取特征;然后利用最大熵模型計算對應(yīng)特征參數(shù),建立識別模型,再從測試語料中提取出同類別特征;最后根據(jù)識別模型預(yù)測出每個詞是否為句首。識別句尾的過程與句首的相似,兩者唯一的區(qū)別在于提取的特征略有不同,即句尾識別將利用句首識別的預(yù)測結(jié)果作為其特征。對于完整從句的識別,是結(jié)合前兩部分的結(jié)果和語法規(guī)則得到最后的標注輸出。
3 最大熵原理
4 從句識別中的特征描述
4.1 特征選擇
選取合適的特征對于從句識別問題至關(guān)重要。本文中所采用的特征是基于CoNLL’01會議上Xavier Carrearas提出的四種特征并對其加以改進后得到的。本試驗采用的語料是CoNLL’01會議提供的Penn Tree Bank語料。對于從句句首識別,用“S”“X”來區(qū)分句首詞和非句首詞,用“E”“X”來區(qū)分句尾詞和非句尾詞,對于完整從句標注則使用括號、“S”、星號來標志從句。
最大熵模型中,特征集合的選取是一個非常重要的問題。以句首識別為例,一般將句首識別的特征分為兩大類,即詞匯特征和句子特征。其中詞匯特征采取滑動窗口的方法得到詞語、詞性標注、短語標注三類特征,如例1所示,窗內(nèi)中心詞為當前詞。而句子特征又可以劃分為以下五個方面:
(1)句子結(jié)構(gòu)
①判斷當前位置是否為句首;
②將句子左右兩部分的詞性串和短語串作為句子特征提取出來,并且在短語串中只關(guān)心動詞短語、逗號、關(guān)聯(lián)詞這些體現(xiàn)句首信息的短語。
(2)功能詞信息
①當前詞為If/That/What/Who/Where/When/Why/Whose/Whether/How/While時,確定從句句首位置;
②當前詞為Which時,檢查它的前一個詞是否為at/in/on等,由此找出從句句首。
(3)動詞信息
以當前詞為界,判斷這句話中左右兩部分是否有VP出現(xiàn)。
(4)標點信息
①遇到逗號的情形。整句話中如果只有一個逗號,則以此為界劃分句子;如果有多個逗號,首先檢查逗號之間有沒有VP出現(xiàn),然后再提取特征信息。
②當前詞是冒號或引號時。將該詞本身與后面一個詞的標注情況作為一條特征。
(5)特殊情況
當前詞是And或Or時,判斷左右是否有VP出現(xiàn)。
4.2 特征編碼
不僅特征的選擇會影響識別結(jié)果,特征的表示形式也與最后結(jié)果有直接關(guān)系,因此對每一類特征分別進行編碼是必不可少的。
在給出編碼之前,首先引入謂詞的概念。在最大熵模型中用二值函數(shù)表示特征:
LSEN=B-VP,RSEN=B-VP_I-VP_O分別表示從句首到當前位置包含一個只有一個動詞的動詞短語;從當前位置到句尾包含一個動詞短語和一個句號。
POSS=PRP_VBZ_DT_JJ_NN_NN_MD_VB_TO_RB_#_CD_CD_IN_NNP_表示將該句話的詞性串作為一條特征。
最后在這些特征之后添加當前位置的句首類別標志“S”,這樣對于當前詞The的所有特征就表示了出來。
由此可以看出,一個特征函數(shù)可由三部分組成:等號及其左邊的部分、特征取值、類別標志。此特征函數(shù)的取值即為0或1,實際前兩部分恰好構(gòu)成謂詞。
5 實驗結(jié)果
試驗建立在基于完成短語標注的Penn Tree Bank語料上,其中WSJ15-18作為訓(xùn)練集(211 727個詞),WSJ21作為開放測試(40 039個詞)。
由于訓(xùn)練集中兩類數(shù)據(jù)分布不均,造成對于詞匯成為非句首(非句尾)的特征遠比成為句首(句尾)的特征貢獻大得多。所以本試驗中沒有直接采用最大熵模型計算出來的概率作為分類標準,而是將其計算的兩類概率相除作為一個分值[5]。這里按照訓(xùn)練集數(shù)據(jù)特點制定動態(tài)閾值,結(jié)合分值大小來判斷詞語的類別。
正確率=識別出的正確句子數(shù)識別出的句子數(shù);
召回率=識別出的正確句子數(shù)語料中的句子數(shù)
由實驗結(jié)果可以看出,針對從句識別問題提出適合最大熵模型的特征描述方式,對于問題的解決有很好的效果。
6 結(jié)論
最大熵模型通過對訓(xùn)練語料提取詞匯和句子特征,并對它們進行編碼,有效地表示了句首和句尾的信息。試驗中充分利用了最大熵模型對特征要求的靈活性,經(jīng)過測試,開放集識別的正確率達到80.92%,召回率達到62.36%。試驗過程中動態(tài)閾值是根據(jù)訓(xùn)練數(shù)據(jù)得到的,如何在開放集中設(shè)定更加準確的閾值將成為下一步的研究方向。
本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。