999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語從句識別中的特征表示

2007-01-01 00:00:00王炳錫李弼程
計算機應(yīng)用研究 2007年2期

摘 要:英語從句識別是句法分析的基本問題,它是進一步進行英漢機器翻譯的基礎(chǔ)。提出一種基于最大熵原理的英語從句識別方法,即先將提取后的特征表示為最大熵模型形式并對其編碼,再采用最大熵原理完成最后的識別過程。采用該方法進行完整從句識別的正確率和召回率分別達到80.92%和62.36%,實驗表明,該方法的正確識別率遠高于CoNLL01的底線標準,是一種簡單有效的從句識別方法。

關(guān)鍵詞:從句識別; 最大熵; 特征

中圖法分類號:TP391文獻標識碼:A

文章編號:1001—3695(2007)02—0089—03

1 引言

目前的機器翻譯系統(tǒng)仍不能很好地處理復(fù)合句。為了提高翻譯質(zhì)量,人們提出淺層句法分析的概念,即將復(fù)雜的句子分割成較小的單元,并對它們分別進行識別分析。從復(fù)合句中將一個個從句分離出來的過程就被稱為從句識別。復(fù)合句中從句的識別問題不僅可以應(yīng)用于機器翻譯,而且可以用于語料庫的對齊、文語轉(zhuǎn)換和信息檢索等領(lǐng)域。

英語從句的識別問題始于20世紀90年代初。1990年Aberney在他的CASS分析器中采用了一個從句濾波器來識別從句。20世紀90年代中期美國的New Mexico State Univ.(NMSU),Univ.of Southern California(USC),Carnegie Mellon Univ.(CMU)三所大學(xué)聯(lián)合實現(xiàn)的機譯系統(tǒng)——PANGLOSS MARK Ⅲ是使用DCG規(guī)則來識別四種類型的從句[4]。2001年在CoNLL(Conference on Computational Natural Language Learning)會議上,人們首次提出將統(tǒng)計的方法應(yīng)用于從句識別中,其中Xavier Carrearas[1]采用Adaboost Decision Trees的方法效果最好,其召回率達到73.28%。

近年來,最大熵模型[2]已經(jīng)被成功地用于分詞、詞性標注、短語識別等自然語言處理領(lǐng)域。它的優(yōu)點是在試驗過程中,只需要選擇特征,而無須考慮如何使用這些特征;并且可以很靈活地選擇使用各種不同類型的特征,這些特征之間相互獨立。

2 系統(tǒng)介紹

該試驗根據(jù)最大熵原理建立從句識別模型。最大熵方法的主要思想是,在只掌握關(guān)于未知分布的部分知識時選取符合這些知識且熵值最大的概率分布。系統(tǒng)具體實現(xiàn)如圖1所示。輸入為已經(jīng)實現(xiàn)詞性標注、短語標注的Penn Tree Bank語料。識別從句句首的過程是:首先從訓(xùn)練語料中提取特征;然后利用最大熵模型計算對應(yīng)特征參數(shù),建立識別模型,再從測試語料中提取出同類別特征;最后根據(jù)識別模型預(yù)測出每個詞是否為句首。識別句尾的過程與句首的相似,兩者唯一的區(qū)別在于提取的特征略有不同,即句尾識別將利用句首識別的預(yù)測結(jié)果作為其特征。對于完整從句的識別,是結(jié)合前兩部分的結(jié)果和語法規(guī)則得到最后的標注輸出。

3 最大熵原理

4 從句識別中的特征描述

4.1 特征選擇

選取合適的特征對于從句識別問題至關(guān)重要。本文中所采用的特征是基于CoNLL’01會議上Xavier Carrearas提出的四種特征并對其加以改進后得到的。本試驗采用的語料是CoNLL’01會議提供的Penn Tree Bank語料。對于從句句首識別,用“S”“X”來區(qū)分句首詞和非句首詞,用“E”“X”來區(qū)分句尾詞和非句尾詞,對于完整從句標注則使用括號、“S”、星號來標志從句。

最大熵模型中,特征集合的選取是一個非常重要的問題。以句首識別為例,一般將句首識別的特征分為兩大類,即詞匯特征和句子特征。其中詞匯特征采取滑動窗口的方法得到詞語、詞性標注、短語標注三類特征,如例1所示,窗內(nèi)中心詞為當前詞。而句子特征又可以劃分為以下五個方面:

(1)句子結(jié)構(gòu)

①判斷當前位置是否為句首;

②將句子左右兩部分的詞性串和短語串作為句子特征提取出來,并且在短語串中只關(guān)心動詞短語、逗號、關(guān)聯(lián)詞這些體現(xiàn)句首信息的短語。

(2)功能詞信息

①當前詞為If/That/What/Who/Where/When/Why/Whose/Whether/How/While時,確定從句句首位置;

②當前詞為Which時,檢查它的前一個詞是否為at/in/on等,由此找出從句句首。

(3)動詞信息

以當前詞為界,判斷這句話中左右兩部分是否有VP出現(xiàn)。

(4)標點信息

①遇到逗號的情形。整句話中如果只有一個逗號,則以此為界劃分句子;如果有多個逗號,首先檢查逗號之間有沒有VP出現(xiàn),然后再提取特征信息。

②當前詞是冒號或引號時。將該詞本身與后面一個詞的標注情況作為一條特征。

(5)特殊情況

當前詞是And或Or時,判斷左右是否有VP出現(xiàn)。

4.2 特征編碼

不僅特征的選擇會影響識別結(jié)果,特征的表示形式也與最后結(jié)果有直接關(guān)系,因此對每一類特征分別進行編碼是必不可少的。

在給出編碼之前,首先引入謂詞的概念。在最大熵模型中用二值函數(shù)表示特征:

LSEN=B-VP,RSEN=B-VP_I-VP_O分別表示從句首到當前位置包含一個只有一個動詞的動詞短語;從當前位置到句尾包含一個動詞短語和一個句號。

POSS=PRP_VBZ_DT_JJ_NN_NN_MD_VB_TO_RB_#_CD_CD_IN_NNP_表示將該句話的詞性串作為一條特征。

最后在這些特征之后添加當前位置的句首類別標志“S”,這樣對于當前詞The的所有特征就表示了出來。

由此可以看出,一個特征函數(shù)可由三部分組成:等號及其左邊的部分、特征取值、類別標志。此特征函數(shù)的取值即為0或1,實際前兩部分恰好構(gòu)成謂詞。

5 實驗結(jié)果

試驗建立在基于完成短語標注的Penn Tree Bank語料上,其中WSJ15-18作為訓(xùn)練集(211 727個詞),WSJ21作為開放測試(40 039個詞)。

由于訓(xùn)練集中兩類數(shù)據(jù)分布不均,造成對于詞匯成為非句首(非句尾)的特征遠比成為句首(句尾)的特征貢獻大得多。所以本試驗中沒有直接采用最大熵模型計算出來的概率作為分類標準,而是將其計算的兩類概率相除作為一個分值[5]。這里按照訓(xùn)練集數(shù)據(jù)特點制定動態(tài)閾值,結(jié)合分值大小來判斷詞語的類別。

正確率=識別出的正確句子數(shù)識別出的句子數(shù);

召回率=識別出的正確句子數(shù)語料中的句子數(shù)

由實驗結(jié)果可以看出,針對從句識別問題提出適合最大熵模型的特征描述方式,對于問題的解決有很好的效果。

6 結(jié)論

最大熵模型通過對訓(xùn)練語料提取詞匯和句子特征,并對它們進行編碼,有效地表示了句首和句尾的信息。試驗中充分利用了最大熵模型對特征要求的靈活性,經(jīng)過測試,開放集識別的正確率達到80.92%,召回率達到62.36%。試驗過程中動態(tài)閾值是根據(jù)訓(xùn)練數(shù)據(jù)得到的,如何在開放集中設(shè)定更加準確的閾值將成為下一步的研究方向。

本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

主站蜘蛛池模板: 久久人体视频| 欧美激情第一区| 国产成人91精品| 欧美精品亚洲二区| 狂欢视频在线观看不卡| 最新国产成人剧情在线播放 | 国产AV毛片| 欧美视频在线第一页| 五月婷婷导航| 亚洲va欧美ⅴa国产va影院| 制服丝袜无码每日更新| 亚洲欧美国产视频| 亚洲国产中文欧美在线人成大黄瓜| 久久午夜夜伦鲁鲁片不卡| 91网址在线播放| 国产成人高清精品免费软件| 国产剧情一区二区| 国产91精品久久| 成人噜噜噜视频在线观看| 亚洲熟女偷拍| 99久久99这里只有免费的精品| 在线观看精品国产入口| 九色在线视频导航91| 国产波多野结衣中文在线播放| 欧美日韩高清在线| 免费观看亚洲人成网站| 黄色三级毛片网站| 日韩av电影一区二区三区四区| 青青草一区| 国产成人夜色91| 日本精品影院| 福利国产微拍广场一区视频在线| 国产91无码福利在线| 色综合久久久久8天国| 国产真实乱子伦视频播放| 国产成人精品一区二区秒拍1o| 欧美色视频在线| 色综合婷婷| 青青青国产免费线在| 国产精品偷伦视频免费观看国产| 午夜精品国产自在| 国产视频一二三区| 美女啪啪无遮挡| 亚洲无码高清一区| 国产黄在线免费观看| 色婷婷在线影院| 秘书高跟黑色丝袜国产91在线| 欧美自慰一级看片免费| 亚洲二三区| 国产精品免费电影| 在线免费观看AV| 亚洲爱婷婷色69堂| 三区在线视频| 久久精品无码中文字幕| 色婷婷电影网| 六月婷婷综合| 亚洲第一极品精品无码| 久久影院一区二区h| 欧美 亚洲 日韩 国产| 欧美成人一级| 性色生活片在线观看| 免费xxxxx在线观看网站| 亚洲嫩模喷白浆| 国产黄网永久免费| 91一级片| 国产69精品久久| 九九久久精品免费观看| 热99re99首页精品亚洲五月天| 国产内射一区亚洲| 一区二区午夜| 日本午夜精品一本在线观看| 亚洲天堂精品视频| 99久久精品国产麻豆婷婷| 日韩亚洲高清一区二区| 日韩国产黄色网站| 亚洲人成亚洲精品| 久久一本精品久久久ー99| swag国产精品| 91精品久久久久久无码人妻| 制服丝袜一区| 色妞永久免费视频| 国产国产人成免费视频77777|