999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

短語結構到依存結構樹庫轉換研究

2010-06-05 09:42:58周惠巍黃德根錢志強楊元生
大連理工大學學報 2010年4期
關鍵詞:結構

周惠巍, 黃德根, 錢志強, 楊元生

(大連理工大學計算機科學與技術學院,遼寧大連 116024)

0 引 言

漢語句法分析一直被認為是中文信息處理的一個重要技術.其可以分為兩種方法:一種是短語結構解析,即將句子劃分成短語,解析句子短語間的層次結構關系[1];另一種是依存結構解析,即解析句子詞語間的依存關系[2、3].依存關系可以明確地表明詞語間的支配關系,并能方便地發展為語義依存描述,近年來越來越受到研究人員的重視.

計算語言學的發展使得人們可以使用機器學習的方法基于大規模的語料庫構建漢語句法解析器.國內外研究人員已經構建完成了各種語言的樹庫,樹庫標注方式各不相同,其結構大體分為兩類:短語結構樹庫和依存結構樹庫.常用的漢語樹庫有短語結構的賓州中文樹庫(Penn Chinese T reebank,CTB)[4]和依存結構的哈爾濱工業大學信息檢索研究室的依存結構樹庫(HIT Chinese Dependency Treebank,H IT-IR-CDT).CTB的創建為漢語句法分析提供了一個平臺,基于CTB的短語結構解析[5]和依存結構解析[6]成為當前研究的熱點.但是CTB是短語結構樹庫,而且沒有標明每個短語的中心子節點,所以必須首先將CTB轉換為依存結構樹庫,然后基于轉換后的CTB才能進行中文依存關系解析.

目前,漢語樹庫資源仍然存在不足,而手工標注樹庫需要大量的時間和人力.短語結構樹庫和依存結構樹庫雖然標注方法不同,但描述的都是句法結構,在深層次上具有一致性,所以人們嘗試在兩種不同類型的樹庫之間進行相互轉換[7~9].Lin提出基于中心子節點表(tree head table)將短語結構樹轉換為依存結構樹的算法[7].轉換采用遞歸算法,將短語結構樹中各短語的非中心子節點依存到該短語的中心子節點上.Xia提出基于中心子節點過濾表(head percolation table)將賓州英文樹庫(English Penn Treebank,PTB)和CTB從短語結構樹轉換為依存結構樹的算法[8].中心子節點過濾表與中心子節點表的概念基本相同,均由短語類型、搜索短語中心子節點的方向以及短語中各類標注的子節點作為中心子節點的優先次序三部分組成.但是Xia構造的漢語中心子節點過濾表非常簡單,表中每種短語包含的子節點類型比實際CTB語料中出現的子節點類型少許多.比如名詞短語(noun phrase,NP)的子節點類型為43種,而Xia構造的中心子節點過濾表的NP子節點類型僅為5種.如果在短語中沒有搜索到中心子節點過濾表中的節點類型,Xia即將搜索起始節點默認為該短語的中心子節點.這種處理方法簡單可行,但是需要完整的中心子節點過濾表,否則會影響轉換效果.黨政法等提出了一種將清華漢語樹庫(TsinghuaChinese Treebank,簡稱TCT)從短語結構轉換成依存結構的算法[9].該算法充分利用了TCT具有的功能、結構雙重標記,轉換得到的依存樹包含了節點間的依存關系以及具體的依存關系類型.CTB是國內外研究人員常用的一個大規模漢語樹庫,將其從短語結構轉換為依存結構有利于人們進行漢語依存關系解析的研究.本文在總結以往研究成果的基礎上,結合CTB標注體系的特點,構造完整的漢語中心子節點過濾表,并基于中心子節點過濾表將CTB從短語結構轉換為依存結構.

1 中心子節點過濾表

中心子節點在短語結構和依存結構中起著非常重要的作用.X-bar理論[10]和管轄約束(GB)理論[11]等語言理論認為,每個短語結構中都有一個中心子節點決定著這個短語的主要性質,短語中的其他節點都是該中心子節點的修飾子節點.而在依存結構中非中心子節點以某種依存關系依存于中心子節點.

依存結構樹庫H IT-IR-CDT標注體系如圖1所示,其標注了句子中詞語之間的依存關系及依存類型.短語結構樹庫CTB中句子的標注如圖2所示,其僅標出每個句子的短語層次結構及短語類型,沒有標明每個短語的中心子節點.確定短語中心子節點最常用的方法是使用中心子節點過濾表.

圖1 H IT-IR-CDT依存結構樹示例Fig.1 A dependency structure in the H IT Chinese Dependency Treebank

圖2 CTB短語結構樹示例Fig.2 A phrase structure in the Penn Chinese Treebank

1.1 中心子節點過濾表的結構

表1為部分中心子節點過濾表,其每一行都由〈短語類型,搜索方向,優先級〉三項組成.其中,短語類型是非終端節點的短語符號;搜索方向為在非終端節點內部搜索中心子節點的方向,取值為L時從短語左側開始向右搜索,取值為R時從短語右側開始向左搜索;優先級為決定短語內部各類標注子節點作為中心節點的優先次序.例如,根據過濾表中的一個條目〈IP:R,IP/VP/CP/VCD/VRD/VV/VA〉,可以這樣確定IP短語的中心子節點:從右向左觀察IP的每一個子節點,最先找到的標注為IP的子節點即為IP的中心子節點;如果沒有找到IP節點,重新從右向左觀察IP的每一個子節點,最先找到的符號為VP的子節點即為IP的中心子節點;以此類推,如果這個IP內部沒有任何標注為 IP 、VP 、CP 、VCD、VRD、VV 、VA 的子節點,就默認最右側的子節點為中心子節點.

表1 中心子節點過濾表(示例)Tab.1 Head percolation table(examples)

1.2 中心子節點過濾表的制定

依據中文依存句法制定中心子節點過濾表.本文采用了簡單的依存關系描述體系,其中包含10種依存關系類型,如表2所示.非中心子節點以表中所示依存關系類型依存于中心子節點.

表2舉例說明了各類依存關系的定義.其中“舉例”一列中,標注為[1]的為例句1“城鄉游/首迎式/在/北京/舉行/,市/領導/及/一千多/名/游客/出席/歡慶/活動。”中包含的依存關系.標注為[2]的為例句2“他/背起/沉重/的/行李/,匆匆/地/走出/家門。”中包含的依存關系.句中分詞依照CTB的標注體系.箭頭“※”左側的詞依存于其右側的詞.

列出CTB中每種短語包含的全部節點類型,依據上述依存關系的定義,對各類節點作為中心子節點的優先級進行排序,制定中心子節點過濾表,如表1所示.

表2 依存關系類型Tab.2 The types of dependency relations

2 短語結構樹到依存結構樹的轉換

制定了中心子節點過濾表,短語結構樹到依存結構樹的轉換就相當直接.轉換采用遞歸算法,將短語結構樹Tree root轉換為依存結構樹Tree deprel的轉換算法Convert(Tree root,Tree deprel)為

(1)若根節點root為葉子節點,返回根節點root并完成轉換;

(2)查找根節點root的中心子節點;

(3)轉換以中心子節點為根的子樹,并返回該子樹的中心子節點headChild;

(4)對于其他非中心子節點

①轉換以非中心子節點為根的子樹,并返回該子樹的中心子節點non-headChild;

②將non-headChild依存于headChild,并填入依存結構樹Tree deprel.

圖3顯示了圖2所示例句從短語結構樹到依存結構樹的轉換.首先轉換以IP為根節點的短語結構樹Tree IP.IP不是葉子節點,查找IP短語的中心子節點.參照表1中心子節點過濾表,從右向左觀察`IP'的每一個子節點,最先找到的標注為`IP'的子節點即為`IP'的中心子節點.因為沒有找到`IP'子節點,重新從右向左查找標注為`VP'的子節點為`IP'的中心子節點(圖中實線所示).然后轉換中心子樹Tree VP,`VP'的中心子節點`VV(成為)'為葉子節點,將其返回.繼續轉換`VP'的非中心子樹Tree NP…依次確定句子每個短語的中心子節點,將短語的非中心子節點依存到其中心子節點上.如短語`NP(NP(NR(中國))NP(NN(外貿)))'的中心子節點為`NN(外貿)',則節點`NN(外貿)'決定了短語`NP(NP(NR(中國))NP(NN(外貿)))'的主要性質,非中心子節點`NR(中國)'依存于中心子節點`NN(外貿)'.其上一層的短語`NP(NP(NR(中國))NP(NN(外貿)))ADJP(JJ(重要))NP(NN(增長點))'的中心子節點為最右側的短語`NP(NN(增長點))',非中心子節點`JJ(重要)'依存于中心子節點`NN(增長點)';同理,另外一個非中心子節點`NP(NR(中國)NN(外貿))'的中心子節點`NN(外貿)'也依存于`NN(增長點)'.最后得到整句的依存關系:“NN(外商)※NN(企業);NN(投資)※NN(企業);NR(中國)※NN(外貿);NN(外貿)※NN(增長點);JJ(重要)※NN(增長點);NN(增長點)※VP(成為);NN(企業)※VV(成為)”.節點`VV(成為)'為整句的中心子節點.

圖3 短語結構樹到依存結構樹的轉換例句Fig.3 An examp le o f converting phrase structure tree to dependency structure tree

3 實 驗

本文對賓州中文樹庫(CTB5.0)進行了轉換.CTB5.0是在美國國防部資助下,由語言數據聯盟(Linguistic Data Consortium,LDC)發布的一個語料庫.其由890個文件組成,包含18782個句子,507222個詞,824983個漢字.句子平均長度是27個詞.句子如圖2所示,標注了分詞、詞性和短語結構.文章大部分來自《新華日報》,還有少部分來自香港地區政府和臺灣地區媒體.文章覆蓋政治、經濟和文化等領域.本文將CTB中的短語按類型進行統計,統計結果見表3.因為短語WHNP和WHPP沒有子節點,所以不包含在表1中.

表3 CTB短語類型及數量統計Tab.3 Details of the phrases in the Penn Chinese Treebank

為檢驗轉換效果,隨機地從CTB5.0中取出200句語料進行測試,句子的平均句長同樣是27個詞.對測試語料中出現的短語的轉換結果進行了人工校驗,轉換正確率如表4所示.部分短語類型在測試語料中沒有出現.

由表4可見,大部分短語的轉換正確率接近或達到了100%,測試語料中所有短語的轉換正確率達到99.50%.CP、IP、NP節點轉換依然存在錯誤,其他節點包括大量的VP節點,正確率均為100%.

表4 轉換正確率Tab.4 Conversion p recision

通過對轉換錯誤的短語結構進行觀察發現,大部分是處于外層的具有復雜結構的短語.如圖4所示IP短語包含兩個IP子節點.依據中心子節點過濾表,右側`IP'子節點為外層IP短語的中心子節點,左側`IP'子節點的中心節點`VV(達)'依存于右側`IP'子節點的中心節點`M(美元)'.但是這種依存關系違背了依存文法.造成這種錯誤的原因是右側`IP'短語沒有動詞,所以`M(美元)'成為其中心節點,使得`VV(達)'錯誤地依存于`M(美元)'.如果右側`IP'子節點添加了動詞,改為“投資額/約/達/一千萬/美元”,則其中的`VV(達)'將成為其中心節點.最終,左側`IP'的中心節點`VV(達)'依存于右側`IP'的中心節點`VV(達)',這種依存關系符合依存文法.

圖4 轉換錯誤例句Fig.4 An exam pleof the conversion error

Xia基于中心子節點過濾表將PTB和CTB從短語結構樹轉換為依存結構樹[8].其指出除了具有同位語的名詞短語(NP)外,PTB中其他短語都取得了較好的轉換效果,但是沒有給出具體的轉換正確率.Xia沒有提及CTB的轉換效果.

4 結論和展望

本文介紹了將CTB從短語結構轉換為依存結構的方法.基于現代中文依存關系文法制定了完整的中心子節點過濾表,依據該表可以確定CTB中所有短語的中心子節點,并將短語結構的CTB轉換為依存結構.抽樣測試結果表明轉換正確率達到了99.50%.本文的工作,使得短語結構的CTB可以用于中文依存關系解析的研究,對于研究句法解析具有一定的參考價值.下一步,將利用轉換得到的依存結構樹庫,進行中文依存關系解析的研究.

[1]周 強,趙穎澤.漢語功能塊自動分析[J].中文信息學報,2007,21(5):18-24

[2]CHENG Yu-chang,ASAHARA M,MATSUMOTO Y.Machine learning-based dependency analyzer for Chinese[C]//M INGHUI D,HA IZHOU L,M IN Z,eds.Proceedings of the International Conferenceon Chinese Computing 2005.Singapore:COLIPS Pub lication,2005:66-73

[3]周惠巍,楊 洋,黃德根.基于遠距離依存關系的中文依存關系解析[J].計算機工程,2007,33(24):212-214

[4]XUE Nian-w en,XIA Fei,CH IOU Fu-dong,etal.The Penn Chinese Treebank:phrase structure annotation of a large corpus[J].Natura l Language Engineering,2005,11(2):207-238

[5]曹海龍,趙鐵軍,李 生.基于中心驅動模型的賓州中文樹庫(CTB)句法分析[J].高技術通訊,2007,17(1):15-20

[6]CHENG Yu-chang,ASAHARA M,MATSUMOTO Y.Chinese determ inistic dependency analyzer:examining effects of global features and root node finder[C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing.Korea:SIGHAN,2005:17-24

[7]LIN De-kang.A dependency-based method for evaluating broad-coverage parsers [J].Natural Language Engineering,1998,4(2):97-114

[8]XIA Fei.Automatic grammar generation from two different perspectives[D].Philadelphia:University of Pennsylvania,1999

[9]黨政法,周 強.短語樹到依存樹的自動轉換研究[J].中文信息學報,2005,19(3):21-27

[10]CHOMSKY N.Remarks on nominalization[C]//JACOBS R,ROSENBAUM P,eds.Reading in English Transformational Grammar.Waltham(MA):Ginn and Co.,1970:184-221

[11]CHOMSKY N.Lectures on Governmentand Binding[M].Dord recht:Foris Publications,1981

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 99热这里只有成人精品国产| 日韩美一区二区| 亚洲精品综合一二三区在线| 91久久精品日日躁夜夜躁欧美| 性色在线视频精品| 欧美亚洲香蕉| 91无码人妻精品一区| 欧洲精品视频在线观看| 亚洲精品麻豆| 欧美日韩导航| www.youjizz.com久久| 国产精品白浆在线播放| 日本黄网在线观看| 午夜小视频在线| 精品精品国产高清A毛片| 97亚洲色综久久精品| 亚洲精品成人片在线观看| 久久人妻xunleige无码| 精品无码日韩国产不卡av | 色综合天天综合中文网| 国产男女XX00免费观看| 欧美一区二区啪啪| 超薄丝袜足j国产在线视频| 99久久精品免费观看国产| 女人天堂av免费| 国产99视频精品免费视频7| www.91在线播放| 99精品视频在线观看免费播放| 国产精品性| 欧美怡红院视频一区二区三区| 国产精品爆乳99久久| 欧美五月婷婷| lhav亚洲精品| 国产超碰在线观看| a免费毛片在线播放| 国产黄色片在线看| 日韩高清中文字幕| 99久久国产综合精品2020| 玩两个丰满老熟女久久网| 成人在线欧美| 日韩免费毛片| 亚洲国产精品美女| 一级毛片在线免费看| 色有码无码视频| 久久久黄色片| 久久黄色免费电影| 天堂亚洲网| 亚洲无码37.| 婷婷综合缴情亚洲五月伊| 99热6这里只有精品| 久久午夜夜伦鲁鲁片不卡| 亚洲中文精品久久久久久不卡| 久久黄色影院| 无码福利日韩神码福利片| 亚洲综合九九| 亚洲制服丝袜第一页| 国产人碰人摸人爱免费视频| 国产精品网址你懂的| 五月婷婷伊人网| 久久中文无码精品| 一区二区影院| 黑色丝袜高跟国产在线91| 中文成人在线| 亚洲看片网| 欧美中出一区二区| 一区二区偷拍美女撒尿视频| 在线观看国产小视频| 国内精品久久九九国产精品| 一边摸一边做爽的视频17国产| 91国内外精品自在线播放| 国产精品网拍在线| 爆操波多野结衣| 日本国产在线| 国产丝袜第一页| 99视频在线观看免费| 国产欧美视频综合二区| 免费无码又爽又黄又刺激网站| 毛片基地美国正在播放亚洲| 国产又大又粗又猛又爽的视频| 在线国产综合一区二区三区| 91年精品国产福利线观看久久| 亚洲人成网站在线播放2019|