999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文篇章關系任務分析及語料標注

2016-11-19 06:10:36張牧宇秦兵劉挺
智能計算機與應用 2016年5期

張牧宇 秦兵 劉挺

摘 要:篇章關系(Discourse Relation)是篇章語義分析的重要內容,本文在英文篇章關系研究的基礎上分析了中英文間的差異,總結了中文篇章語義分析的特點,并在此基礎上提出面向中文的層次化篇章關系體系,對其關系類型進行詳細描述。在其基礎上,研究構建包含1 096篇語料的中文篇章關系語料庫,為進一步的篇章語義分析工作奠定基礎。

關鍵詞:語義分析;篇章關系;中文篇章關系體系;語料標注;

中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)06-

Chinese discourse relation analysis and data annotation

ZHANG Muyu, QIN Bing1, LIU Ting1

( School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Discourse Relation is an important part of discourse semantic analysis. This paper analyses the differences between Chinese and English, then presents the first Chinese discourse relation hierarchy based on the English discourse relation researches with explanation in details. Based on the analysis, the paper further construct a large-scale Chinese Discourse Relation corpus, which consists of 1 096 documents. The corpus together with the related analysis during the data annotation lays a foundation for the future discourse semantic analysis.

Keywords: semantic analysis; discourse relation; Chinese discourse relation system; data annotation

0 引言

隨著詞匯語義、句子語義研究的逐漸成熟,篇章語義逐漸成為學界熱點,作為篇章語義分析的重要內容,篇章關系研究(Discourse Relation)也開始受到越來越多的關注。本文選擇篇章關系分析作為篇章分析研究的切入點,原因在于:文檔內的各部分內容并不是孤立存在的,而是通過某種關系與其上下文構成聯系,從而更好地被讀者接受與理解[1]。因此,篇章分析領域中的焦點問題之一就是識別兩個文本塊之間的篇章關系。在前期的工作中,研究人員已經證明篇章關系的有效識別可以顯著改善很多自然語言處理任務的性能,對自動文摘[2]、自動問答[3]、傾向性分析[4]以及文本質量評價[5]、文本連貫性評價[6]等許多NLP任務均將起到重大的幫助補益作用。

近幾年來,這一任務引起了很多研究人員的興趣,一個重要的原因就是大規模篇章關系樹庫的發布,其中最具代表性的則是賓州篇章樹庫(Penn Discourse Treebank,PDTB)[7]和修辭結構理論樹庫(Rhetorical Structure Theory Treebank,RST-DT)[8]。總地來說,RST-DT采用了基于修辭結構理論的方法,將待分析文檔轉化為一棵完整的篇章修辭結構樹。這種設置理論完善,表現力很強。但是無論是樹庫構建過程,還是自動分析過程,都面臨明顯的歧義問題,操作難度較大。為了求解以上問題,提高理論的可操作性,PDTB隨即采用了一種基于詞匯的方法,以篇章關聯詞(例如:但是)為核心標注篇章關系。這種設置使得篇章關系的標注歧義減小,一致性提高,結果比較可靠。雖然不可避免地會丟失一部分信息,但相比于篇章完全結構標注過程中存在的歧義和困難,這種基于詞匯的設置不失為一個良好的選擇和有效的突破。

目前已有的PDTB相關研究大部分都集中在英文上,雖然也有一些討論中文篇章關系語料的研究陸續涌現,但迄今尚無大規模的中文篇章關系語料的成果問世,這也已然成為了限制中文相關研究發展的關鍵問題。目前,中文篇章關系語料的構建嘗試大多聚焦于標注顯式篇章關系方向,對隱式篇章關系也并未給予足夠關注。唯一的例外是Zhou和Xue在2012年開展的工作,嘗試進行了中文篇章關系的標注,其中包括相鄰句子之間的隱式篇章關系標注。隨后,Zhou和Xue在前述分析的基礎上標注了164篇文檔,包括顯式關系和隱式關系兩類。然而,這些工作在分析隱式關系時都僅局限在相鄰單元之間進行,實際上隱式關系卻大量分布于不相鄰的文本單元之間。根據統計,不相鄰單元之間的隱式關系占到了所有隱式關系的46.66%,而這部分信息在已有的研究中都發生了丟失。另一方面,由于缺乏中文篇章關系語料庫,加之篇章分析問題本身的復雜性,使得中文篇章關系分析模型的相關研究僅是取得了緩慢進展。

本文首次提出面向中文的篇章關系體系,將基于篇章關系的語義分析方法應用在中文,通過分析中英文的差異指出中文體系的必要性,詳細介紹面向中文的關系體系并通過語料標注證明了中文體系的一致性和完備性。余下內容組織如下:第二部分論證了中英文的差異,說明中文體系的必要性;第三部分介紹本文提出的中文篇章關系體系;第四部分研究了中文篇章關系語料標注及問題分析;第五部分給出結論。

主站蜘蛛池模板: 四虎精品国产永久在线观看| 日韩黄色在线| 国产另类视频| 国产二级毛片| 久久久受www免费人成| 日本午夜影院| 性69交片免费看| 精品综合久久久久久97| 伊人成人在线| 国产91小视频| 老司机午夜精品网站在线观看 | 国产激情影院| 欧美精品亚洲日韩a| 国产自产视频一区二区三区| 午夜视频免费试看| 精品亚洲麻豆1区2区3区| 国禁国产you女视频网站| 亚洲福利一区二区三区| 狼友视频国产精品首页| Aⅴ无码专区在线观看| 国产日产欧美精品| 色综合a怡红院怡红院首页| 无码国产偷倩在线播放老年人| 午夜在线不卡| 久久不卡精品| 99久久精品国产麻豆婷婷| 色婷婷成人| 777午夜精品电影免费看| 婷婷在线网站| 国产成年女人特黄特色大片免费| 国产精品自在在线午夜| 丰满人妻中出白浆| 欧美激情,国产精品| 中文字幕永久在线观看| 狠狠干综合| 色妞永久免费视频| 亚洲精品视频网| 在线综合亚洲欧美网站| 国产香蕉97碰碰视频VA碰碰看 | 国产精品无码翘臀在线看纯欲| 久久黄色毛片| 综1合AV在线播放| 婷婷午夜天| 久久久精品国产SM调教网站| 91色在线视频| 免费大黄网站在线观看| 国产99免费视频| 久久久国产精品无码专区| 国产精品成人免费综合| 亚洲女同欧美在线| 一区二区偷拍美女撒尿视频| 国产小视频a在线观看| 日韩激情成人| 久久天天躁夜夜躁狠狠| 国产91透明丝袜美腿在线| 欧美成人怡春院在线激情| 国产精品视频导航| 久久久久久久97| 亚洲床戏一区| 久久国产香蕉| 国产内射一区亚洲| 欧美亚洲国产精品第一页| 日本91在线| 亚洲中文字幕国产av| 国产精品高清国产三级囯产AV| 国产高清在线精品一区二区三区| 99人体免费视频| 国产亚洲欧美日韩在线观看一区二区| 无码专区第一页| 26uuu国产精品视频| 亚洲A∨无码精品午夜在线观看| 四虎国产成人免费观看| 久久毛片网| 91成人免费观看在线观看| 国产SUV精品一区二区6| 国产成人久久777777| 午夜福利视频一区| 国产亚洲日韩av在线| 欧美激情伊人| 日韩 欧美 国产 精品 综合| 99热亚洲精品6码| 欧美日韩一区二区在线免费观看|