999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文語義角色標注研究概述

2012-08-15 00:42:55陳菜芳
文教資料 2012年27期
關鍵詞:語義特征研究

陳菜芳

(南京師范大學 文學院,江蘇 南京 210097)

引言

語義角色的自動標注是對句子中謂詞所支配的語義角色進行自動標注,是對句子進行淺層語義分析的一種方法。語義角色標注技術在大規模語義知識庫的構建、問答系統、機器翻譯和信息抽取等領域都有著廣泛的應用,其深入的研究對自然語言處理技術的整體發展有著重要意義。下面主要從三個方面來介紹中文語義角色標注研究狀況:首先,介紹相關的中文語義角色標注語料資源;其次,描述了中文語義角色標注的發展現狀;最后,對中文語義角色標注未來的工作進行展望。

1.中文語義角色標注語料資源

語義角色標注離不開語料資源的支持。英語較為知名的語義角色標注資源有FrameNet、PropBank和NomBank等。中文語義角色標注語料資源主要是從英語語義角色標注語料資源的基礎上發展起來或參照其建設的。

Chinese Proposition Bank(CPB)同英文PropBank基本類似。在CPB中,總共定義了20多個角色,只對每個句子中的核心動詞進行了標注,所有動詞的主要角色最多有6個,均以Arg0~Arg5和ArgM為標記,其中核心的語義角色為Arg0~5六種,其余為附加語義角色,用前綴ArgM表示,后面跟一些附加標記來表示這些參數的語義類別。它幾乎對Penn Chinese Treebank中的每個動詞及其語義角色進行了標注,國內大多數語義角色標注研究都是基于此資源。

中文Nombank是在英文命題庫(Proposition Bank)和Nombank的標注框架上進行擴展,對中文名詞性謂詞的標注。中文Nombank加入了語義角色層的標注信息,與CPB一樣,也標注了核心語義角色和附加語義角色這兩類語義角色。中文NomBank中的角色位置有兩類情況:一是角色在以名詞性謂詞為核心詞的名詞短語中;二是當以名詞性謂詞為核心詞的名詞短語作支持動詞的賓語時,允許語義角色在名詞短語外。

山西大學構建的Chinese FrameNet是基于框架語義理論,類似FrameNet風格的中文詞典。它描述了框架元素的詳細句法信息和詞匯單元以及參與者框架元素之間的關系。Chinese FrameNet的架構和英文FrameNet相似,并且有許多只是稍作修改直接對英文FrameNet進行翻譯,但也有一些創新,增加了相應語義角色的漢語名稱。目前Chinese FrameNet已經有130多個漢語框架,還在不斷補充。

臺灣中研院陳鳳儀建立了中文句結構樹資料庫(Sinica Treebank)。Sinica Treebank是一個包含語義標記和句法標記的混合語料庫。它的基本框架是以訊息為本的格位語法,主要是對小句進行標注。目前己標注了61 087個句子,包含了361 834個詞語。語義角色標記共有50多個,基本沿襲了格語法的標記體系,如受益格、感受格等。

北京大學袁毓林教授組織建設的中文網庫,是在北大漢語句法分析樹庫的基礎上進行語義標注的,有著更為細致的語義角色設置,尤其是核心論元,分別在主體論元和客體論元內部各劃分出五個子類。具體如下:(一)必有論元:A主體論元:施事、感事、經事、致事、主事;B客體論元:受事、與事、對象、系事。(二)非必有論元:A憑借論元:工具、材料、方式、原因、目的;B環境論元:時間、處所、源點、終點、路徑、范圍、量幅。

董振東主持建立的知網(HowNet)是一個常識知識庫,描述對象為漢語和英語的詞語所代表的概念,揭示了概念與概念之間以及概念所具有的屬性之間的關系。《知網》描述了多種類型的詞匯語義關系,涉及了詞匯語義的各個方面,著重描述了不同詞性的詞語所代表的概念之間的語義關系,其中特別重視名詞所代表的概念與動詞所代表的概念之間的語義關系,也即我們通常稱作實體與事件之間的語義關系即語義角色關系,例如作為實體的“醫生”和作為事件的“醫治”,兩者有著“事件”與“施事”的關系。在知網中,800個事件主要特征中的每一個都標識有一個角色框架。

2.中文語義角色標注的發展現狀

2.1語義角色標注的研究最早關注的是英文,隨著賓州大學命題庫的建立,語義角色標注任務得到廣泛的國際關注,并取得了許多很好的結果。出現了一些相關的國際評測,如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了語義角色標注的任務,同時也促進了語義角色標注研究的蓬勃發展。

2.2中文語義角色標注的工作開展較晚,最早進行研究的是Sun等人,當時因為還沒有中文方面的專門語料,所以他們只能先人工標記了包含某些動詞的語料然后在此基礎上進行研究。后來,伴隨著Chinese Proposition Bank(CPB)的構建,就有了一些比較系統的中文語義角色標注的工作。國內最早關注語義角色標注是劉挺、于江德等人,不過他們研究的重點是提升英文的語義角色標注的性能。

2.3語料資源和中文自動句法分析的不理想等因素使得國內中文語義角色標注的研究還局限在語義角色分類方面,完整的語義角色標注研究還不多見。雖然與英文方面的工作相比,中文語義角色標注方面的研究仍處在開始階段,但該項工作已引起了許多研究人員的重視。國內的研究工作主要集中在以下四大高校。

北京大學關于語義角色標注的工作主要集中在兩個方面:一是基于語義組塊分析和詞匯語義特征的語義角色標注;二是利用北大網庫的標注語料進行語義角色標注的研究。丁偉偉[1]提出了一種基于語義組塊分析的語義角色標注的處理策略。該方法將中文語義角色標注從一個節點的分類問題轉化為序列標注問題,是一種簡化的“語義組塊識別——語義組塊分類”流程,而不是傳統的“句法分析——語義角色識別——語義角色分類”的流程。由于避開了句法分析這個階段,使得語義角色標注擺脫了對句法分析的依賴,從而突破了漢語語法分析器的性能限制。北大網庫構建了一種全新的語義角色標注資源,改變了以往無論中英文研究都基于賓州大學命題庫的標注體系的局面。文獻[2]的主要目的是將之前的各種研究方法在北大網庫的標注語料中進行驗證,考察它們在北大網庫標注體系中的作用,進而討論特征的選擇對標注體系的依賴性問題,這種在北大網庫基礎上建立的語義角色分類系統,在語義角色分類階段取得與在PropBank上相當的實驗結果。

哈爾濱工業大學主要貢獻是在不斷優化特征和特征組合的基礎上,進行不同方法的實驗。文獻[3]把漢語的特點與英文語義角色標注特征相結合,構建出一些新的特征和組合特征,如謂詞和短語類型的組合、謂語動詞類別信息和路徑的組合等,并在CPB語料數據上使用最大熵分類器進行了實驗。文獻[4]以CPB為實驗數據,首次將核方法應用于漢語語義角色標注中,通過對已有特征進行組合或分解,提取了更適用于漢語的新特征,得到了接近英文語義角色標注的性能。文獻[5]提出一種基于特征組合和支持向量機的語義角色標注方法。該方法的基本標注單元是句法成分,基本特征集合是從當前基于句法分析的語義角色標注系統中選出高效特征,然后選擇基于統計的特征組合方法,利用支持向量機在CPB語料上進行分類實驗。

蘇州大學的研究重點在兩個方面:一是名詞性謂詞語義角色標注,二是以依存關系為標注單元進行語義角色標注。文獻[6]和[7]討論了漢語名詞性謂詞的語義角色標注特征問題。通過對名詞性謂詞語義角色標注的研究,探索了新的詞匯、句法特征,選取了適合名詞性謂詞相關的特征集,用于名詞性謂詞語義角色標注,同時進一步利用動詞性謂詞已有的成果,極大地提高了名詞性謂詞語義角色標注的性能。文獻[8]提出標注單元為依存關系的語義角色標注系統,經過依存關系分析、謂詞標識、特征抽取、角色識別和角色分類,最終在CoNLL2008 SRL Shared Task自動依存分析的WSJ測試集取得了較好的結果,結果證明其性能明顯好于基于句法分析的SRL。

山西大學的工作主要是在漢語框架語義知識庫(CFN)語料庫上進行,文獻[9]基于漢語框架語義知識庫(CFN),采用條件隨機場模型,將語義角色標注問題通過IOB策略轉化為以詞為基本標注單元的線性序列標注問題,研究了漢語框架語義角色的自動標注。模型以詞為基本標注單元,選擇詞、詞性、詞相對于目標詞的位置、目標詞及其組合為特征。從CFN的219個框架中,挑選那些例句個數相對較多的25個框架的6 692個例句的語料上進行。對每一個框架,分別按照其例句訓練一個模型,同時進行語義角色的邊界識別與分類,進行2-fold交叉驗證。

其他還有南師大的陳麗江[10]利用清華大學的中文樹庫(TCT),通過梅家駒等人編纂的《同義詞詞林》對謂詞、名詞進行劃分,建立了謂詞詞表、名詞詞表和介詞詞表等來區分語義角色。在標注過程中使用規則確定謂詞論元,使用規則和詞表判定成分的語義角色,基于決策樹分類的算法,對漢語真實文本的語義角色標注進行了實驗。

3.展望

可以說,對中文語義角色標注的研究還任重而道遠,下一步需要進行的研究工作還很多,集中表現在如下三個大的方面:

3.1成熟的語義理論。語義角色標注屬于語義分析的范疇,離不開語義理論的支持。語義角色標注需要語義角色相關理論、語義分類體系、詞匯語義等知識。目前,漢語語義這些相關理論都還不是很成熟。因此,建立合理有效的語義分類體系,系統地總結語法與語義之間的對應關系,是取得突破的關鍵。

3.2資源庫建設。語料庫和知識庫是自然語言處理的兩大基礎性工程,語料庫是對真實語言現象的收集,知識庫是對語言知識的系統性總結,它們對自然語言處理的質量起著關鍵性的作用。由于語言現象與語言知識的復雜性,語料庫和知識庫都十分龐大,一般都需要耗費十年乃至數十年的時間來構建。今后計算語言學工作開展的重點之一就是建立語義層次上的語料庫和知識庫。

3.3改進分析方法。自然語言分析處理的方法包括基于規則的方法和基于統計的方法。這兩種方法同樣也適用于語義角色標注。如何選擇合適的方法,如何將這兩種方法有機地結合起來,對語義角色標注任務是至關重要的。而且,無論是基于規則的方法,還是基于統計的方法,它們所采用的技術,以及得到的準確性和效率也同語義角色標注的準確性和實用性相關,這些也需要不斷地研究與改進。

[1]丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標注[J].中文信息學報,2009.9,VOL23(5).

猜你喜歡
語義特征研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
語言與語義
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
EMA伺服控制系統研究
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美高清三区| 呦女精品网站| 国产成人精品免费视频大全五级| 欧美精品亚洲二区| 四虎精品国产AV二区| 最新国产成人剧情在线播放 | 国产青榴视频| 日本午夜视频在线观看| 手机在线看片不卡中文字幕| 国产精品55夜色66夜色| 色悠久久综合| 亚洲欧美国产视频| 亚洲第一成年网| 99re在线免费视频| 国产xx在线观看| 国产精品白浆在线播放| 欧美69视频在线| 精品无码日韩国产不卡av| 国产精品亚洲一区二区在线观看| 国产特级毛片| 国产91小视频| 青青草原国产精品啪啪视频| 二级特黄绝大片免费视频大片| 亚洲国产成人精品一二区| 人妻精品久久久无码区色视| 亚洲视频二| 9啪在线视频| 成人午夜亚洲影视在线观看| 久久综合五月| 欧美激情首页| 午夜啪啪福利| 免费xxxxx在线观看网站| 国产www网站| 孕妇高潮太爽了在线观看免费| 国产91无码福利在线| 97视频免费在线观看| 五月天久久综合国产一区二区| 精品国产成人三级在线观看| 婷婷五月在线| 亚洲欧洲自拍拍偷午夜色| 粗大猛烈进出高潮视频无码| 欧美专区在线观看| 91香蕉视频下载网站| 国产精品手机在线观看你懂的| 精品一区二区三区视频免费观看| 久久精品一卡日本电影 | 在线观看免费国产| 亚洲人成成无码网WWW| 精品人妻系列无码专区久久| 亚洲一区二区约美女探花| 91系列在线观看| 呦视频在线一区二区三区| 亚洲开心婷婷中文字幕| 好紧太爽了视频免费无码| 欧美日韩亚洲国产主播第一区| 成人精品在线观看| 国产第八页| 精品久久久久久成人AV| 超碰91免费人妻| 亚洲国产成人综合精品2020| 99re热精品视频国产免费| 99精品一区二区免费视频| 色AV色 综合网站| 亚洲资源站av无码网址| 国产精品亚洲精品爽爽 | 91po国产在线精品免费观看| 19国产精品麻豆免费观看| 91在线日韩在线播放| 91视频日本| 波多野结衣二区| 国产欧美日韩一区二区视频在线| 国产爽爽视频| 亚洲无码久久久久| 欧美成人午夜影院| 波多野衣结在线精品二区| 天天摸天天操免费播放小视频| 免费在线看黄网址| 国产精品久久久久久搜索| 精品国产成人a在线观看| 日韩欧美在线观看| 亚洲伊人久久精品影院| 亚洲欧洲日产国产无码AV|