999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自學(xué)習(xí)的漢語(yǔ)開(kāi)放域命名實(shí)體邊界識(shí)別

2014-04-29 00:44:03付瑞吉秦兵劉挺

付瑞吉 秦兵 劉挺

摘要:命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要任務(wù),為許多上層應(yīng)用提供支持。本文主要研究漢語(yǔ)開(kāi)放域命名實(shí)體邊界的識(shí)別。由于目前該任務(wù)尚缺乏訓(xùn)練語(yǔ)料,而人工標(biāo)注語(yǔ)料的代價(jià)又太大,本文首先基于雙語(yǔ)平行語(yǔ)料和英語(yǔ)句法分析器自動(dòng)標(biāo)注了一個(gè)漢語(yǔ)專有名詞語(yǔ)料,另外基于漢語(yǔ)依存樹(shù)庫(kù)生成了一個(gè)名詞復(fù)合短語(yǔ)語(yǔ)料,然后使用自學(xué)習(xí)方法將這兩部分語(yǔ)料融合形成命名實(shí)體邊界識(shí)別語(yǔ)料,同時(shí)訓(xùn)練邊界識(shí)別模型。實(shí)驗(yàn)結(jié)果表明自學(xué)習(xí)的方法可以提高邊界識(shí)別的準(zhǔn)確率和召回率。

關(guān)鍵詞:開(kāi)放域命名實(shí)體識(shí)別; 自學(xué)習(xí); 訓(xùn)練語(yǔ)料融合

中圖分類號(hào):TP391.12 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2014)04-0001-05

Abstract:Named entity recognition is an important task in the domain of Natural Language Processing, which plays an important role in many applications. This paper focuses on the boundary identification of Chinese open-domain named entities. Because the shortage of training data and the huge cost of manual annotation, the paper proposes a self-training approach to identify the boundaries of Chinese open-domain named entities in context. Due to the lack of training data, the paper firstly generates a large scale Chinese proper noun corpus based on parallel corpora, and also transforms a Chinese dependency tree bank to a noun compound training corpus. Subsequently, the paper proposes a self-training-based approach to combine the two corpora and train a model to identify boundaries of named entities. The experiments show the proposed method can take full advantage of the two corpora and improve the performance of named entity boundary identification.

Key words:Open-domain Named Entity Recognition; Self-training; Training Corpus Combination

0引言

命名實(shí)體是文本中承載信息的重要語(yǔ)言單位,命名實(shí)體的識(shí)別和分類在信息抽取、開(kāi)放域問(wèn)答、信息檢索以及機(jī)器翻譯等領(lǐng)域都占有非常重要的地位。輸入自然語(yǔ)言文本,命名實(shí)體識(shí)別的任務(wù)在于將其中事物的名稱標(biāo)記出來(lái)并給予適當(dāng)?shù)恼Z(yǔ)義類別。傳統(tǒng)命名實(shí)體由于類別有限,并不能滿足自然語(yǔ)言處理領(lǐng)域上層任務(wù)的全部需求,因此本文專注于開(kāi)放域命名實(shí)體邊界的識(shí)別的研究。

傳統(tǒng)命名實(shí)體識(shí)別的主流方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,使用標(biāo)注好的訓(xùn)練集訓(xùn)練模型,然后用訓(xùn)練好的模型來(lái)進(jìn)行命名實(shí)體的識(shí)別,并且大多數(shù)采用序列標(biāo)注的方法,可以一次性將邊界和類別都標(biāo)出。但對(duì)于開(kāi)放域命名實(shí)體來(lái)說(shuō),由于涉及的領(lǐng)域非常多,類型多且無(wú)法預(yù)知,所以人工標(biāo)注語(yǔ)料是不現(xiàn)實(shí)的。由于英語(yǔ)中專有名詞首字母通常大寫(xiě),所以英語(yǔ)中專有名詞的識(shí)別相對(duì)容易,有的研究直接會(huì)將首字母大寫(xiě)的單詞串作為命名實(shí)體候選[1]。因此,本文轉(zhuǎn)而利用英語(yǔ)的短語(yǔ)結(jié)構(gòu)句法分析,借助少量規(guī)則標(biāo)注專有名詞短語(yǔ),再通過(guò)雙語(yǔ)平行語(yǔ)料將邊界信息映射到漢語(yǔ)端[2],從而實(shí)現(xiàn)命名實(shí)體邊界識(shí)別語(yǔ)料的自動(dòng)標(biāo)注。但由于開(kāi)放域命名實(shí)體的范圍更大,一些命名實(shí)體在英語(yǔ)中并沒(méi)有被標(biāo)為專有名詞,例如“大規(guī)模殺傷性武器(weapon of mass destruction)”、“中國(guó)近代史(the modern history of China)”等。因此,研究中另外基于一個(gè)漢語(yǔ)依存樹(shù)庫(kù),利用一些啟發(fā)式的規(guī)則標(biāo)注名詞復(fù)合短語(yǔ),隨后即使用半指導(dǎo)的自學(xué)習(xí)方法將兩部分語(yǔ)料融合并訓(xùn)練命名實(shí)體邊界識(shí)別模型。

與傳統(tǒng)自學(xué)習(xí)方法不同之處在于,傳統(tǒng)的自學(xué)習(xí)方法是基于一個(gè)已標(biāo)注的集合和一個(gè)未標(biāo)注的集合進(jìn)行的,而本文則是基于兩個(gè)部分標(biāo)注的語(yǔ)料。本文的方法大概分為以下幾個(gè)步驟。首先,使用專有名詞語(yǔ)料訓(xùn)練模型,自動(dòng)識(shí)別名詞復(fù)合短語(yǔ)語(yǔ)料中的專有名詞;然后,將語(yǔ)料中原有的名詞復(fù)合短語(yǔ)和自動(dòng)標(biāo)注的專有名詞及短語(yǔ)融合,得到初始的命名實(shí)體邊界訓(xùn)練語(yǔ)料;接著,即在初始訓(xùn)練語(yǔ)料上訓(xùn)練命名實(shí)體邊界識(shí)別模型,識(shí)別專有名詞短語(yǔ)語(yǔ)料中的命名實(shí)體,選擇高置信度的實(shí)例加入到訓(xùn)練語(yǔ)料中,如此迭代直到模型的性能穩(wěn)定為止。

綜上所述,本文提出了一種基于自學(xué)習(xí)的語(yǔ)料融合及模型訓(xùn)練的方法,用于漢語(yǔ)開(kāi)放域命名實(shí)體識(shí)別邊界的識(shí)別。實(shí)驗(yàn)證明本文的自學(xué)習(xí)方法是有效的,在測(cè)試集上獲得了最好的F1值。

1自學(xué)習(xí)方法介紹

自學(xué)習(xí)(self teaching),或叫自訓(xùn)練(self training)是常用的半指導(dǎo)機(jī)器學(xué)習(xí)方法。學(xué)術(shù)界對(duì)自學(xué)習(xí)有兩種主要的定義。第一種定義是“單一視角的弱指導(dǎo)算法”,由Ng和Cardie(2003)提出[3]。按照這種定義,可使用bagging方法從訓(xùn)練數(shù)據(jù)中隨機(jī)采樣訓(xùn)練多個(gè)分類器,預(yù)測(cè)時(shí)使用投票的方法決定最終的類別。利用這些分類器預(yù)測(cè)未標(biāo)注數(shù)據(jù),將“全票通過(guò)”的數(shù)據(jù)加入到訓(xùn)練集中,重新訓(xùn)練一組分類器,如此迭代,直到分類性能穩(wěn)定。各分類器均采用相同的視角(view,可以理解為特征)訓(xùn)練。第二種定義是“基于分類器自己的標(biāo)注結(jié)果重新訓(xùn)練分類器的方法”,由Clark等人(2003)提出[4]。首先在一個(gè)小規(guī)模的已標(biāo)注數(shù)據(jù)上訓(xùn)練模型,然后使用該模型自動(dòng)處理未標(biāo)注數(shù)據(jù),選擇置信度最高的一部分自動(dòng)處理的數(shù)據(jù)加入到訓(xùn)練集合中。接著重新訓(xùn)練模型,如此迭代,直到模型性能不再發(fā)生改進(jìn)為止。這種方法中,模型利用自己的預(yù)測(cè)結(jié)果指導(dǎo)自己訓(xùn)練,所以叫做“自學(xué)習(xí)”。高置信度的數(shù)據(jù)通常基于一個(gè)閾值來(lái)判斷,高于這個(gè)閾值才可選作訓(xùn)練數(shù)據(jù),如此做法的目的即在于避免錯(cuò)誤被加強(qiáng)。本文中,采取了第二種定義。迄今為止,自學(xué)習(xí)方法已經(jīng)成功應(yīng)用于自然語(yǔ)言的多個(gè)處理任務(wù)中,包括傳統(tǒng)命名實(shí)體識(shí)別[5]、詞義消歧[6]、句法分析[7]等。

2基于自學(xué)習(xí)方法的命名實(shí)體邊界識(shí)別

經(jīng)過(guò)分析發(fā)現(xiàn),開(kāi)放域命名實(shí)體大概包括專有名詞和名詞復(fù)合短語(yǔ)兩部分。專有名詞通常指事物特定的名詞,如“姚明”、“中國(guó)”、“伊拉克戰(zhàn)爭(zhēng)”等。而名詞復(fù)合短語(yǔ)則用來(lái)表示語(yǔ)義更加寬泛的事物的名稱,如“大規(guī)模殺傷性武器”、“中國(guó)近代史”等, 這些也屬于開(kāi)放域命名實(shí)體的范疇。 當(dāng)然, 還有一些專有名詞同時(shí)也是名詞復(fù)合短語(yǔ)。因此, 研究通過(guò)分別構(gòu)建這兩部分語(yǔ)料,再通過(guò)自學(xué)習(xí)方法融合語(yǔ)料并訓(xùn)練命名實(shí)體邊界識(shí)別的模型。

2.1訓(xùn)練語(yǔ)料構(gòu)建

2.1.1基于雙語(yǔ)平行語(yǔ)料的漢語(yǔ)專有名詞識(shí)別語(yǔ)料構(gòu)建

在此,即基于中英雙語(yǔ)平行語(yǔ)料,并通過(guò)上節(jié)提出的方法來(lái)構(gòu)建漢語(yǔ)命名實(shí)體邊界識(shí)別的語(yǔ)料庫(kù)。在英語(yǔ)上,借用了短語(yǔ)結(jié)構(gòu)句法分析工具來(lái)識(shí)別英語(yǔ)的專有名詞短語(yǔ),由于英語(yǔ)具有大小寫(xiě)特征,因此對(duì)專有名詞的識(shí)別尤其具有先天的優(yōu)勢(shì)。圖1給出了一個(gè)短語(yǔ)結(jié)構(gòu)句法分析的例子,其中“Ming”和“Yao”都被標(biāo)為了專有名詞(NNP),并且兩者結(jié)合形成了一個(gè)更大的名詞短語(yǔ)(NP),“Houston”和“Rockets”也是類似的情況,只不過(guò)在構(gòu)成更大名詞短語(yǔ)的時(shí)候加入了定冠詞the。

本文設(shè)計(jì)了一些規(guī)則來(lái)標(biāo)注專有名詞短語(yǔ),如表1所示,其中的NNP均可替換為NNPS(復(fù)數(shù)形式的專有名詞)。然后,仍使用上一節(jié)提出的方法將英語(yǔ)端的標(biāo)記映射到漢語(yǔ)端,實(shí)現(xiàn)語(yǔ)料的標(biāo)注。

由圖3可知,整個(gè)方法分為初始語(yǔ)料構(gòu)建、初始語(yǔ)料融合和基于自學(xué)習(xí)的模型訓(xùn)練三個(gè)步驟。具體過(guò)程論述如下。

(1)初始語(yǔ)料的構(gòu)建:這一步是基于雙語(yǔ)平行語(yǔ)料和漢語(yǔ)句法樹(shù)庫(kù)分別構(gòu)建專有名詞短語(yǔ)語(yǔ)料和名詞復(fù)合短語(yǔ)語(yǔ)料,更多細(xì)節(jié)可詳見(jiàn)上一節(jié)。

(2)初始語(yǔ)料融合:利用專有名詞短語(yǔ)語(yǔ)料訓(xùn)練序列標(biāo)注模型,本文采用條件隨機(jī)域模型(CRF),并利用該模型對(duì)名詞復(fù)合短語(yǔ)語(yǔ)料進(jìn)行自動(dòng)標(biāo)注。標(biāo)注后,即選取高質(zhì)量的標(biāo)注結(jié)果和原有的名詞復(fù)合短語(yǔ)語(yǔ)料進(jìn)行融合,得到開(kāi)放域命名實(shí)體邊界識(shí)別的語(yǔ)料。融合時(shí)如果遇到嵌套情況,則保留較長(zhǎng)的命名實(shí)體;如果遇到重疊的情況,則丟棄當(dāng)前的句子,保證語(yǔ)料的質(zhì)量。

(3)基于自學(xué)習(xí)的模型訓(xùn)練:在獲得了一個(gè)小規(guī)模的命名實(shí)體邊界識(shí)別的語(yǔ)料(稱為初始語(yǔ)料)后,再通過(guò)自學(xué)習(xí)的方法逐步將專有名詞語(yǔ)料融合進(jìn)來(lái),形成一個(gè)更大規(guī)模的語(yǔ)料。其中的自學(xué)習(xí)是一個(gè)迭代增強(qiáng)的過(guò)程:首先利用初始語(yǔ)料訓(xùn)練命名實(shí)體邊界識(shí)別模型,然后使用該模型標(biāo)注專有名詞短語(yǔ)語(yǔ)料;接著就要選取高置信度的實(shí)例作為初始語(yǔ)料的補(bǔ)充,擴(kuò)充后的語(yǔ)料又可以用來(lái)訓(xùn)練新的模型,如此迭代直到模型性能穩(wěn)定為止。

3實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

在語(yǔ)料構(gòu)建方面,本文選取雙語(yǔ)平行語(yǔ)料LDC2003E14和斯坦福的短語(yǔ)結(jié)構(gòu)句法分析工具來(lái)生成漢語(yǔ)專有名詞短語(yǔ)訓(xùn)練語(yǔ)料,基于上一節(jié)中的方法,最終獲得145 747句專有名詞短語(yǔ)訓(xùn)練語(yǔ)料。名詞復(fù)合短語(yǔ)的生成則是基于哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工標(biāo)注的6萬(wàn)句漢語(yǔ)依存關(guān)系樹(shù)庫(kù)(HIT-IR Dependency Treebank)[9]。

在模型特征方面,本文則在上述的依存關(guān)系樹(shù)庫(kù)上統(tǒng)計(jì)動(dòng)詞依存關(guān)系的分值,并選用約400萬(wàn)百度百科詞條及其開(kāi)放類別信息挖掘命名實(shí)體的構(gòu)成模式。

為了評(píng)測(cè),進(jìn)一步從OntoNotes 4.0語(yǔ)料中隨機(jī)選取了8 789句標(biāo)注,共包含19 315個(gè)命名實(shí)體,平均每個(gè)實(shí)體包含2.02個(gè)詞。而且,由其中隨機(jī)篩選1/5作為開(kāi)發(fā)集,剩下的4/5為測(cè)試集。

3.2自學(xué)習(xí)置信度閾值的選取

自學(xué)習(xí)的一個(gè)主要參數(shù)是每輪迭代增加新的訓(xùn)練語(yǔ)料時(shí)使用的置信度閾值θ。本文以句子為單位進(jìn)行考察,如果命名實(shí)體邊界識(shí)別模型對(duì)整句s序列標(biāo)注的置信度Ps>θ,則將s加入訓(xùn)練語(yǔ)料中,并從專有名詞語(yǔ)料庫(kù)中移除,否則將繼續(xù)留存在專有名詞語(yǔ)料庫(kù)中,等待下一輪迭代時(shí)考察。在實(shí)驗(yàn)中,也嘗試了改變?chǔ)鹊娜≈担^察自學(xué)習(xí)方法的學(xué)習(xí)曲線,圖4顯示了三個(gè)例子,即當(dāng)θ的取值分別為0.65、0.92和0.95時(shí)的情況。

由圖4的三個(gè)學(xué)習(xí)曲線中,可以看到當(dāng)θ取值較小時(shí),自學(xué)習(xí)的方法并不能改進(jìn)模型,性能反而有微弱的下降。這是因?yàn)殚撝颠^(guò)小,使得新加入的語(yǔ)料中噪聲過(guò)多,影響了模型的訓(xùn)練,而且不佳的模型會(huì)導(dǎo)致產(chǎn)生更多的噪聲,形成惡性循環(huán)。而當(dāng)θ取值過(guò)大時(shí),自學(xué)習(xí)的收斂速度就會(huì)變慢,如當(dāng)θ=0.95時(shí),就需要40次左右迭代,模型才能收斂;只有當(dāng)θ=0.92時(shí),模型在13次迭代后即可收斂,并且最終的性能差距很小。因此,通過(guò)對(duì)訓(xùn)練速度和模型性能的綜合評(píng)定,選取0.92為自學(xué)習(xí)置信度閾值。

其后,又在測(cè)試集上對(duì)本文涉及到的幾個(gè)模型進(jìn)行了對(duì)比,結(jié)果如表2所示。單純使用專有名詞語(yǔ)料(MNNP)或名詞

4結(jié)束語(yǔ)

本文針對(duì)開(kāi)放域命名實(shí)體邊界識(shí)別問(wèn)題,提出了基于自學(xué)習(xí)的語(yǔ)料融合和模型訓(xùn)練方法。首先分別基于雙語(yǔ)平行語(yǔ)料和漢語(yǔ)依存樹(shù)庫(kù)自動(dòng)標(biāo)注漢語(yǔ)專有名詞語(yǔ)料和名詞復(fù)合短語(yǔ)語(yǔ)料。然后基于自學(xué)習(xí)的方法將這兩部分語(yǔ)料互補(bǔ)融合,形成命名實(shí)體邊界識(shí)別的語(yǔ)料,同時(shí)在此基礎(chǔ)上訓(xùn)練邊界識(shí)別模型。實(shí)驗(yàn)證明了自學(xué)習(xí)方法的有效性,在開(kāi)放域的測(cè)試語(yǔ)料上,本方法得到了最好的F1值0.661 3。

參考文獻(xiàn):

[1]EVANS R. A framework for named entity recognition in the open domain[J]. Recent Advances in Natural Language Processing III: Selected Papers from RANLP 2003, 2004, 260:267–274.

[2]FU Ruiji, QIN Bing, LIU Ting. Exploiting multiple sources for open-domain hypernym discovery[C]// Proceedings of EMNLP 2013, 2013:1224–1234.

[3]NG V, CARDIE C. Weakly supervised natural language learning without redundant views[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003,1:94–101.

[4]CLARK S, CURRAN J R, OSBORNE M. Bootstrapping POS taggers using unlabelled data[C]// Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,2003,4:49–55.

[5]KOZAREVA Z, BONEV B, MONTOYO A. Self-training and co-training applied to Spanish named entity recognition[M]. MICAI 2005: Advances in Artificial Intelligence. Springer, 2005:770–779.

[6]MIHALCEA R. Co-training and self-training for word sense disambiguation[C]//Proceedings of the Conference on Computational Natural Language Learning (CoNLL-2004), 2004.

[7]McClosky D, Charniak E, Johnson M. Effective self-training for parsing[C]. Proceedings of the main conference on human language technology conference of the North American Chapter of the Association of Computational Linguistics. 2006:152-159.

[8]趙軍, 黃昌寧. 漢語(yǔ)基本名詞短語(yǔ)結(jié)構(gòu)分析模型[J]. 計(jì)算機(jī)學(xué)報(bào), 1999, 22(2):141–146.

[9]LIU Ting, MA Jinshan, LI Sheng. Building a dependency treebank for improving Chinese parser[J]. Journal of Chinese Language and Computing ,2006,16(4): 207-224.

主站蜘蛛池模板: 国产人碰人摸人爱免费视频| 免费无码又爽又刺激高| 国产成本人片免费a∨短片| 国产小视频a在线观看| 日本三级黄在线观看| 精品视频第一页| 99热最新网址| 国产福利免费视频| 久热中文字幕在线| 久久人体视频| 日韩成人午夜| 国产内射一区亚洲| 在线看片免费人成视久网下载| 成人久久18免费网站| 亚洲欧洲日韩久久狠狠爱| 91久久偷偷做嫩草影院电| 91久久精品国产| a级毛片在线免费观看| 亚洲经典在线中文字幕| 国产成人福利在线视老湿机| 欧美a在线视频| 22sihu国产精品视频影视资讯| 成人无码区免费视频网站蜜臀| 国产精品思思热在线| P尤物久久99国产综合精品| 精品一区二区久久久久网站| 色婷婷色丁香| 欧美日韩午夜| 亚洲首页在线观看| 88av在线| 大陆精大陆国产国语精品1024| 亚洲男人在线| 午夜性爽视频男人的天堂| 999精品色在线观看| 97国产在线视频| 伦精品一区二区三区视频| 亚洲性日韩精品一区二区| 国产精欧美一区二区三区| 精品一区二区三区波多野结衣| 日韩精品一区二区三区swag| 欧美国产精品拍自| 亚洲视频免| 亚洲精品国产首次亮相| 女同国产精品一区二区| 亚洲精品天堂在线观看| 国产导航在线| 波多野结衣久久高清免费| 久久99精品久久久大学生| 亚洲V日韩V无码一区二区| 日韩欧美在线观看| 亚洲伊人电影| 精品国产一二三区| 91毛片网| 中文字幕第4页| 无码人妻热线精品视频| 国产成人精品免费av| 国产玖玖视频| 九九视频免费看| 免费A∨中文乱码专区| 亚洲色图欧美视频| 国产综合精品日本亚洲777| 欧美精品不卡| 红杏AV在线无码| 亚洲男人在线| 国产精品任我爽爆在线播放6080 | 国产H片无码不卡在线视频| 亚洲人网站| 无码专区在线观看| 国产久草视频| 波多野结衣一区二区三区AV| 九色免费视频| 一本大道无码日韩精品影视| 视频一区亚洲| 国产真实乱子伦视频播放| 日韩色图在线观看| 日韩成人高清无码| 亚洲性视频网站| 亚洲色婷婷一区二区| 韩国自拍偷自拍亚洲精品| 国产精品无码AⅤ在线观看播放| 亚洲日韩精品欧美中文字幕| 欧美一区二区三区欧美日韩亚洲|