夏天賜,孫 媛
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 中央民族大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言分中心,北京 100081)
實(shí)體關(guān)系抽取任務(wù)作為信息抽取領(lǐng)域的重要研究課題,其主要目的是抽取句子中已標(biāo)記實(shí)體對(duì)之間的語(yǔ)義關(guān)系,即在實(shí)體識(shí)別的基礎(chǔ)上確定無(wú)結(jié)構(gòu)文本中實(shí)體對(duì)間的關(guān)系類(lèi)別,并形成結(jié)構(gòu)化的數(shù)據(jù)以便存取。例如,是的妻子。實(shí)體關(guān)系抽取能自動(dòng)識(shí)別實(shí)體“葉莉”和“姚明”是夫妻關(guān)系。
傳統(tǒng)的實(shí)體關(guān)系抽取任務(wù)通常采用“流水線”方式。首先需要提取句子中相關(guān)實(shí)體,然后再識(shí)別實(shí)體之間的關(guān)系。這種方式的好處是,處理起來(lái)非常方便,且組合很靈活,但它忽略了兩個(gè)子任務(wù)之間的關(guān)聯(lián),且會(huì)產(chǎn)生錯(cuò)誤的疊加,比如,實(shí)體識(shí)別任務(wù)產(chǎn)生的錯(cuò)誤會(huì)傳遞給關(guān)系識(shí)別的任務(wù),導(dǎo)致整個(gè)模型錯(cuò)誤率上升。
不同于上述的“流水線”方式,聯(lián)合模型進(jìn)行實(shí)體關(guān)系抽取時(shí),能夠從非結(jié)構(gòu)或者半結(jié)構(gòu)化的文本中提取出實(shí)體以及能夠識(shí)別語(yǔ)句中的語(yǔ)義關(guān)系。通過(guò)這種方式,我們能根據(jù)語(yǔ)義信息,從預(yù)定義的關(guān)系表中匹配語(yǔ)句中出現(xiàn)的實(shí)體之間的關(guān)系。提取實(shí)體和判別實(shí)體之間關(guān)系同時(shí)進(jìn)行,大大降低了錯(cuò)誤率的疊加,并且產(chǎn)生結(jié)果更加快速和高效。
聯(lián)合模型的框架是將實(shí)體識(shí)別和關(guān)系識(shí)別任務(wù)用簡(jiǎn)單模型聯(lián)合起來(lái)。有效地聚集了實(shí)體和關(guān)系的信息,并且在這個(gè)任務(wù)中得出一個(gè)比較好的結(jié)果。然而,目前存在的聯(lián)合模型是基于特征的結(jié)構(gòu)化系統(tǒng),這個(gè)系統(tǒng)需要極其復(fù)雜的特征以及依靠很多的自然語(yǔ)言處理工具,在這種情況下,難免產(chǎn)生很多錯(cuò)誤。為了降低人工處理的錯(cuò)誤,目前業(yè)界普遍采用端到端的神經(jīng)網(wǎng)絡(luò)模型,這種模型已經(jīng)被運(yùn)用到各種序列標(biāo)注任務(wù)中,比如命名實(shí)體識(shí)別(NER)或者組合范疇語(yǔ)法(CCG)。而常用的神經(jīng)網(wǎng)絡(luò)模型是利用BiLSTM結(jié)構(gòu)來(lái)獲取句子表達(dá)或者句子信息來(lái)完成序列任務(wù)。
在本文中,我們將集中介紹聯(lián)合模型抽取的任務(wù),從一個(gè)生文本中抽取出包含兩個(gè)(或以上)實(shí)體以及它們之間的關(guān)系,進(jìn)而構(gòu)成一個(gè)三元組(E1,E2,RE)。因此,我們可以直接構(gòu)建一個(gè)聯(lián)合模型提取實(shí)體以及實(shí)體關(guān)系,基于這種想法,我們將實(shí)體關(guān)系轉(zhuǎn)化為一種序列標(biāo)注問(wèn)題,將句子切分成詞或者字,并且給每一個(gè)詞或字添加標(biāo)簽組(BIESO)。同時(shí),為了提高提取信息的準(zhǔn)確率,我們也給每個(gè)詞或者字進(jìn)行詞性標(biāo)注。通過(guò)這種方法,我們僅通過(guò)神經(jīng)網(wǎng)絡(luò)就能構(gòu)建相應(yīng)的模型,而不需要進(jìn)行復(fù)雜的特征工程。
實(shí)體關(guān)系抽取任務(wù)是構(gòu)建知識(shí)庫(kù)的一個(gè)重要環(huán)節(jié),目前處理這個(gè)任務(wù)有兩種方式,“流水線”方式和聯(lián)合學(xué)習(xí)方式。
“流水線”方式處理這個(gè)任務(wù)分為兩個(gè)步驟: 命名實(shí)體識(shí)別和關(guān)系分類(lèi)。
典型的命名實(shí)體識(shí)別模型是基于統(tǒng)計(jì)模型,比如Passos[1]等提出從與實(shí)體相關(guān)的詞典中學(xué)習(xí)一種新的詞向量表達(dá)形式,并且利用新的神經(jīng)詞向量作為單詞語(yǔ)義表達(dá)。該方法在CoNLL03數(shù)據(jù)集上F1值達(dá)到90.09%。Luo[2]等提出一種新的實(shí)體關(guān)系抽取模型——JERL(Joint Entity Recognition and Linking),該模型主要將實(shí)體識(shí)別和知識(shí)庫(kù)中的實(shí)體進(jìn)行聯(lián)合來(lái)捕獲實(shí)體和知識(shí)庫(kù)中的依存關(guān)系,利用CRF(Conditional Random Field)模型進(jìn)行實(shí)體識(shí)別,然后利用知識(shí)庫(kù)中已有的實(shí)體進(jìn)行類(lèi)別判斷。該模型在CoNLL03數(shù)據(jù)集上F1值達(dá)到91.2%。目前,很多神經(jīng)網(wǎng)絡(luò)模型也運(yùn)用到命名實(shí)體識(shí)別任務(wù)中,比如Chiu[3]等利用BiLSTM+CNN聯(lián)合模型進(jìn)行字級(jí)和詞級(jí)的特征提取。該模型首先從CNN模型預(yù)處理的字級(jí)特征向量中提取出新的特征向量,然后將提取出的新的特征向量輸入到BiLSTM中,進(jìn)行詞級(jí)的特征提取,最后輸出該實(shí)體的類(lèi)別概率值。該模型在CoNLL03數(shù)據(jù)集上F1值達(dá)到90.77%。Huang[4]等利用BiLSTM+CRF混合模型將命名實(shí)體識(shí)別任務(wù)轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問(wèn)題。該模型將分詞后的詞向量直接輸入到BiLSTM中,提取出詞級(jí)特征,在最后判斷實(shí)體的類(lèi)別時(shí),利用CRF層將類(lèi)別概率轉(zhuǎn)變成序列概率值輸出。該模型在CoNLL2000數(shù)據(jù)集上F1值為94.40%。Lample[5]等提出利用LSTM+CRF模型提取詞級(jí)特征同時(shí)基于過(guò)渡的方式構(gòu)造標(biāo)簽片段。該方法的實(shí)驗(yàn)數(shù)據(jù)主要來(lái)源于有監(jiān)督的字級(jí)語(yǔ)料庫(kù)以及無(wú)監(jiān)督的非標(biāo)記的語(yǔ)料庫(kù)。首先,對(duì)輸出的句子利用依存句法的過(guò)渡方式進(jìn)行處理,構(gòu)造出有標(biāo)記的單詞,然后將預(yù)處理的單詞輸入到LSTM中,最后通過(guò)CRF輸出序列概率值。該方法在CoNLL2003(英文)上F1值達(dá)到91.20%,在CoNLL2003(德語(yǔ))上F1值達(dá)到78.76%,在CoNLL2002(西班牙語(yǔ))上F1值達(dá)到85.75%。
對(duì)于關(guān)系分類(lèi)任務(wù),主要有兩種方式,一是基于特征提取的人工處理方式,Rink[6]等采用SVM分類(lèi)器進(jìn)行語(yǔ)義關(guān)系類(lèi)別識(shí)別,然后利用語(yǔ)義關(guān)系類(lèi)別進(jìn)行關(guān)系分類(lèi)。該文采用上下文、語(yǔ)義角色索引以及可能存在名詞性關(guān)系等一系列特征進(jìn)行分類(lèi)。該模型在SemEval-2010 Task 8數(shù)據(jù)集上F1值達(dá)到82.19%,Precision達(dá)到77.92%。Kambhatla[7]等利用最大熵模型組合不同詞匯、句法和語(yǔ)義等特征進(jìn)行關(guān)系分類(lèi)。該方法在添加了多種特征,包括實(shí)體類(lèi)型、依存關(guān)系以及句法樹(shù)等,F(xiàn)1值達(dá)到了52.50%,Precision達(dá)到了63.50%。另一種是基于神經(jīng)網(wǎng)絡(luò)的處理方式,Xu[8]等通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合最短依存路徑進(jìn)行語(yǔ)義關(guān)系分類(lèi)。首先將語(yǔ)句輸入到CNN網(wǎng)絡(luò)中,提取語(yǔ)句中的關(guān)系特征,最后通過(guò)依存特征進(jìn)行類(lèi)別判斷。該方法在SemEval-2010 Task 8數(shù)據(jù)集上F1值達(dá)到了85.60%。Zheng[9]等提出基于CNN的模型和基于LSTM的模型,為了學(xué)習(xí)關(guān)系模式信息和給定實(shí)體的語(yǔ)法特征。首先,利用CNN進(jìn)行關(guān)系模式的提取,然后利用LSTM進(jìn)行實(shí)體語(yǔ)義的特征提取,最后將兩者結(jié)合進(jìn)行語(yǔ)義關(guān)系分類(lèi)。該方法在ACE05數(shù)據(jù)集上F1值達(dá)到了53.60%,Precision到了60.00%。
聯(lián)合學(xué)習(xí)方式處理實(shí)體關(guān)系任務(wù)通常只需要一個(gè)模型。大部分聯(lián)合模型是基于特征的結(jié)構(gòu),比如Ren[10]等提出一種基于Distant Supervision和Weakly Supervision對(duì)文本中的實(shí)體和關(guān)系聯(lián)合抽取的框架。該框架主要分為三個(gè)部分: ①候選集的生成;②聯(lián)合訓(xùn)練實(shí)體和向量空間;③實(shí)體類(lèi)型和關(guān)系類(lèi)型的推理預(yù)測(cè)。該方法在三個(gè)公開(kāi)集上做測(cè)試: 在NYT數(shù)據(jù)集上F1值為46.30%,Precision為42.30%;在Wiki-KBP數(shù)據(jù)集上F1值為36.90%,Precision為34.80%;在BioInfer數(shù)據(jù)集上F1值為47.40%,Precision為53.60%。Yang[11]等利用聯(lián)合推理模型進(jìn)行觀點(diǎn)類(lèi)實(shí)體和觀點(diǎn)類(lèi)關(guān)系的抽取。在觀點(diǎn)類(lèi)識(shí)別任務(wù)中,采用CRF模型將識(shí)別任務(wù)轉(zhuǎn)變成序列標(biāo)注任務(wù)。在觀點(diǎn)類(lèi)關(guān)系抽取任務(wù)中,利用觀點(diǎn)—參數(shù)模型識(shí)別觀點(diǎn)類(lèi)關(guān)系。該模型在MPQA數(shù)據(jù)集上F1值為57.04%。Singh[12]等利用聯(lián)合推理進(jìn)行三個(gè)任務(wù): 實(shí)體標(biāo)注、關(guān)系抽取以及共指。該模型利用聯(lián)合圖模式將三者結(jié)合在一起,相互作用,通過(guò)學(xué)習(xí)和推理的方式優(yōu)化聯(lián)合推理模型參數(shù)。該模型在ACE2004數(shù)據(jù)集上針對(duì)實(shí)體抽取任務(wù)的F1值為55.39%,針對(duì)實(shí)體標(biāo)注任務(wù)達(dá)到了82.9%的Precision。Miwa和Bansal[13]提出一種聯(lián)合實(shí)體檢測(cè)參數(shù)共享的關(guān)系抽取模型,模型中有兩個(gè)雙向的LSTM-RNN,一個(gè)是基于Word Sequence(bidirectional sequential LSTM-RNNs),主要用于實(shí)體檢測(cè);另一個(gè)是基于Tree Structures(bidirectional tree-structures LSTM-RNNs),主要用于關(guān)系抽取。后者堆在前者上,前者的輸出和隱含層作為后者的輸入的一部分。Zheng[14]等利用聯(lián)合模型將實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)變成序列標(biāo)注任務(wù),主要是采用End-to-End的模型直接抽取實(shí)體和關(guān)系。
藏文信息抽取處理技術(shù)起步較晚,通常也是采用“流水線”方式進(jìn)行實(shí)體關(guān)系抽取,即藏文命名實(shí)體識(shí)別和藏文關(guān)系分類(lèi)。
針對(duì)藏文命名實(shí)體識(shí)別,金明[15]等首次提出基于規(guī)則和HMM模型藏文命名實(shí)體的研究方案。羅智勇[16]等通過(guò)研究藏族人名漢譯的方法,提出了利用藏族人名的字級(jí)特征以及命名規(guī)則,結(jié)合詞典采用字頻統(tǒng)計(jì)和頻率對(duì)比策略,以及人名前后一個(gè)詞為單位共現(xiàn)概率作為可信度度的藏文人名識(shí)別模型,需要先給出預(yù)先定義的域值。在新華網(wǎng)藏族頻道文本和《人民日?qǐng)?bào)》(2000~2001)上實(shí)驗(yàn)的召回率分別為85.54%和81.73%。華卻才讓[17]等提出基于音節(jié)的藏文命名實(shí)體識(shí)別方案,采用基于音節(jié)訓(xùn)練模型,準(zhǔn)確識(shí)別藏文人名、地名和機(jī)構(gòu)名,識(shí)別的F1值達(dá)到86.03%。劉飛飛[18]等提出基于層次特征的藏文人名識(shí)別方法,將人名的內(nèi)部和上下文特征作為CRF特征,然后將人名并列關(guān)系特征設(shè)計(jì)為規(guī)則,進(jìn)一步提高識(shí)別效果,識(shí)別的F1值達(dá)到了95.02%。
針對(duì)藏文關(guān)系分類(lèi),龍從軍[19]等通過(guò)研究藏語(yǔ)名次語(yǔ)義關(guān)系,提出組織名次的基本單位是義類(lèi),聯(lián)系名詞和名詞、名詞與其他詞之間的關(guān)系是語(yǔ)義關(guān)系。馬寧[20]等以模板的方式從互聯(lián)網(wǎng)中抓取純藏文文本,然后對(duì)文本進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,并對(duì)關(guān)鍵字和實(shí)體進(jìn)行過(guò)濾,抽取出候選模板,最后對(duì)抽取出的候選模板計(jì)算語(yǔ)義相似度,超過(guò)一定閾值就成為關(guān)系模板。
本文基于以上設(shè)計(jì)思路,同時(shí)考慮到藏文信息抽取任務(wù)的研究相對(duì)滯后、藏文的語(yǔ)料稀少、結(jié)構(gòu)復(fù)雜、處理領(lǐng)域單一等問(wèn)題,考慮將聯(lián)合模型運(yùn)用于藏文實(shí)體關(guān)系抽取任務(wù)中,按照字級(jí)或者詞級(jí)處理語(yǔ)料,然后利用詞性標(biāo)注特征進(jìn)行補(bǔ)充,同時(shí)也將藏文關(guān)系抽取任務(wù)轉(zhuǎn)變成藏文序列標(biāo)注任務(wù)。
首先,我們對(duì)藏文語(yǔ)料分別按照詞級(jí)或者字級(jí)進(jìn)行序列標(biāo)注處理(見(jiàn)2.2節(jié)),然后利用自然語(yǔ)言工具,給每個(gè)詞或者字進(jìn)行詞性標(biāo)注(見(jiàn)2.3節(jié)),再輸入到神經(jīng)網(wǎng)絡(luò)編碼層(見(jiàn)2.4.2節(jié)),經(jīng)過(guò)編碼層解析,然后通過(guò)解碼層(見(jiàn)2.4.3節(jié)),最后通過(guò)輸出層輸出結(jié)果(見(jiàn)2.4.4節(jié)),總體框架如圖1所示。
其中,模型最終輸出yi代表輸入藏文分詞或者分字的序列標(biāo)簽。如圖2所示(中文釋義: 扎西頓珠出生于迭部村莊),以分詞為例,其中“/”表示詞與詞之間的分隔符,“BP”表示關(guān)系分類(lèi)中“BirthPlace”類(lèi)別。最后的輸出與分詞結(jié)果一一對(duì)應(yīng)。

圖1 總體框架

圖2 示例圖
2.2.1 藏文詞級(jí)處理
首先,本文利用CRF++工具對(duì)藏文進(jìn)行分詞。然后,對(duì)分詞后的每個(gè)單詞分配一個(gè)標(biāo)簽。標(biāo)簽“O”代表該單詞與提及實(shí)體無(wú)關(guān)。除了標(biāo)簽“O”,其他單詞標(biāo)簽分為三個(gè)部分: 實(shí)體位置、關(guān)系類(lèi)型以及關(guān)系角色。實(shí)體位置,本文使用“BIES”來(lái)表示,“B”代表實(shí)體起始位置,“I”代表實(shí)體中間位置,“E”代表實(shí)體結(jié)束位置,“S”代表單個(gè)實(shí)體。關(guān)系類(lèi)型,從已知的關(guān)系集中查找。關(guān)系角色則根據(jù)上下文信息確定,并同時(shí)設(shè)置為“1”和“2”。示例如圖3所示。(中文釋義: 扎西頓珠出生于迭部村莊)

圖3 藏文詞級(jí)處理示例
2.2.2 藏文字級(jí)處理
首先,本文按照藏文拼寫(xiě)特征,利用藏文音節(jié)點(diǎn)進(jìn)行字級(jí)處理,然后對(duì)分字后的音節(jié)分配標(biāo)簽。與詞級(jí)對(duì)應(yīng),標(biāo)簽“O”代表該音節(jié)與提及實(shí)體無(wú)關(guān)。其他的音節(jié)標(biāo)簽同樣也分為三個(gè)部分: 實(shí)體位置、關(guān)系類(lèi)型以及關(guān)系角色,各部分的定義與詞級(jí)一致。示例如圖4所示。(中文釋義: 扎西頓珠出生于迭部村莊)

圖4 藏文字級(jí)處理示例
由于藏文進(jìn)行序列標(biāo)注過(guò)后的信息較少,在與實(shí)體無(wú)關(guān)的單詞或者音節(jié)上都默認(rèn)標(biāo)簽為“O”,對(duì)結(jié)果的提取存在較大偏差。本文針對(duì)這種情況,在序列標(biāo)注過(guò)后的藏文詞或者字進(jìn)行詞性標(biāo)注,對(duì)所有的詞或者字分配詞性標(biāo)簽,降低最后提取的錯(cuò)誤率。示例如圖5所示。(中文釋義: 扎西出生于迭部村莊)

圖5 詞性標(biāo)注
這里需要注意,我們進(jìn)行字標(biāo)注時(shí),根據(jù)詞的詞性來(lái)定義,示例如圖6所示。(中文釋義: 澤旺拉姆)

圖6 字性的定義
不難發(fā)現(xiàn),很多藏文特有的詞性,例如,格助詞、屬格助詞等對(duì)幫助判斷兩個(gè)實(shí)體的關(guān)系有輔助的作用。同時(shí)本文也借鑒了這種藏文特有的詞性規(guī)則,比如利用屬格助詞來(lái)表達(dá)“包含”、“屬于”之類(lèi)的關(guān)系,以此來(lái)強(qiáng)化和提高藏文實(shí)體抽取的準(zhǔn)確率。
目前,基于神經(jīng)網(wǎng)絡(luò)的端到端模型在序列標(biāo)注任務(wù)中起到良好的效果。本文也采用端到端的模型進(jìn)行實(shí)體關(guān)系抽取任務(wù)。模型主要包括預(yù)處理階段、BiLSTM編碼層、LSTM解碼層以及一個(gè)Softmax輸出層。
2.4.1 預(yù)處理階段
給定一句長(zhǎng)度為l的藏文語(yǔ)句W= {x1,x2,x3,...,xl},先通過(guò)word2vec生成詞向量T={t1,t2,t3,...,tl},然后經(jīng)過(guò)CRF工具獲取每個(gè)詞的詞性P={p1,p2,p3,...,pl},并且通過(guò)Word-POS[21]的方法將詞向量和該詞詞性向量進(jìn)行拼接,組成新的向量表達(dá)TP={(t1,p1),(t2,p2),(t3,p3),...,(tl,pl)}。 流程如圖7所示。(中文釋義: 扎西出生于迭部村莊)

圖7 預(yù)處理流程
2.4.2 BiLSTM編碼層
將預(yù)處理階段生成的向量表達(dá)TP輸入到BiLSTM中。BiLSTM能夠捕獲到句子中的語(yǔ)義信息。它主要包括前向LSTM層、后向LSTM層以及一個(gè)連接層。通過(guò)預(yù)處理得到的藏文語(yǔ)句向量表達(dá),輸入到BiLSTM中,這個(gè)結(jié)構(gòu)包含一系列的循環(huán)連接單元,稱(chēng)為記憶區(qū)塊。每個(gè)當(dāng)前的記憶區(qū)塊能夠根據(jù)前一層的隱向量ht-1、前一層的單元向量ct-1以及當(dāng)前的輸入向量tpt-1,捕獲當(dāng)前的隱向量ht。 具體定義如式(1)~式(5)所示。
輸入門(mén):
這一步主要決定是否對(duì)當(dāng)前輸入的文本信息中重要的詞或者字進(jìn)行更新。
遺忘門(mén):
這一步?jīng)Q定以前的文本信息中是否丟棄無(wú)表達(dá)、無(wú)關(guān)的詞或者字。
輸出門(mén):
最終輸出當(dāng)前時(shí)刻的文本信息狀態(tài)以及最后的特征輸出向量如式(6)所示。

2.4.3 LSTM解碼層

輸入門(mén):
(7)
遺忘門(mén):
(8)
輸出門(mén):
2.4.4 Softmax層
針對(duì)最后的Softmax層,基于輸出的向量Pt,來(lái)預(yù)測(cè)實(shí)體的概率標(biāo)簽:
其中,Wy是輸入Softmax矩陣,Nt是整個(gè)標(biāo)簽的數(shù)量,by是偏置項(xiàng)。
數(shù)據(jù)集采用中央民族大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室處理的藏文數(shù)據(jù)集,數(shù)據(jù)格式同NYT數(shù)據(jù)集。該藏文數(shù)據(jù)集共包括了2 400個(gè)三元組及其原句,并有11種常見(jiàn)的關(guān)系,在實(shí)驗(yàn)中,我們采用的訓(xùn)練集有2 000句,測(cè)試集有400句。
主要采用準(zhǔn)確率P和召回率R以及F1值作為評(píng)估指標(biāo),不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,我們沒(méi)有使用標(biāo)簽類(lèi)型來(lái)訓(xùn)練模型,因此在評(píng)估過(guò)程中不需要考慮實(shí)體類(lèi)型。同時(shí)我們會(huì)在訓(xùn)練集中隨機(jī)選出10%的數(shù)據(jù)作為驗(yàn)證集來(lái)優(yōu)化模型的參數(shù)。
我們使用Word2Vec工具來(lái)生成詞向量,對(duì)于詞向量維度可選[20,30,50,80]。本文基于實(shí)驗(yàn)效果最好的維度50維,即d=50。神經(jīng)網(wǎng)絡(luò)隱層的數(shù)量依據(jù)啟發(fā)式規(guī)則,將LSTM編碼層單元數(shù)量設(shè)置成300層,LSTM解碼層單元數(shù)量設(shè)置成600層,學(xué)習(xí)率初始值設(shè)為0.002。具體參數(shù)如表1 所示。

表1 參數(shù)表
我們比較了各種算法在藏文實(shí)體關(guān)系抽取上的結(jié)果,包括傳統(tǒng)的SVM和LR方法,同時(shí)也比較了單一的GRU方法在任務(wù)上的結(jié)果,我們的方法取得了最好的結(jié)果。
同時(shí)本文比較每個(gè)詞性對(duì)于實(shí)體關(guān)系的抽取的影響,經(jīng)過(guò)分析,選擇詞性NG(名詞)、詞性P(格助詞)、詞性V(動(dòng)詞)、詞性A(動(dòng)詞)作為特征控制變量輸入。即本文只選取其中一種詞性作為詞性特征輸入,并且將其他的詞性設(shè)置為空,進(jìn)行二次實(shí)驗(yàn)。
在不同方法上的實(shí)驗(yàn)結(jié)果,如表2所示。

表2 方法結(jié)果比較
從表2可以看出,針對(duì)藏文的分割粒度以及詞性標(biāo)注的影響,我們的方法較傳統(tǒng)的機(jī)器學(xué)習(xí)方法提升了很高的準(zhǔn)確率。同時(shí),在神經(jīng)網(wǎng)絡(luò)的方法中,綜合比較了LSTM在藏文實(shí)體關(guān)系抽取任務(wù)上的不同處理,尤其是藏文語(yǔ)料的處理,我們采用了不同粒度對(duì)藏文進(jìn)行處理,對(duì)藏文進(jìn)行詞分割和字分割,并在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中添加詞性標(biāo)注進(jìn)行優(yōu)化,我們的方法較純粹的神經(jīng)網(wǎng)絡(luò)模型也有一定的提升。
這里,本文僅在藏文字級(jí)處理上進(jìn)行進(jìn)一步的詞性標(biāo)注的比較,結(jié)果如表3所示。

表3 詞性結(jié)果比較
不難發(fā)現(xiàn),詞性NG的影響比較大,經(jīng)過(guò)分析我們發(fā)現(xiàn),藏文中詞性NG在所有詞性中占比最大,約為85%。在缺少詞性NG的情況下,提取的準(zhǔn)確率下降了至少10%,可見(jiàn)詞性NG對(duì)于藏文實(shí)體抽取的重要性很高。而詞性V在所有詞性中占比最小,約為2%。同時(shí),我們也發(fā)現(xiàn),詞性P以及詞性A對(duì)于結(jié)果的影響偏差很接近,藏文中的格助詞以及形容詞在一定程度上能幫助提高藏文實(shí)體抽取的準(zhǔn)確度。
由于藏文語(yǔ)料稀少、處理過(guò)程中需要有專(zhuān)業(yè)人士進(jìn)行校正,上述的切分過(guò)程都是先使用機(jī)器進(jìn)行程序化處理,然后經(jīng)過(guò)人工校正,處理周期較長(zhǎng),并且結(jié)果也需要有專(zhuān)業(yè)的人士來(lái)進(jìn)行修正,幫助優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)。
經(jīng)過(guò)專(zhuān)業(yè)人士修正,我們發(fā)現(xiàn)實(shí)驗(yàn)中也存在以下不足: ①在處理藏文詞或者藏文字過(guò)程中,藏文語(yǔ)句的長(zhǎng)度過(guò)長(zhǎng),往往幾百行后才能找到相應(yīng)的實(shí)體和關(guān)系;②藏文語(yǔ)句中表達(dá)存在意思沖突現(xiàn)象,藏文中一個(gè)實(shí)體往往會(huì)表達(dá)多個(gè)意思,也就是說(shuō),藏文一句話中,除了標(biāo)注實(shí)體以外,其他詞或者字中也表達(dá)相同的意思,給神經(jīng)網(wǎng)絡(luò)模型造成誤判的現(xiàn)象;③本文方法中,在同一個(gè)句子中的兩個(gè)實(shí)體,往往也會(huì)出現(xiàn)在其他句子中,但關(guān)系表達(dá)不一致,也造成了錯(cuò)誤率提高。
本文主要針對(duì)藏文語(yǔ)料匱乏的情況,提出一種將實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)變成一種序列標(biāo)注任務(wù)的方法。同時(shí),對(duì)藏文語(yǔ)料的處理也是本文的一大亮點(diǎn),我們的實(shí)驗(yàn)相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)以及普通的神經(jīng)網(wǎng)路模型,取得了較好的準(zhǔn)確率。但是我們的方法在藏文的處理上也存在一些問(wèn)題,針對(duì)神經(jīng)網(wǎng)絡(luò)的優(yōu)化也沒(méi)有做對(duì)比試驗(yàn)。在針對(duì)藏文特有的語(yǔ)法規(guī)則以及性質(zhì)上面,本文沒(méi)有進(jìn)行深入的研究。
在未來(lái)的工作中,我們會(huì)逐步優(yōu)化藏文的處理,盡量減少人工的參與,同時(shí)不斷優(yōu)化模型,添加藏文的特有規(guī)則,繼續(xù)添加藏文特有的詞性規(guī)則,使模型更適應(yīng)于藏文的實(shí)體關(guān)系抽取,為后續(xù)的藏文自然語(yǔ)言處理的深入研究提供基礎(chǔ)。