融合多任務(wù)學(xué)習(xí)和實體遮掩的關(guān)系三元組抽取模型

2024-04-22 02:30:40薛志豪李永強趙永智馮遠(yuǎn)靜

小型微型計算機系統(tǒng) 2024年4期

關(guān)鍵詞：信息模型

薛志豪,李永強,趙永智,馮遠(yuǎn)靜

(浙江工業(yè)大學(xué) 信息工程學(xué)院,杭州 310023)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,人類進入了信息化時代,同時產(chǎn)生了海量的文本數(shù)據(jù)信息,其中包含大量有重要價值的知識.然而由于這些信息繁瑣冗余,給知識利用帶來了很多困難[1].由于人工智能技術(shù)的發(fā)展,學(xué)界和工業(yè)界開始加大對信息抽取(information extraction,IE)技術(shù)的研究.信息抽取技術(shù)用于從無序的文本信息結(jié)構(gòu)中抽取有特定提取價值的信息,并以結(jié)構(gòu)化的方式將信息存儲于數(shù)據(jù)庫中加以利用.關(guān)系三元組抽取(relational triplet extraction,RTE)是信息抽取的重要任務(wù)之一,用于抽取實體、屬性及其實體間的相互關(guān)系,其一般表現(xiàn)形式為(Subject,Relation,Object),即由主體、客體和它們之間的語義關(guān)系組成.關(guān)系三元組抽取的正確性對其后的下游任務(wù)如知識圖譜、問答系統(tǒng)、聊天機器人等的實現(xiàn)效果有重要影響.

早期的研究工作采用流水線[2-4](Pipeline)方法,先用命名實體識別技術(shù)(Named Entity Recognition,NER),抽取句子中的全部實體,再對每一組實體進行關(guān)系分類(Relation Extraction,RE).該方法雖然易于執(zhí)行,但忽略了實體識別和關(guān)系抽取兩個任務(wù)之間的內(nèi)在聯(lián)系,并且存在誤差傳播的問題.之后,提出了許多聯(lián)合抽取方法[5],利用一個模型,優(yōu)化實體識別與關(guān)系抽取兩個任務(wù)之間的聯(lián)系,一步式或多步式進行關(guān)系三元組抽取.雖然聯(lián)合抽取模型克服了流水線式方法的弊端,但是聯(lián)合抽取模型中實體識別和關(guān)系抽取使用共同的特征表示,存在特征表示不共享,特征交互不平衡的問題[6].

近些年來,Zhong等[6]提出的PURE(the Princeton University Relation Extraction system)模型將實體標(biāo)記的方法引入到關(guān)系抽取任務(wù)中,取得了很好的效果,并闡述了聯(lián)合抽取方法中實體識別任務(wù)的特征表示和關(guān)系抽取任務(wù)的特征表示存在互相干擾的問題的觀點.Yan等[7]提出的PFN(a Partition Filter Network for joint entity and relation extraction)模型則采用了分區(qū)過濾網(wǎng)絡(luò)來優(yōu)化聯(lián)合抽取模型帶來的特征表示不準(zhǔn)確的問題.但是現(xiàn)有的方法依舊存在兩個主要問題:首先,目前的方法都只考慮了命名實體識別和關(guān)系抽取兩個任務(wù)之間互相干擾的問題,但是并沒有考慮命名實體識別任務(wù)中實體跨度識別和實體類型分類兩個子任務(wù)之間互相干擾的問題.目前的方法都是直接從句子中抽取出實體的跨度同時判斷實體的類型,這忽略兩個子任務(wù)之間的獨立性.其次,在進行關(guān)系抽取時實體提及詞可能會帶來負(fù)面影響.如“華盛頓是美國的第一任總統(tǒng)”,在進行特征表示后,“華盛頓”同時兼顧地方和人名兩種類型的信息,這會對關(guān)系分類任務(wù)造成干擾.PURE模型中提出的實體標(biāo)記方法,在實體的頭尾各插入實體類型標(biāo)記,增強了實體對的關(guān)系語義表示,表明融入實體類型信息對抽取實體對之間的關(guān)系有正面影響,但該方法忽視了實體提及詞對實體對之間的關(guān)系抽取會帶來負(fù)面影響.

針對上述問題,本文設(shè)計了一種融合多任務(wù)學(xué)習(xí)和實體遮掩的關(guān)系抽取模型(relational triplet extraction model fused with Multi Task Learning and Entity Masking,MTLEM).該模型采用流水線式方法,在進行命名實體識別時,將實體識別任務(wù)分解為實體跨度識別和實體類型分類兩個子任務(wù),分別使用不同的特征表示,從而解決兩個子任務(wù)之間特征表示相互干擾的問題.在進行關(guān)系抽取時,提出了一種實體遮掩的方法,以此改進PURE模型提出的實體標(biāo)記方法.利用實體類型替換實體提及并在其前后插入實體標(biāo)記,一方面強調(diào)了實體類型信息,另一方面避免了實體提及詞對關(guān)系抽取帶來的負(fù)面影響.

1 相關(guān)工作

根據(jù)抽取流程和模型結(jié)構(gòu),句子級別的關(guān)系三元組抽取方法主要可以分為兩類,分別是流水線式抽取方法和聯(lián)合抽取方法.早期研究中,主要采用流水線式方法進行關(guān)系三元組的抽取,將提取文本中實體之間的關(guān)系分離成兩個獨立的任務(wù):命名實體識別和關(guān)系抽取.Zeng等[8]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)分別提取詞元級別和句子級別的特征,輸入進隱藏層和softmax層進行關(guān)系分類.Xu等[9]在CNN的基礎(chǔ)之上融入了最短依存路徑分析進行關(guān)系三元組抽取.在中文的關(guān)系三元組抽取研究方面,高丹等[10]利用CNN結(jié)合多實體關(guān)系抽取技術(shù),在法律文書的關(guān)系抽取上,取得了很好的效果.Socher等[11]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法進行關(guān)系三元組抽取,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對句子進行句法解析,從而得到句子的向量表示,融入了句子的句法結(jié)構(gòu)信息.Lample 等[12]則使用長短期記憶網(wǎng) 絡(luò)(Long Short Term Memory,LSTM)模型與條件隨機場(Conditional Random Field,CRF)模型,將關(guān)系三元組抽取任務(wù)轉(zhuǎn)換為實體序列的標(biāo)注任務(wù).Zhu等[13]使用了圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)設(shè)計了一種自生成圖神經(jīng)網(wǎng)絡(luò)模型,使神經(jīng)網(wǎng)絡(luò)能夠?qū)o結(jié)構(gòu)化的句子輸入進行關(guān)系推理.

由于誤差傳播、實體信息和關(guān)系信息無法有效交互等問題,近些年來研究者們設(shè)計了許多聯(lián)合抽取模型.Miwa等[14]設(shè)計了一種共享參數(shù)的模型,使用RNN、詞元序列以及依存樹等結(jié)構(gòu),通過共享編碼層的LSTM 獲得最優(yōu)的全局參數(shù),同時進行實體抽取任務(wù)和關(guān)系抽取任務(wù).Zheng等[15]設(shè)計了一種基于序列標(biāo)注的模型,巧妙的將實體識別任務(wù)和關(guān)系抽取任務(wù)整合成一個序列標(biāo)注問題,可以同時抽取出實體類型和關(guān)系類型,但該方法沒能解決重疊三元組的問題.Wei等[16]設(shè)計了一種層級架構(gòu)模型,將關(guān)系視作為一個實體到另一個實體的函數(shù)映射,利用頭實體去獲得某個關(guān)系類型下的尾實體,從而拼接出一個完整的關(guān)系三元組,可以很好的解決重疊三元組的問題.Wang等[17]也對于重疊三元組問題提出了一種多模塊一步式抽取模型,將關(guān)系抽取問題轉(zhuǎn)換為多種類型特征對的拼接問題.Shang等[18]在Wang等[17]提出的多模塊一步式抽取模型基礎(chǔ)上優(yōu)化結(jié)構(gòu),提出了一種單模塊一步式抽取模型,在運行效果和執(zhí)行效率上都有所突破.Takanobu等[19]使用強化學(xué)習(xí)來解決關(guān)系三元組抽取的問題,提出了一種分層強化學(xué)習(xí)框架,先識別句子中的關(guān)系類型,再在每個關(guān)系類型下抽取實體對.Li等[20]則巧妙的將關(guān)系三元組抽取問題轉(zhuǎn)換為了多輪的問答問題,利用知識問答系統(tǒng)自然的為實體抽取和關(guān)系抽取建模.

近些年來,研究者發(fā)現(xiàn)特征表示的好壞對于模型的效果影響非常大.如何更好的對任務(wù)建模獲取更準(zhǔn)確的特征表示和如何融入更多外部有價值的信息來豐富特征表示成為了當(dāng)前研究的熱點.Zhong等[6]提出的PURE模型,采用流水線式方法,并在關(guān)系抽取中融入了實體類型信息,取得了很好的效果,提出了實體和關(guān)系模型的上下文表示本質(zhì)上是捕獲了不同的信息,因此共享它們的特征表示會損害性能的觀點.Yan等[7]提出的分區(qū)過濾網(wǎng)絡(luò)也利用雙向長短期記憶網(wǎng)絡(luò)(Bi-directional LSTM,Bi-LSTM),篩選出用于實體識別的信息和關(guān)系抽取的信息,避免兩個任務(wù)之間特征表示的干擾問題.在信息抽取的另一個任務(wù),事件抽取任務(wù)中,Shang[21]等設(shè)計了一種層次架構(gòu)的模型,分層次的抽取事件類型,事件觸發(fā)詞和事件觸發(fā)詞,在抽取過程中逐步融入相關(guān)的信息用以特征表示,取得了不錯的效果.盡管上述方法都取得了一定的成功,但這些方法還并不能讓人滿意.目前的方法都只專注于命名實體識別任務(wù)與關(guān)系抽取任務(wù)之間的干擾問題,并沒有深入到命名實體識別任務(wù)內(nèi)部,解決實體跨度識別和實體類型分類兩個子任務(wù)之間存在的特征表示干擾問題.并且在PURE模型中融合實體類型信息的方式只是簡單的在實體頭尾標(biāo)記處插入實體類型標(biāo)記,忽略了實體提及詞對關(guān)系抽取帶來的負(fù)面影響.

基于以上的分析,本文提出了一種融合多任務(wù)學(xué)習(xí)和實體遮掩的關(guān)系抽取模型.利用分步式的方法,先抽取實體跨度再判斷其實體類型,細(xì)化命名實體識別任務(wù),從而解決實體跨度抽取和實體類型分類兩個子任務(wù)之間存在的相互干擾問題.并且使用實體遮掩的方式替代實體標(biāo)記的方式,在融合實體類型信息來豐富關(guān)系語義表示的同時,消除了實體提及詞對關(guān)系抽取任務(wù)的干擾,提高模型特征表示的能力.

2 模型設(shè)計

2.1 問題定義

對于一個由n個詞元(token)構(gòu)成的句子W=(w1,w2,…,wn),其中wi是W的第i個詞元.在跨度級別(Span Level)表示[22]下,W中任意長度的連續(xù)詞元稱為一個跨度,如(w1,w2,w3)是一個長度為3的跨度.令S={s1,s2,…,sm}表示W(wǎng)中長度不超過K的所有跨度組成的集合.那么W中的所有關(guān)系三元組可表示為公式(1):

{(si,sj,r)∶si,sj∈S,r∈R,yc(si),yc(sj)∈ε}

(1)

其中si,sj,r分別為關(guān)系三元組(si,sj,r)中的頭實體(Subject)、尾實體(Object)、對應(yīng)關(guān)系(Relation),R為預(yù)定義的關(guān)系類型集合,ε為預(yù)定義的實體類型集合,yc(si),yc(sj)分別為si,sj的實體類型.

本文所設(shè)計的模型MTLEM采用流水線式方法,將關(guān)系三元組抽取任務(wù)分解為兩個子任務(wù):命名實體識別和關(guān)系抽取.而命名實體識別任務(wù)又分解為實體跨度識別和實體類型分類.

命名實體識別任務(wù)里,對W中的所有跨度si∈S先預(yù)測其為實體跨度的概率Pe(si),若Pe(si)>δ,δ為判斷為實體跨度的閾值,則判斷si為實體跨度,再預(yù)測其實體類型c=yc(si)∈ε.該任務(wù)的輸出如公式(2)所示:

{(si,c)∶si∈S,c∈ε}

(2)

基于命名實體識別的結(jié)果,關(guān)系抽取任務(wù)對所有候選實體的跨度對(si,sj)∈S×S預(yù)測關(guān)系類型r=yr(si,sj)∈R∪{}.若yr(si,sj)=,則表示(si,sj)之間不存在任何關(guān)系.該任務(wù)的輸出如公式(3):

{((si,sj),r)∶(si,sj)∈S×S,r∈R}

(3)

2.2 模型整體架構(gòu)

本文提出的融合多任務(wù)學(xué)習(xí)和實體遮掩的關(guān)系三元組抽取模型整體結(jié)構(gòu)如圖1所示,主要包括3部分:實體跨度識別模塊,實體類型分類模塊,實體對關(guān)系抽取模塊,其中實體跨度識別和實體類型分類共同完成命名實體識別任務(wù).

圖1 融合多任務(wù)學(xué)習(xí)與實體遮掩的三元組抽取模型Fig.1 Relational triplet extraction model fused with multi task learning and entity masking

首先在實體跨度識別模塊中,先將句子輸入到預(yù)訓(xùn)練的BERT[23]模型中,經(jīng)過Embedding層獲得詞向量編碼和位置編碼,再經(jīng)過雙向Transformer[24]層得到句子中每個詞元的特征向量.之后,枚舉所有長度不超過K的跨度獲得跨度集合S,對S中每一個跨度,將其首尾詞元向量與指定的跨度長度向量拼接,作為實體跨度識別的語義表示,輸入到實體跨度識別層判斷其是否是實體.接下來在實體類型分類模塊中,對每一個實體跨度si,先通過一個雙向LSTM網(wǎng)絡(luò)融入其實體內(nèi)部的依賴信息.之后通過注意力機制分別計算與每一種實體類型的相似度,選取其中相似度最高的實體類型,作為該實體跨度的實體類型.

完成了命名實體識別任務(wù)后,在關(guān)系抽取模塊中,對于每一組實體對,先對句子進行實體遮掩操作,在頭尾實體提及詞前后插入實體標(biāo)記并用實體類型信息替換實體提及詞,之后將句子重新輸入到另一個預(yù)訓(xùn)練的BERT模型中,獲取關(guān)系信息的上下文表示.最后將頭尾實體類型的特征向量拼接,輸入到關(guān)系檢測層判斷其關(guān)系類型.

2.3 實體跨度識別模塊

實體跨度識別模塊的任務(wù)是獲取所有檢測為實體的跨度.其中用于實體跨度識別的語義信息由以下3部分構(gòu)成:1)跨度的開始詞元向量;2)跨度的結(jié)束詞元向量;3)跨度長度的詞向量.

對于一個給定的輸入句子W=(w1,w2,…,wn),首先經(jīng)過一個預(yù)訓(xùn)練的BERT模型,獲取句子中每個詞元包含上下文信息的特征向量,如公式(4)所示:

W=(w1,w2,…,wn)

(4)

其中,wt∈dw代表BERT模型輸出的第t個詞元的特征向量.

令S={s1,s2,…,sm}表示W(wǎng)中所有長度不超過K的跨度組成的集合.對于任意跨度si=(wt,wt+1,…,wt+k-1)∈S,1≤i≤m,1≤k≤K,1≤t≤n-k+1,其寬度為k.令start(si)=t表示跨度si的在W中的開始位置,end(si)=t+k-1表示跨度si的在W中結(jié)束位置.則跨度si用于進行實體跨度識別的語義信息可表示為he(si):

he(si)=[wstart(si);wend(si);lk]

(5)

其中,lk∈dl是跨度長度的詞向量,[·;·]表示向量拼接操作.

將he(si)輸入進一個多層前饋神經(jīng)網(wǎng)絡(luò),預(yù)測跨度si為實體跨度的概率pe(si).

2.4 實體類型分類模塊

本文觀察到命名實體識別任務(wù)與計算機視覺里的目標(biāo)檢測任務(wù)[25]具有高度相似性,兩個任務(wù)都需要在上下文信息中,選取特定的區(qū)域,并分配相應(yīng)的類別.在目標(biāo)檢測領(lǐng)域內(nèi),兩階段對象檢測器(two-stage object detectors)[26-28]是十分有效的目標(biāo)檢測算法.它將目標(biāo)檢測任務(wù)分為兩個步驟,先選定候選區(qū)域,然后對候選區(qū)域進行分類和微調(diào).其次,Yan等[7]和Zhong等[6]研究者也發(fā)現(xiàn),在實體識別任務(wù)和關(guān)系抽取任務(wù)中使用相同的上下文表示會產(chǎn)生消極影響.受到上述思想的啟發(fā),本文設(shè)計了實體類型分類模塊.

實體類型分類模塊的目的是獲取實體跨度的實體類別.本模塊主要由3部分構(gòu)成:1)融合實體跨度序列信息,增強詞元的特征表示;2)使用注意力機制獲取特定實體類別下的實體語義表示;3)實體與實體類別的相似度計算.

本文采用Bi-LSTM網(wǎng)絡(luò)融合實體跨度序列信息.Bi-LSTM的基本思想是對每個實體跨度的詞元序列分別經(jīng)過前向LSTM網(wǎng)絡(luò)和后向LSTM層網(wǎng)絡(luò),然后將同一個位置的輸出合并,對于每一個位置的輸出而言,都包含了序列的前向信息與后向信息.Bi-LSTM的具體結(jié)構(gòu)如圖2所示,其中輸出h:

圖2 Bi-LSTM結(jié)構(gòu)Fig.2 Bi-LSTM structure

(6)

基于實體跨度識別模塊的結(jié)果,獲得實體跨度集合S={s:Pe(s)>δ},對于任意實體跨度s=(wt,wt+1,…,wt+k-1)∈S,將其輸入到Bi-LSTM網(wǎng)絡(luò)獲取融入實體跨度序列信息的特征表示s:

s=(h1,h2,…,hk)

(7)

其中,hi∈dh代表實體跨度s融合實體跨度序列信息后輸出的第i個詞元的特征向量.

在融合了實體跨度序列信息后,本文采用注意機制來檢測實體跨度的實體類型,為每一個實體跨度捕獲最匹配的實體類型.具體來說,本文隨機初始化嵌入矩陣C∈|c|×dh作為實體類型嵌入,并定義一個相似性函數(shù)φ來衡量候選類型c∈C與每個實體跨度詞元hj∈s之間的相關(guān)性,如公式(8)所示:

φ(c,hi)=vTtanh(V[c;hi;|c-hi|;c⊙hi])

(8)

其中V∈4dh×4dh和v∈4dh×1是可學(xué)習(xí)的參數(shù),|·|是絕對值操作符,⊙是矩陣的哈達瑪積.

根據(jù)實體跨度詞元h與實體類型c的相關(guān)性得分,獲取適應(yīng)了實體類型c的實體表示sc:

(9)

最后,通過使用相同的相似性函數(shù)φ獲取實體類型c在實體跨度s下的概率Pc(c|s):

(10)

2.5 關(guān)系抽取模塊

關(guān)系抽取模塊的任務(wù)是獲取每個跨度對(si,sj)的關(guān)系類型r=yr(si,sj)∈R∪{},其中R為預(yù)先設(shè)定的關(guān)系類型集合,為不存在關(guān)系.如圖1所示,獲得用于關(guān)系分類的關(guān)系語義編碼由以下3個步驟構(gòu)成:1)對句子W進行實體遮掩處理,得到新句子獲取的詞向量;3)獲取跨度對的關(guān)系語義編碼.

基于實體類別分類模塊的結(jié)果,任選一個跨度對(si,sj)∈S×S,ci=yc(si)∈ε,cj=yc(sj)∈ε,設(shè)si為關(guān)系三元組中的頭實體,ci為頭實體的實體類型,sj為關(guān)系三元組中的尾實體,cj為尾實體的實體類型.則句子W可表示為:

W=(w1,…,wstart( i),…,wend( i),…,wstart( j),…,wend( j),…,wn)

(11)

(12)

上述過程中,新定義的標(biāo)記由BERT詞匯表中的備用標(biāo)記表示.

(13)

將hr(si,sj)輸入進一個多層前饋神經(jīng)網(wǎng)絡(luò),預(yù)測候選實體對(si,sj)關(guān)系類型r=yr(si,sj)的概率分布Pr(r|(si,sj)),r∈R∪{ε}.

實體標(biāo)記方法

本文所提出的實體遮掩方法來源于PURE模型中的實體標(biāo)記方法,本節(jié)將先簡要闡述實體標(biāo)記方法,再詳細(xì)闡述改動的差異和優(yōu)化的思路.

圖3 PURE模型中的實體標(biāo)記方法Fig.3 Entity marking method in PURE model

(14)

(15)

本文提出的MTLEM模型中,除了在頭實體和尾實體的前后插入標(biāo)記外,還用實體類型標(biāo)記遮掩了實體提及詞,如式所示;候選頭尾實體si和sj之間的關(guān)系語義編碼由頭尾實體類型標(biāo)記和的詞向量構(gòu)成,如式所示.用頭尾實體的類型標(biāo)記遮掩原本的實體詞元,可以消除實體提及詞對關(guān)系分類任務(wù)的干擾,同時也能提供足夠的語義信息來完成關(guān)系分類任務(wù).因為實體之間的語義關(guān)系往往由上下文中其他關(guān)鍵詞元(如動詞、概念性名詞等)來確定,而非實體提及詞本身.如句子“華盛頓是美國的第一任國總統(tǒng)”,實體提及詞“華盛頓”既可能是人物類型實體也可能是地點類型實體,若將其改為“~~<人>~~是<地點>的第一任總統(tǒng)”則會優(yōu)化這種情況.~~~~

2.6 損失函數(shù)

本文采用流水線式方法進行關(guān)系三元組抽取.對于命名實體識別,使用交叉熵?fù)p失函數(shù)分別計算實體跨度識別模塊和實體類別分類模塊的損失值Le和Lo:

~~(16)~~

~~(17)~~

~~L=Le+Lo~~

~~(18)~~

~~關(guān)系抽取中,也采用交叉熵?fù)p失函數(shù)計算損失,損失函數(shù)Lr:~~

~~(19)~~

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

本文在關(guān)系三元組抽取任務(wù)中廣泛使用的兩個數(shù)據(jù)集 SCIERC[29]和 SKE[30]上驗證模型的有效性,其中SCIERC為英文數(shù)據(jù)集,SKE為中文數(shù)據(jù)集.SCIERC數(shù)據(jù)集來源于500篇人工智能領(lǐng)域的論文摘要,總共包含2687條數(shù)據(jù),其中訓(xùn)練集有1861條數(shù)據(jù),驗證集有275條數(shù)據(jù),測試集有551條數(shù)據(jù),數(shù)據(jù)集內(nèi)包含6種類型的科學(xué)實體和7種類型的關(guān)系.SKE數(shù)據(jù)集來源于百度百科和百度信息流文本,是目前業(yè)界規(guī)模最大的基于模式的中文關(guān)系三元組抽取數(shù)據(jù)集,其中包含了約43萬個三元組數(shù)據(jù),21萬個中文句子,以及定義好的24種實體類別和50種關(guān)系類別.SKE數(shù)據(jù)集劃分為17萬訓(xùn)練集,2萬驗證集和2萬測試集,由于測試集并未公開,所以本實驗?zāi)J(rèn)將驗證集作為測試集.

3.2 評價指標(biāo)及參數(shù)設(shè)置

~~本文的評價標(biāo)準(zhǔn)采用的是準(zhǔn)確率(Precision)、召回率(Recall)和F1值,計算式見公式(20)～公式(22):~~

~~(20)~~

~~(21)~~

~~(22)~~

以上3個公式分別計算命名實體識別和關(guān)系抽取兩個模塊的的準(zhǔn)確率、召回率和F1值.其中,TP是預(yù)測正確的標(biāo)簽數(shù)量,FP為預(yù)測錯誤的標(biāo)簽數(shù)量,FN為未抽取出的正確的標(biāo)簽數(shù)量.

本文模型訓(xùn)練使用預(yù)訓(xùn)練模型BERT作為詞向量編碼器,在SCIERC數(shù)據(jù)集上,使用在大量科學(xué)論文語料庫上預(yù)先訓(xùn)練好的SciBERT[31],在SKE數(shù)據(jù)集上,使用基于全詞遮罩(Whole Word Masking)技術(shù)的中文預(yù)訓(xùn)練模型Chinese-BERT-wwm[32].對于命名實體識別模塊,模型訓(xùn)練采用每64個句子為一組,訓(xùn)練200個循環(huán),設(shè)置的最大跨度長度為12,對于預(yù)訓(xùn)練模型參數(shù)的學(xué)習(xí)率設(shè)置為1e-5,其他參數(shù)的學(xué)習(xí)率設(shè)置為1e-4.對于關(guān)系抽取模塊,模型訓(xùn)練采用每32個句子為一組,訓(xùn)練10個循環(huán),預(yù)訓(xùn)練模型參數(shù)的學(xué)習(xí)率設(shè)置為2e-5,其他參數(shù)的學(xué)習(xí)率設(shè)置為1e-4.具體參數(shù)設(shè)置如表1所示.

~~表1 超參數(shù)設(shè)置Table 1 Hyperparameter setting~~

3.3 基線模型

~~將 MTLEM同以下模型進行對比,這些模型在SCIERC和SKE數(shù)據(jù)集上的數(shù)據(jù)上都有著不錯的表現(xiàn).~~

a)DyGIE[33]:將聯(lián)合抽取任務(wù)轉(zhuǎn)換為跨度的動態(tài)圖構(gòu)建,將跨度視為圖中的節(jié)點,并利用權(quán)重為置信度的關(guān)系類型以及共指關(guān)系連接這些節(jié)點.動態(tài)跨度圖允許共指關(guān)系和關(guān)系類型在圖上進行傳播,以迭代地更新跨度的表示,將實體識別任務(wù)轉(zhuǎn)換為跨度的分類任務(wù),將關(guān)系抽取任務(wù)轉(zhuǎn)換為跨度對的分類任務(wù).

~~b)DyGIE++[34]:在DyGIE的基礎(chǔ)上,添加了預(yù)訓(xùn)練模型BERT用于詞向量的編碼,并引入了跨度信息,用于增強Bert模型輸出的上下文信息表示.~~

c)SpERT[35]:模型采用分類的思想處理關(guān)系三元組抽取問題,實體識別和關(guān)系抽取均為分類模型.在進行實體識別時,融入了跨度內(nèi)信息,豐富跨度的表示.進行關(guān)系抽取時,融入了跨度間信息,豐富跨度對的表示.

d)PURE:采用管道式抽取的方式進行關(guān)系三元組的抽取,實體識別任務(wù)使用標(biāo)準(zhǔn)跨度表示處理,關(guān)系抽取任務(wù)采用實體標(biāo)記的方式,引入實體類型信息用于跨度對的關(guān)系抽取.

e)PFN:設(shè)計了一個分區(qū)過濾網(wǎng)絡(luò),分離出用于命名實體識別的特征信息和用于關(guān)系抽取的特征信息,最后利用表格填充的方式,分別抽取實體跨度和跨度對之間的關(guān)系.

3.4 模型對比實驗分析

表2為本文所提出的MELEM模型和其他基線模型在SCIERC和SKE數(shù)據(jù)集中的測試集上的評估結(jié)果,每個運行結(jié)果都是經(jīng)過3次運行后得到的平均值,可以看出,MELEM模型在兩個數(shù)據(jù)集上的表現(xiàn)突出,絕大多數(shù)指標(biāo)都達到了最優(yōu).

~~表2 不同的模型在SCIERC和SKE測試集上的結(jié)果Table 2 Results of different models on SCIERC and SKE test sets~~

在命名實體識別任務(wù)上,MELEM分別在SCIERC和SKE數(shù)據(jù)集上取得了69.2%和82.6%的F1分?jǐn)?shù),對比于最優(yōu)基線模型,提升了0.4%和3.3%.對比模型提高程度,在SCIERC數(shù)據(jù)集上提升效果較低的原因為SCIERC上的性能已經(jīng)趨于飽和,該數(shù)據(jù)集僅含有兩千多條數(shù)據(jù)和6種實體類型,數(shù)據(jù)集較小,模型改進的空間十分有限.對比其他基線模型,SpERT模型雖然融入了跨度內(nèi)信息,豐富了實體的信息,但是實體跨度識別和實體類型識別的特征信息依舊會存在互相干擾的問題.PURE模型采用的是標(biāo)準(zhǔn)跨度模型,并未使用跨度內(nèi)信息,僅僅使用了頭尾詞元向量和跨度長度向量.PFN模型雖然使用了分區(qū)過濾網(wǎng)絡(luò),分離了實體識別和關(guān)系抽取相關(guān)的特征信息,但是對于實體識別而言,僅僅只是使用了頭尾詞元向量,忽略了其他重要的跨度表示信息,如跨度內(nèi)詞元、跨度長度和實體類型等.而本文所提出的MELEM模型,在前人的基礎(chǔ)上,豐富了跨度的表示,將實體類型信息也用于進行跨度表示.其次受到實體識別與關(guān)系抽取的特征信息存在相互干擾的啟發(fā),本文將其思想用于實體識別任務(wù)當(dāng)中,設(shè)計了多任務(wù)式的實體識別模塊,利用不同的特征信息,分別進行實體跨度識別和實體類型分類,由實驗結(jié)果可知,本文所設(shè)計的方案是有效的.

在關(guān)系抽取任務(wù)上,MELEM分別在SCIERC和SKE數(shù)據(jù)集上取得了51.3%和75.9%的F1得分,對比于最優(yōu)基線模型,提升了2.2%和1.5%.在關(guān)系抽取模塊上,本文提出了一種全新的實體遮掩方法,發(fā)現(xiàn)了實體提及詞會對實體之間的關(guān)系抽取產(chǎn)生負(fù)面影響,同時也借鑒了PURE模型提出的實體標(biāo)記方法,將實體類型信息用于關(guān)系抽取任務(wù)當(dāng)中.實驗結(jié)果表明,MELEM比其他模型能更有效地處理關(guān)系三元組抽取任務(wù).

3.5 消融實驗分析

~~3.5.1 實體識別模塊~~

針對命名實體識別模塊上的改進點,在SCIERC和SKE兩個數(shù)據(jù)集上分別進行消融實驗,驗證各個模塊的有效性,實驗結(jié)果如表3所示.對于去除分層架構(gòu),改為只是用標(biāo)準(zhǔn)跨度模型進行實體識別,F1值分別下降了0.4%和3.3%,這表明實體跨度識別和實體類型分類兩個任務(wù)之間會互相干擾,使用相同的特征信息進行實體跨度識別和實體類型分類會導(dǎo)致效果下降.去除Bi-LSTM層,不進行跨度序列信息的融合,F1值分別下降了0.6%和1.6%,去除實體類別融合,改為使用頭尾詞元信息進行實體類型的多分類,F1值分別下降了0.2%和0.5%,這表明跨度序列信息,實體類型信息都能有效的提升命名實體識別的性能,對命名實體識別的特征表示有一定影響.

~~表3 兩個數(shù)據(jù)集上的實體識別模塊消融實驗Table 3 Ablation experiment of entity recognition module on two datasets~~

為進一步驗證MTLEM實體識別模塊的有效性,本文分析了在不同實體長度下的消融實驗數(shù)據(jù)結(jié)果.如圖4所示,本文將實體分為3種類型,分別是1～3個詞匯的短實體,4～6個詞匯的中實體和7個詞匯及以上的長實體.經(jīng)過數(shù)據(jù)分析發(fā)現(xiàn),相較于未采用分層架構(gòu)的標(biāo)準(zhǔn)跨度模型,其余3種分層架構(gòu)的模型在短實體上并沒有顯著的優(yōu)勢,但是在中實體和長實體上的優(yōu)勢逐漸明顯,這也驗證了在短實體中跨度內(nèi)信息的重要性并不明顯,在只有1個詞匯和2個詞匯的實體中跨度內(nèi)信息可以完全被頭尾實體信息所替代.同時短實體識別任務(wù)中,實體跨度識別和實體類型分類兩個任務(wù)之間的特征信息也高度重合,但隨著實體跨度長度的增加,兩個子任務(wù)之間的干擾也逐漸增強.在長實體識別任務(wù)中,MTLEM相較于標(biāo)準(zhǔn)跨度模型,F1值提升了6.61%.對于跨度序列信息的使用,使得MTLEM模型在相對于去除Bi-LSTM層的情況下在3種類型的實體抽取任務(wù)中,F1值分別提升了01%,4.28%和1.84%.這也表明融入了跨度序列信息,對于短實體而言,跨度間信息不突出,效果不明顯,而對于中長實體而言,效果很突出.對于實體類別信息的使用,在中長實體上的效果也更加突出,ETLEM模型相對于去除實體類別融合的情況下在中長實體抽取任務(wù)中,F1值分別提升了1.3%和0.37%.以上結(jié)果充分表明了本文提出的ETLEM模型在長文本命名實體識別任務(wù)上的有效性.

~~圖4 SCIERC數(shù)據(jù)集上不同實體長度下命名實體識別的結(jié)果Fig.4 Results of named entity recognition under different entity lengths on SCIERC datasets~~

~~3.5.2 關(guān)系抽取模塊~~

為了驗證關(guān)系抽取模塊中實體遮掩方法的有效性,在SCIERC和SKE兩個數(shù)據(jù)集上進行消融實驗,分別去掉頭尾實體的實體標(biāo)記只使用實體類型替代實體提及詞和只進行頭尾實體的實體標(biāo)記不進行實體提及詞的替換,實驗結(jié)果如表4所示.從實驗結(jié)果中可以觀察到,僅進行實體提及詞替換和僅進行實體標(biāo)記,模型的3項指標(biāo)都存在一定程度的下降.在去掉模型的實體標(biāo)記,F1值分別下降了0.8%和1.7%,原因在于頭尾實體標(biāo)記會強調(diào)實體在句子中的重要性,從而捕獲到更豐富的特征信息.而不進行模型的實體提及詞替換,F1值分別下降了1.0%和2.3%,這種處理方式在進行關(guān)系抽取時,既沒有消除實體提及詞對于關(guān)系語義表示的負(fù)面影響,也沒有利用到實體類型的信息.結(jié)果表明,使用結(jié)合了實體標(biāo)記和實體提及詞替換的實體遮掩方法能夠有效提高關(guān)系抽取任務(wù)的性能.

~~表4 兩個數(shù)據(jù)集上的關(guān)系抽取模塊消融實驗Table 4 Ablation experiment of relational extraction module on two datasets~~

4 結(jié) 語

本文提出了一種融合多任務(wù)學(xué)習(xí)和實體遮掩的關(guān)系三元組抽取模型,與以往的研究不同,該模型將命名實體識別任務(wù)拆解為實體跨度識別和實體類型分類兩個子任務(wù),分別使用不同的特征表示進行處理,有效的消除了實體跨度識別和實體類型分類兩個子任務(wù)之間存在的干擾問題,同時使用實體遮掩的方法處理關(guān)系抽取任務(wù),利用實體類型替代實體提及詞,并且在其頭尾插入實體標(biāo)記,不僅突出了實體在上下文中的重要性還消除了實體提及詞對關(guān)系抽取任務(wù)的干擾.通過與已有模型的實驗結(jié)果進行比較,本文所提出的模型在兩個關(guān)系三元組抽取數(shù)據(jù)集上都取得了最好的性能,證明了此模型的有效性.

在未來,本文將此模型用于關(guān)系三元組抽取的方法,嘗試應(yīng)用于其他的信息抽取任務(wù)中,如事件抽取,文檔級關(guān)系抽取.同時將深入研究關(guān)系抽取任務(wù)中的特征表示問題,尋找更有效的特征融合與分離的方法,進一步提高三元組抽取任務(wù)的性能.

猜你喜歡

信息模型

一半模型
童話王國·奇妙邏輯推理(2024年5期)2024-06-19 16:03:38
重要模型『一線三等角』
中學(xué)生數(shù)理化·七年級數(shù)學(xué)人教版(2020年10期)2020-11-26 08:24:50
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
數(shù)學(xué)物理學(xué)報(2020年2期)2020-06-02 11:29:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
光學(xué)精密工程(2016年6期)2016-11-07 09:07:19
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
核科學(xué)與工程(2015年4期)2015-09-26 11:59:03
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應(yīng)用
中學(xué)數(shù)學(xué)雜志(初中版)(2006年1期)2006-12-29 00:00:00
信息
建筑創(chuàng)作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32

小型微型計算機系統(tǒng)2024年4期

小型微型計算機系統(tǒng)的其它文章
本刊檢索與收錄
第39屆中國計算機應(yīng)用大會(CCF NCCA2024)征稿通知
關(guān)于第39次全國計算機安全學(xué)術(shù)交流會征文的通知
征稿簡則
部分連接寬帶毫米波全雙工MIMO系統(tǒng)混合波束成形設(shè)計
RISC-V特權(quán)架構(gòu)配置的硬件實現(xiàn)影響研究

雜志排行

1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現(xiàn)代工業(yè)經(jīng)濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業(yè)微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業(yè)管理與科技》2024年6期
9《現(xiàn)代食品》2024年4期
10《衛(wèi)生職業(yè)教育》2024年10期