999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的金礦地質(zhì)實(shí)體關(guān)系抽取模型研究

2021-07-15 07:22:50黃徐勝朱月琴付立軍劉雨江唐珂珂李
關(guān)鍵詞:監(jiān)督方法模型

黃徐勝朱月琴付立軍劉雨江唐珂珂李 金

1.中國(guó)科學(xué)院大學(xué),北京 100049;2.中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所,遼寧 沈陽(yáng) 110168;3.自然資源部地質(zhì)信息工程技術(shù)創(chuàng)新中心,北京 100037;4.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;5.山東大學(xué)大數(shù)據(jù)技術(shù)與認(rèn)知智能實(shí)驗(yàn)室,山東 濟(jì)南 250100

0 引言

地質(zhì)文獻(xiàn)是地質(zhì)科研成果的規(guī)范化記錄和表現(xiàn)形式,是探索研究地球科學(xué)的成果結(jié)晶和研究基礎(chǔ)。隨著新一代信息技術(shù)的研發(fā)及應(yīng)用,各個(gè)部門(mén)積累了大量的地質(zhì)文獻(xiàn)數(shù)據(jù)。據(jù)統(tǒng)計(jì),目前中國(guó)地質(zhì)文獻(xiàn)中心積累的地質(zhì)文獻(xiàn)數(shù)據(jù)約為9041萬(wàn)條,總量達(dá)102 T,屬于典型的地質(zhì)大數(shù)據(jù)(譚永杰等,2017;陳建平等,2017)。因此如何快速、有效地分析、挖掘這些海量的文獻(xiàn)數(shù)據(jù),發(fā)現(xiàn)潛在的地質(zhì)知識(shí)價(jià)值,實(shí)現(xiàn)地質(zhì)數(shù)據(jù)的“增值”,是地質(zhì)信息化工作所面臨的一項(xiàng)重要挑戰(zhàn)。而基于地質(zhì)文獻(xiàn)的實(shí)體關(guān)系抽取研究的目的就是準(zhǔn)確、高效識(shí)別并抽取出地質(zhì)文獻(xiàn)中的實(shí)體以及之間的關(guān)系,建立起實(shí)體間的知識(shí)體系結(jié)構(gòu),以便于人們快速發(fā)現(xiàn)和理解知識(shí)點(diǎn)之間的關(guān)聯(lián)脈絡(luò),目前這已經(jīng)成為地質(zhì)大數(shù)據(jù)的一項(xiàng)研究熱點(diǎn)。

金礦地質(zhì)文獻(xiàn)中蘊(yùn)含了大量的金礦相關(guān)實(shí)體以及金礦地質(zhì)實(shí)體之間的關(guān)聯(lián)關(guān)系(薛玉山等,2020;張兵強(qiáng)等,2020;張康等,2020;汪青松等,2021),識(shí)別金礦實(shí)體及實(shí)體間的關(guān)系對(duì)于進(jìn)一步挖掘金礦地質(zhì)文獻(xiàn)知識(shí)、提升金礦地質(zhì)文獻(xiàn)數(shù)據(jù)的分析挖掘以及促進(jìn)金礦的進(jìn)一步開(kāi)采利用等方面有著積極而深遠(yuǎn)的意義。文中論述了一套基于遠(yuǎn)程監(jiān)督關(guān)系的金礦地質(zhì)實(shí)體關(guān)系抽取模型構(gòu)建方法,嘗試通過(guò)少量標(biāo)注樣本建立地質(zhì)實(shí)體的關(guān)聯(lián)關(guān)系的智能抽取方法,從而達(dá)到對(duì)金礦文獻(xiàn)的快速分析挖掘及潛在知識(shí)發(fā)現(xiàn)的目的。

1 金礦地質(zhì)實(shí)體關(guān)系抽取研究現(xiàn)狀

關(guān)系抽取是信息抽取的核心內(nèi)容,旨在提取文本中實(shí)體對(duì)的關(guān)系。在有監(jiān)督關(guān)系抽取中,通常把關(guān)系抽取當(dāng)作關(guān)系分類(lèi)的問(wèn)題來(lái)處理,但是模型經(jīng)常面臨缺乏訓(xùn)練標(biāo)注數(shù)據(jù)的情況。為解決這個(gè)問(wèn)題,Mintz et al.(2009)首次提出遠(yuǎn)程監(jiān)督思想,使用知識(shí)庫(kù)對(duì)齊目標(biāo)文本的方法,構(gòu)造遠(yuǎn)程監(jiān)督數(shù)據(jù)集。Riedel et al.(2010)在此基礎(chǔ)上提出 “至少一次 (at-least-once assumption)” 假設(shè),把遠(yuǎn)程監(jiān)督關(guān)系抽取看作多實(shí)例學(xué)習(xí)(MIL)問(wèn)題,把所有包含該實(shí)體對(duì)的句子整合成句袋,基于句袋進(jìn)行分類(lèi)。Hoffmann et al.(2010)提出多實(shí)例結(jié)合多標(biāo)簽的方法緩解錯(cuò)誤標(biāo)注問(wèn)題。Zeng et al.(2015)在遠(yuǎn)程監(jiān)督方法中使用CNN(convolutional neural networks)模型,提出了Piecewise CNN(PCNN)模型,采用max pooling的方法,保留細(xì)粒度的信息。在PCNN的基礎(chǔ)上, Lin et al.(2016)融合注意力機(jī)制,對(duì)句袋中的每一個(gè)句子分配權(quán)重,權(quán)重的大小決定了該句在句袋中的比重,有效地緩解了數(shù)據(jù)集中的噪聲問(wèn)題。Feng et al.(2018)提出了強(qiáng)化學(xué)習(xí)的方式,該模型的實(shí)例選擇器用于減輕噪聲,使得模型更有效地訓(xùn)練數(shù)據(jù),然后進(jìn)行關(guān)系分類(lèi)訓(xùn)練。蔡強(qiáng)等(2018)融合句子層次的注意力機(jī)制和詞語(yǔ)層次的注意力機(jī)制提出多尺度注意力機(jī)制的方法,準(zhǔn)確率在NYT-Freebase(NYT)數(shù)據(jù)集上達(dá)到了78%。

除了淺層模型之外,Huang and Wang(2017)、蔡強(qiáng)等(2019)提出一種基于深度殘差神經(jīng)網(wǎng)絡(luò)的抽取方法,該方法利用殘差神經(jīng)網(wǎng)絡(luò)獲取特征。唐朝等 (2020)在殘差網(wǎng)絡(luò)的基礎(chǔ)上,融合BiGRU模型,在公開(kāi)的數(shù)據(jù)集NYT上進(jìn)行關(guān)系抽取,準(zhǔn)確率比殘差網(wǎng)絡(luò)提升了2.9%。Bing et al.(2019)、錢(qián)小梅等(2020)采用DenseNet神經(jīng)網(wǎng)絡(luò)的抽取方法加深網(wǎng)絡(luò),解決神經(jīng)網(wǎng)絡(luò)中梯度消失的情況。

近年來(lái),預(yù)訓(xùn)練模型成為關(guān)注的焦點(diǎn)。BERT(Jacob et al.,2019)是google提出的基于雙向Transformer(Vaswani et al.,2017)的網(wǎng)絡(luò)模型,該模型被證明能夠有效地應(yīng)用在大部分的自然語(yǔ)言處理任務(wù)中。Soares et al.(2019)提出了一個(gè)利用預(yù)先訓(xùn)練的BERT語(yǔ)言模型結(jié)合目標(biāo)實(shí)體的信息來(lái)處理關(guān)系分類(lèi)任務(wù)的模型。Alt et al.(2019)提出將Generative Pre-trained Transformer(GPT)模型應(yīng)用在遠(yuǎn)程監(jiān)督關(guān)系抽取中,該模型被證明可以有效地捕獲文本的語(yǔ)義和語(yǔ)法特征。上述模型做出了很大的貢獻(xiàn),但是存在以下問(wèn)題:①?zèng)]有解決關(guān)系方向問(wèn)題;②沒(méi)有學(xué)習(xí)復(fù)雜的數(shù)據(jù)特征。

由于地質(zhì)實(shí)體間關(guān)系復(fù)雜、類(lèi)型多,采用智能建模方法實(shí)現(xiàn)地質(zhì)實(shí)體的關(guān)系自動(dòng)識(shí)別難度大。因此目前基于地質(zhì)文本信息的抽取研究主要集中在地質(zhì)實(shí)體的抽取及可視化表達(dá)等方面,如:Zhu et al.(2017)提出的地質(zhì)知識(shí)圖譜構(gòu)建框架及探索;張雪英等(2018)采用DBN模型實(shí)現(xiàn)了對(duì)地質(zhì)實(shí)體信息的初步識(shí)別;而地質(zhì)實(shí)體間關(guān)系抽取還停留在初步探索階段,如:朱月琴等(2017)在地質(zhì)數(shù)據(jù)語(yǔ)義模型中提出地質(zhì)文本表達(dá)中的6種地質(zhì)語(yǔ)義關(guān)系;呂鵬飛等(2017)采用統(tǒng)計(jì)語(yǔ)言模型和基于規(guī)則的方式提取三元組集合等。因此文章在前期研究的基礎(chǔ)上,構(gòu)建了基于遠(yuǎn)程監(jiān)督的金礦地質(zhì)實(shí)體關(guān)系抽取模型,并通過(guò)金礦地質(zhì)文獻(xiàn)的少量人工標(biāo)注,探索并實(shí)現(xiàn)了金礦地質(zhì)實(shí)體關(guān)系的智能化抽取。

2 遠(yuǎn)程監(jiān)督關(guān)系抽取

關(guān)系抽取是知識(shí)圖譜補(bǔ)全的重要環(huán)節(jié),在自然語(yǔ)言處理領(lǐng)域具有重要的地位,如智能問(wèn)答(Yih et al.,2015)、語(yǔ)義搜索(朱月琴等,2017)等。使用有監(jiān)督的方法進(jìn)行關(guān)系抽取需要大量的語(yǔ)料,這些語(yǔ)料完全依賴(lài)于人工的標(biāo)注。然而,人工標(biāo)注的方法只能構(gòu)建少量的數(shù)據(jù)集。同時(shí)針對(duì)特殊領(lǐng)域的關(guān)系抽取,由于對(duì)標(biāo)注人員的專(zhuān)業(yè)知識(shí)有一定要求,因此標(biāo)注進(jìn)展非常緩慢。遠(yuǎn)程監(jiān)督的關(guān)系抽取方法(Mintz et al.,2009)可以使用金礦知識(shí)庫(kù)與金礦地質(zhì)文獻(xiàn)對(duì)齊的方法自動(dòng)標(biāo)注數(shù)據(jù)集。該方法做出如下假設(shè):“如果金礦地質(zhì)文獻(xiàn)中的兩個(gè)實(shí)體在對(duì)應(yīng)的金礦知識(shí)庫(kù)中存在著某種關(guān)系,則認(rèn)為兩個(gè)金礦實(shí)體在所有含有這兩個(gè)實(shí)體的句子中都有這樣的關(guān)系”。

如圖1前兩個(gè)句子所示:如果知識(shí)庫(kù)中存在實(shí)體關(guān)系三元組(焦家式金礦、類(lèi)型、破碎帶蝕變巖型金礦),那么包含“焦家式金礦”和“破碎帶蝕變巖型金礦”這個(gè)實(shí)體對(duì)的所有句子都會(huì)存在“類(lèi)型”關(guān)系。該方法解決了缺乏地質(zhì)領(lǐng)域數(shù)據(jù)集的問(wèn)題。然而,使用遠(yuǎn)程監(jiān)督關(guān)系抽取模型時(shí),存在以下缺點(diǎn)。

(1)遠(yuǎn)程監(jiān)督的假設(shè)過(guò)強(qiáng),會(huì)存在標(biāo)注錯(cuò)誤的問(wèn)題。如圖1第三句所示:句子中存在“焦家式金礦”和“破碎帶蝕變巖型金礦”實(shí)體對(duì),“破碎帶蝕變巖型金礦”并不是“焦家式金礦”的“類(lèi)型”,但是仍然會(huì)以“類(lèi)型”的關(guān)系存在于數(shù)據(jù)庫(kù)中。這種啟發(fā)式對(duì)齊知識(shí)庫(kù)的方法,使得數(shù)據(jù)集存在錯(cuò)誤標(biāo)簽問(wèn)題。

圖1 遠(yuǎn)程監(jiān)督框架結(jié)構(gòu)Fig.1 Framework of the remote supervision

(2)沒(méi)有解決實(shí)體關(guān)系的方向問(wèn)題。現(xiàn)有的關(guān)系抽取方法把關(guān)系抽取問(wèn)題按照關(guān)系分類(lèi)的方式處理,并不能很好地識(shí)別實(shí)體關(guān)系方向問(wèn)題。除此之外,知識(shí)庫(kù)和文本中的實(shí)體關(guān)系順序存在不一致的可能。

(3)識(shí)別關(guān)系類(lèi)別的難易程度不同。現(xiàn)有模型在訓(xùn)練過(guò)程中無(wú)法區(qū)分關(guān)系類(lèi)別的易訓(xùn)練程度,導(dǎo)致模型不能有效地訓(xùn)練復(fù)雜的實(shí)體關(guān)系。

3 基于遠(yuǎn)程監(jiān)督的金礦地質(zhì)實(shí)體關(guān)系抽取模型構(gòu)建

根據(jù)金礦地質(zhì)數(shù)據(jù)量大以及文獻(xiàn)標(biāo)注較少等特征,文中引入了遠(yuǎn)程監(jiān)督的思想。針對(duì)金礦地質(zhì)文獻(xiàn)分析角度單一性和復(fù)雜性的數(shù)據(jù)特征,文中定義了金礦地質(zhì)文獻(xiàn)的實(shí)體和關(guān)系的類(lèi)型,提出了結(jié)合地質(zhì)領(lǐng)域特征的關(guān)系抽取模型。如圖2所示,模型一共包括四個(gè)模塊:①金礦地質(zhì)數(shù)據(jù)編碼模塊;②基于BERT的金礦地質(zhì)特征提取模塊;③金礦地質(zhì)分類(lèi)模塊;④金礦地質(zhì)實(shí)體的過(guò)濾模塊。

3.1 金礦地質(zhì)數(shù)據(jù)編碼模塊

對(duì)于遠(yuǎn)程監(jiān)督關(guān)系抽取,Zeng et al.(2015)曾通過(guò)分片卷積神經(jīng)網(wǎng)絡(luò)的方法,獲取句子的結(jié)構(gòu)信息,提高特征提取能力。文中結(jié)合金礦地質(zhì)數(shù)據(jù)集中的知識(shí),采用知識(shí)庫(kù)順序的實(shí)體編碼方法。通過(guò)將一個(gè)無(wú)向關(guān)系分為兩個(gè)有向關(guān)系的方式確定金礦地質(zhì)文獻(xiàn)中的關(guān)系方向。將每個(gè)關(guān)系r∈R(R為關(guān)系集合)分為兩個(gè)關(guān)系類(lèi),即:r(e1,e2)和r(e2,e1),其中e1和e2表示兩個(gè)實(shí)體。在實(shí)體前后加入特殊的標(biāo)簽 “#”和 “$”,“#”表示頭節(jié)點(diǎn)的邊界, “$”表示尾實(shí)體邊界,實(shí)體根據(jù)知識(shí)庫(kù)中的順序進(jìn)行標(biāo)記,如圖2所示。

圖2 遠(yuǎn)程監(jiān)督關(guān)系抽取模型Fig.2 Remotely supervised relation extraction model

3.2 基于BERT的金礦地質(zhì)特征提取模塊

BERT(Devlin et al.,2019) 是google提出的基于雙向Transformer(Vaswani et al.,2017)的網(wǎng)絡(luò)模型,在句子之間用[SEP]作為分隔符號(hào),在每個(gè)序列的開(kāi)始,添加一個(gè)特殊的字符[CLS],用于存儲(chǔ)該序列的語(yǔ)義信息。金礦的實(shí)體關(guān)系分類(lèi)就可以利用[CLS]的輸出進(jìn)行預(yù)測(cè)。

模型的輸入表示由詞嵌入、句子嵌入和位置嵌入構(gòu)成。給定一個(gè)包含頭實(shí)體和尾實(shí)體的句子s,Hj和Hk向量是頭實(shí)體經(jīng)過(guò)BERT模型的狀態(tài)向量,Hl和Hm向量是尾實(shí)體經(jīng)過(guò)BERT模型的狀態(tài)向量。H0向量是[CLS]經(jīng)過(guò)BERT的狀態(tài)向量。經(jīng)過(guò)平均操作、激活函數(shù)以及全連接層,得到最終的頭實(shí)體和尾實(shí)體輸出,如公式1所示:

其中tanh在神經(jīng)網(wǎng)絡(luò)中是激活函數(shù),用于增加神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性程度;Whead表示頭實(shí)體的權(quán)重向量;Wtail表示尾實(shí)體的權(quán)重向量;W0表示[CLS] 的權(quán)重向量;bhead、btail、b0表示頭實(shí)體、尾實(shí)體和[CLS]的偏置參數(shù);i、k表示頭實(shí)體的開(kāi)始位置與結(jié)束位置;m、l表示尾實(shí)體的開(kāi)始位置和結(jié)束位置;Ht表示Hj、Hk這樣的狀態(tài)向量;H′0、Hhead和Htail表示[CLS]、頭實(shí)體、尾實(shí)體經(jīng)過(guò)第一層全連接層得到的向量。

連接H′0、Hhead和Htail經(jīng)過(guò)第二層全連接層得到向量Hfinal,如公式2所示:

其中Wfinal為連接H′0、Hhead和Htail后計(jì)算的權(quán)重;bfinal為連接H′0、Hhead和Htail后計(jì)算的偏置參數(shù);concat是連接H′0、Hhead和Htail的函數(shù)。

3.3 金礦地質(zhì)分類(lèi)模塊

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)是使正確類(lèi)的概率最大化,一般是通過(guò)最小化交叉熵?fù)p失 (cross-entropy loss)來(lái)實(shí)現(xiàn)的,如公式(3)所示:

其中CE表示交叉損失函數(shù);p表示準(zhǔn)確率;y表示是否為真實(shí)的標(biāo)簽。當(dāng)y為真實(shí)的標(biāo)簽的時(shí)候,則進(jìn)行-ln(p)運(yùn)算,否則進(jìn)行-ln(1-p)運(yùn)算。

由于最小化交叉熵?fù)p失函數(shù)不能區(qū)分關(guān)系訓(xùn)練的難易程度,因此通過(guò)引入γ超參數(shù)識(shí)別樣本難易程度(Lin et al.,2017),如公式(4)所示:

其中l(wèi)oss為神經(jīng)網(wǎng)絡(luò)中的損失函數(shù),用于判斷預(yù)測(cè)值與真實(shí)值的差距;α和γ是可以調(diào)整的超參數(shù),α為權(quán)重,介于[0, 1]之間,用于減輕樣本太多對(duì)訓(xùn)練的影響;t為樣本的編號(hào),γ用于對(duì)損失函數(shù)的調(diào)節(jié)。當(dāng)y=1時(shí),pt趨向1,表示容易訓(xùn)練的正樣本,損失函數(shù)的權(quán)重趨向0;當(dāng)y=0時(shí),pt趨向0,表示極難訓(xùn)練的正樣本,對(duì)損失函數(shù)的權(quán)重趨向0。因此通過(guò)該損失函數(shù)可以提取復(fù)雜地質(zhì)實(shí)體之間的特性,從而大大提高了該模型的準(zhǔn)確率。

3.4 金礦地質(zhì)實(shí)體類(lèi)別過(guò)濾

金礦地質(zhì)領(lǐng)域存在豐富的實(shí)體關(guān)系信息。實(shí)體類(lèi)別與實(shí)體類(lèi)別之間存在著某種特有的關(guān)系,現(xiàn)有的模型并沒(méi)有融合這些特征,造成抽取的實(shí)體關(guān)系存在常識(shí)錯(cuò)誤等問(wèn)題,準(zhǔn)確率大大降低。結(jié)合金礦地質(zhì)文獻(xiàn)的特征,構(gòu)建關(guān)系的實(shí)體類(lèi)別過(guò)濾層。假設(shè)T=(E1,E2,…,En),其中T是本體的集合。

如圖3,e1,e2∈E1;e3,e4∈E2;e5,e6∈E3; 其中en代表金礦地質(zhì)實(shí)體,如:黃鐵礦、方鉛礦、石英等。En是實(shí)體所屬的本體,如:化合物、金礦、種類(lèi)等,r表示的是實(shí)體間的關(guān)系,E1與E2之間的關(guān)系是r1(E1,E2),E2和E3之間不存在關(guān)系,E1與E3之間的關(guān)系是r2(E1,E3)。當(dāng)抽取的結(jié)果是r1(e1,e3),滿(mǎn)足E1與E2之間的關(guān)系,設(shè)為可信。如果抽取結(jié)果為r2(e3,e5)時(shí),其本體E2與E3沒(méi)有關(guān)系,則將關(guān)系可信度設(shè)為0。當(dāng)抽取的結(jié)果是r2(e1,e3),而E1與E2之間并沒(méi)有這種關(guān)系,則將r2(e1,e3)可信度設(shè)為0,并在候選關(guān)系中,選擇合適的關(guān)系。

圖3 本體關(guān)系圖Fig.3 Ontology diagram

4 模型的驗(yàn)證與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

首先,在Riedel et al.(2010)數(shù)據(jù)集上評(píng)價(jià)文中建立的關(guān)系抽取模型。該NYT數(shù)據(jù)集由知識(shí)庫(kù)Freebase和紐約時(shí)報(bào)語(yǔ)料庫(kù)啟發(fā)式對(duì)齊的方法構(gòu)成,是遠(yuǎn)程監(jiān)督領(lǐng)域標(biāo)桿型的數(shù)據(jù)集。

同時(shí),在地質(zhì)領(lǐng)域數(shù)據(jù)集上進(jìn)行模型檢驗(yàn)。該數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng),選用2000至2015年28740篇與金礦相關(guān)的學(xué)術(shù)論文。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,將人工標(biāo)注的4021個(gè)金礦地質(zhì)三元組與文獻(xiàn)對(duì)齊,形成290489條數(shù)據(jù)集。從中挑選50970條有效數(shù)據(jù),33761條用于模型的訓(xùn)練,17209條用于模型測(cè)試。文中概括歸納以金礦礦區(qū)、礦床、礦段和礦體為例的金礦地質(zhì)實(shí)體一級(jí)關(guān)系為控礦因素、找礦標(biāo)志以及屬性特征等。其具體實(shí)體及關(guān)系見(jiàn)圖4所示。

圖4 實(shí)體關(guān)系類(lèi)別Fig.4 Categories of entity relation

4.2 實(shí)驗(yàn)過(guò)程與結(jié)果分析

文中將Lin et al.(2016)提出的PCNN+ATT(Piecewise CNN+attention)模型、Huang and Wang(2017)提出的殘差神經(jīng)網(wǎng)絡(luò)(ResNet)模型和Gao et al.(2017)提出的全連接神經(jīng)網(wǎng)絡(luò)(DenseNet)等模型作為基線(xiàn)模型,并對(duì)文章模型與基線(xiàn)模型的抽取效果展開(kāi)了詳細(xì)的解析。

(1)模型的實(shí)驗(yàn)參數(shù)設(shè)置

在這個(gè)實(shí)驗(yàn)中,文章模型實(shí)驗(yàn)的參數(shù)如表1所示。

表1 實(shí)驗(yàn)參數(shù)Table 1 Experiment parameters

(2)模型的評(píng)價(jià)指標(biāo)

模型的評(píng)價(jià)指標(biāo)與其他遠(yuǎn)程監(jiān)督關(guān)系抽取論文 (Zeng et al.,2015;Lin et al.,2016;蔡強(qiáng)等,2018)指標(biāo)類(lèi)似,文中采用P@N表示概率最大的前N個(gè)金礦地質(zhì)實(shí)體關(guān)系預(yù)測(cè)正確的概率,分子表示預(yù)測(cè)成功的實(shí)體對(duì)的個(gè)數(shù),N需要手動(dòng)設(shè)置,如:N=100,則表示前100個(gè)金礦地質(zhì)實(shí)體對(duì),如公式(5)所示。PR(準(zhǔn)確率-召回率)曲線(xiàn)圖形成的面積可以用來(lái)評(píng)價(jià)模型的整體性能。

(3)金礦地質(zhì)實(shí)體關(guān)系抽取效果

為驗(yàn)證文中模型的關(guān)系抽取效果,分別在地質(zhì)領(lǐng)域數(shù)據(jù)集和NYT通用數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表2和表3。

表2 各種模型在NYT數(shù)據(jù)集上的抽取效果Table 2 Extraction effect of the models in NYT dataset

由表2可知,文中的方法在Top 5000時(shí)平均準(zhǔn)確率達(dá)88.6%,超過(guò)PCNN+ATT模型35.2%。證明該模型能夠一定程度降低數(shù)據(jù)集噪聲,提高關(guān)系抽取的精準(zhǔn)度。其次,文中的模型在Top 300、Top 1000和Top 5000上平均準(zhǔn)確率分別為96.1%、94.4%、88.6%,證明該模型有著更穩(wěn)定的整體表現(xiàn)。綜上所述,該方法在遠(yuǎn)程監(jiān)督的任務(wù)上是可行的,可以用在地質(zhì)領(lǐng)域的關(guān)系抽取中。

由表3可知,金礦地質(zhì)實(shí)體關(guān)系抽取效果的整體趨勢(shì)和NYT數(shù)據(jù)集一致。文中構(gòu)建的模型在該領(lǐng)域數(shù)據(jù)集的關(guān)系抽取效果比NYT數(shù)據(jù)集好。原因是地質(zhì)數(shù)據(jù)標(biāo)簽為12個(gè),相比NYT數(shù)據(jù)集的53個(gè)標(biāo)簽,金礦地質(zhì)實(shí)體關(guān)系分類(lèi)相對(duì)容易。其次,地質(zhì)數(shù)據(jù)的特征更加明顯,特征提取更加方便。PCNN+ATT模型雖然在P@100時(shí),平均準(zhǔn)確率達(dá)到99.0%,但是到了P@300的時(shí)候,平均準(zhǔn)確率急劇下降。相比之下,文章模型表現(xiàn)更加平穩(wěn),在Top 300、Top 1000和Top 5000時(shí)平均準(zhǔn)確率分別為100.0%、98.6%、93.1%。綜上所述,文章模型在有向?qū)嶓w關(guān)系識(shí)別方面表現(xiàn)穩(wěn)定。

表3 各個(gè)方法在地質(zhì)領(lǐng)域數(shù)據(jù)集上的抽取效果Table 3 Extraction effect of the methods in geological dataset

由圖5和圖6可知,文中模型曲線(xiàn)為在NYT數(shù)據(jù)集和地質(zhì)領(lǐng)域數(shù)據(jù)集上的面積分別為0.65和0.75,在保證了準(zhǔn)確率的同時(shí),提升了召回率,因此該模型能夠解決實(shí)體關(guān)系識(shí)別的長(zhǎng)尾問(wèn)題。

圖5 模型在NYT數(shù)據(jù)集上的PR圖Fig.5 PR graph of each model in NYT dataset

圖6 模型在地質(zhì)數(shù)據(jù)集上的PR圖Fig.6 PR graph of each model in geological dataset

使用文中模型對(duì)單篇文獻(xiàn)數(shù)據(jù)(宋春明等,2014)進(jìn)行關(guān)系抽取效果驗(yàn)證,部分抽取結(jié)果如圖7。由圖7可知,模型對(duì)金礦地質(zhì)實(shí)體和關(guān)系進(jìn)行了準(zhǔn)確的判斷。

圖7 文章模型的抽取效果Fig.7 Extraction effect of BERT model

綜上所述,文章的模型能夠解決金礦地質(zhì)實(shí)體關(guān)系抽取問(wèn)題,在地質(zhì)領(lǐng)域的數(shù)據(jù)集上有較高的準(zhǔn)確率,長(zhǎng)尾問(wèn)題得到了解決。因此,該模型適用于金礦地質(zhì)實(shí)體關(guān)系抽取。

5 結(jié)論

文章探討了基于金礦文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取方法。首次將遠(yuǎn)程監(jiān)督關(guān)系抽取的思想引入金礦地質(zhì)文獻(xiàn)中,初步解決了目前由于金礦實(shí)體關(guān)系復(fù)雜、人工標(biāo)注少而造成的金礦實(shí)體關(guān)系智能化抽取程度不高等問(wèn)題;并利用遠(yuǎn)程監(jiān)督的思想,構(gòu)建了批量的金礦地質(zhì)關(guān)系抽取實(shí)驗(yàn)數(shù)據(jù)集;同時(shí)在模型的構(gòu)建及訓(xùn)練過(guò)程中,通過(guò)數(shù)據(jù)編碼、分類(lèi)模塊、實(shí)體過(guò)濾以及限制輸出等方法的改進(jìn),大大提升了金礦相關(guān)實(shí)體關(guān)系的抽取效果,實(shí)現(xiàn)了對(duì)金礦文獻(xiàn)數(shù)據(jù)的實(shí)體關(guān)系抽取實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。

將來(lái)可在進(jìn)一步總結(jié)提煉金礦實(shí)體關(guān)系基礎(chǔ)上,結(jié)合地質(zhì)實(shí)體的背景信息,達(dá)到關(guān)系抽取效果的提升,從而為地質(zhì)實(shí)體的智能識(shí)別、關(guān)系的抽取以及智能找礦等應(yīng)用方面提供理論技術(shù)方法支撐。

猜你喜歡
監(jiān)督方法模型
一半模型
重要模型『一線(xiàn)三等角』
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
監(jiān)督見(jiàn)成效 舊貌換新顏
夯實(shí)監(jiān)督之基
可能是方法不對(duì)
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 九九久久精品国产av片囯产区| 最新无码专区超级碰碰碰| 亚洲 欧美 日韩综合一区| 久久黄色小视频| 欧美爱爱网| 精品撒尿视频一区二区三区| 国产又色又刺激高潮免费看 | 91精品久久久无码中文字幕vr| 色婷婷电影网| 中文字幕资源站| 中文字幕在线不卡视频| 91色在线视频| 国产亚洲第一页| AV片亚洲国产男人的天堂| 九九免费观看全部免费视频| 一级成人a毛片免费播放| 欧美一级99在线观看国产| 亚洲成aⅴ人在线观看| aa级毛片毛片免费观看久| 在线免费亚洲无码视频| 国产成人精品一区二区不卡| 一级毛片在线播放免费观看| 国产精品无码一二三视频| 在线看片免费人成视久网下载| 天堂网亚洲综合在线| 波多野结衣在线se| 青青草综合网| 美女无遮挡免费视频网站| 尤物午夜福利视频| 成人福利在线视频| 中文字幕66页| 亚洲国产理论片在线播放| 亚洲日本一本dvd高清| 亚洲 欧美 日韩综合一区| 亚洲一级无毛片无码在线免费视频 | 欧美亚洲一区二区三区导航 | 高清亚洲欧美在线看| 欧美国产视频| 性视频一区| 色窝窝免费一区二区三区| 国产精品香蕉在线| 亚洲成A人V欧美综合天堂| 久久青草精品一区二区三区| 亚洲天堂在线视频| 亚洲成a人片7777| 国产成人精品综合| 国产成人精品免费视频大全五级| 美女裸体18禁网站| 中文字幕久久精品波多野结| 波多野结衣一区二区三区四区视频| 日韩毛片免费视频| 亚洲一区二区日韩欧美gif| 亚洲经典在线中文字幕| 婷婷亚洲最大| 国产亚洲精品自在久久不卡| 亚洲成人黄色在线| 91无码视频在线观看| 亚洲国产中文欧美在线人成大黄瓜 | 九九九精品视频| 午夜天堂视频| 国产美女在线免费观看| 日韩高清欧美| 欧洲av毛片| 国产黄网永久免费| 色视频久久| 69综合网| 四虎永久在线精品影院| 在线无码九区| 国产亚洲精久久久久久无码AV| 亚洲国产中文精品va在线播放 | 在线观看网站国产| 亚洲中文字幕在线精品一区| 久草视频精品| 国产精品自在在线午夜| 成年看免费观看视频拍拍| 国产女同自拍视频| 91精品国产91久无码网站| 久久久无码人妻精品无码| 精品国产一区二区三区在线观看| 国产成人综合网| jizz在线观看| 无码啪啪精品天堂浪潮av|