999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向煤礦領(lǐng)域的文本關(guān)系抽取關(guān)鍵技術(shù)研究

2020-10-09 10:24:29張淑霞龔炳江
電腦知識與技術(shù) 2020年22期

張淑霞 龔炳江

摘要:關(guān)系抽取是信息抽取的子任務(wù),將關(guān)系抽取應(yīng)用到煤礦的規(guī)范、章程等諸多復(fù)雜的文本信息方面,對于煤礦行業(yè)知識圖譜的構(gòu)建等研究有重要的價值。文章將目前基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的關(guān)系抽取等主要技術(shù)的方法和思路進(jìn)行分析,并提出了使用BiLSTM-ATT(雙向長短期記憶網(wǎng)絡(luò)一注意力機(jī)制)模型來實現(xiàn)煤礦行業(yè)文本信息中實體關(guān)系的抽取。該課題可以為從事煤礦行業(yè)的人員和其他領(lǐng)域的研究提供較大的實際意義。

關(guān)鍵詞:煤礦行業(yè);關(guān)系抽取;主要技術(shù);BiLSTM-ATT模型;文本信息

中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2020)22-0187-03

開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

1 背景

近年來,隨著網(wǎng)絡(luò)信息資源的不斷擴(kuò)充,信息數(shù)據(jù)呈現(xiàn)高速增長,在互聯(lián)網(wǎng)中準(zhǔn)確高效地獲取所需要的信息成為當(dāng)下研究的熱點,因此信息抽取技術(shù)得到廣泛關(guān)注。而煤礦行業(yè)本身就存在著諸多煩瑣的規(guī)章、條例、規(guī)范等信息,因此本課題旨在挖掘煤礦領(lǐng)域文本數(shù)據(jù)中的語義關(guān)系,為構(gòu)建知識圖譜、智能問答等能夠快速獲取所需信息的研究提供堅實的基礎(chǔ)。關(guān)系抽取是信息抽取的主要步驟之一,在自然語言處理中有著廣泛的應(yīng)用。

關(guān)系抽取具體來講是指從非結(jié)構(gòu)化的文本數(shù)據(jù)中找出實體之間存在的關(guān)系,并表示為三元組:<實體1,關(guān)系,實體2>。通過關(guān)系抽取,可以找出實體間更多隱藏的關(guān)系,幫助計算機(jī)更好的理解大規(guī)模的文本數(shù)據(jù)信息。本文將對目前已有的關(guān)系抽取技術(shù)進(jìn)行分析對比,并在此基礎(chǔ)上針對煤礦領(lǐng)域的條例、規(guī)范等數(shù)據(jù),提出實現(xiàn)關(guān)系抽取的解決方法,為構(gòu)建煤礦行業(yè)知識圖譜和實現(xiàn)智能問答提供有效的幫助。

2 關(guān)系抽取的發(fā)展歷程

MUC是美國一個研究委員會資助的信息理解會議,一直致力于信息抽取方法的研究,關(guān)系抽取最早是MUC于1998年的第七次會議上以關(guān)系模板的形式提出的[1]。MUC只召開過七次,之后在1999年,美國的研究院又召開了ACE(自動內(nèi)容抽取)評測會議,ACE針對新聞行業(yè)的實體關(guān)系抽取展開研究,為以后關(guān)系抽取的發(fā)展提供了基礎(chǔ)的語料和關(guān)系類型,在一定程度上推動了關(guān)系抽取技術(shù)的進(jìn)步。近年來,開放域關(guān)系抽取方法在語料獲取方面提供了有效的解決方法,逐漸走進(jìn)研究人員的視野,慢慢受到越來越多的關(guān)注。目前的維基百科、Freebase等大規(guī)模知識庫涉及的領(lǐng)域更廣、關(guān)系類型更多,為研究人員在標(biāo)注語料的獲取方面提供了有效的支持。在當(dāng)今時代,中文在世界上的使用越來越廣泛,對中文實體關(guān)系抽取的研究越來越迫切。

3 關(guān)系抽取技術(shù)的分析比較

本文將中文實體關(guān)系抽取方法按照模型的特點分為規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類分別進(jìn)行分析。

3.1 基于規(guī)則的方法

基于規(guī)則的方法是通過專家對語料的深入分析,列舉出其中存在的各種關(guān)系模板,構(gòu)建出大規(guī)模的關(guān)系模板庫,然后在數(shù)據(jù)集中尋找與模板相似的句子實例,從而獲取實體間的語義關(guān)系。Fukumoto等人根據(jù)謂語動詞來判斷實體之間的關(guān)系,實驗結(jié)果顯示召回率很低,在測試中F指數(shù)只達(dá)到了39.1%[2]。Aone利用語義關(guān)系特征,識別出句子的中心詞和修飾詞之間的關(guān)系,在測試中達(dá)到了75.6%的F指數(shù),效果是最好的[3]。 人工規(guī)則往往是高精度的,可以針對特定領(lǐng)域進(jìn)行定制,具有較好的準(zhǔn)確率。但是通常會出現(xiàn)低召回率,信息缺乏覆蓋率,人工成本高、代價大,設(shè)計過程艱難。

3.2 基于機(jī)器學(xué)習(xí)的方法

基于機(jī)器學(xué)習(xí)的方法中最依賴于標(biāo)注的就是有監(jiān)督的關(guān)系抽取,主要包括特征向量和核函數(shù)兩種方法。特征向量方法速度很快,但因為語義關(guān)系復(fù)雜多樣,再找出更適合的有效特征來提高性能是不太容易的。核函數(shù)的方法是將句子構(gòu)造為結(jié)構(gòu)樹,使用核函數(shù)來計算樹和樹之間的距離,可以綜合利用多種不同方面的特征,但核函數(shù)計算過程復(fù)雜,需要花費大量時間。

最常見的半監(jiān)督方法是自舉方法( Bootstrapping),在沒有足夠的標(biāo)注語料時,只需要將每種關(guān)系標(biāo)注少量種子實體對,選擇包含種子實體對的相關(guān)句子集合,再從句子中抽取關(guān)系的模式,以此循環(huán)迭代,最終得到關(guān)系數(shù)據(jù)[4]。此方法能自動挖掘句子中的部分詞法特征,適合沒有足夠語料標(biāo)注的關(guān)系抽取場景,但是對種子的質(zhì)量要求高。

無監(jiān)督的抽取方法不需要人工標(biāo)注語料,是通過聚類方法尋找相似度比較接近的實體對,將其歸為一類,再使用合適的詞語來標(biāo)注這種關(guān)系[5]。相比有監(jiān)督和半監(jiān)督的方法有很大的優(yōu)勢;但是聚類閾值確定困難,缺乏必要的語料庫,頻率少的實例抽取率也低,在評價標(biāo)準(zhǔn)上難以量化和統(tǒng)一。

3.3 基于深度學(xué)習(xí)的關(guān)系抽取方法

有監(jiān)督關(guān)系抽取方法雖然抽取效果不錯,但是十分依賴于人工標(biāo)注提供有效特征,而標(biāo)注通常會存在一些誤差,在關(guān)系抽取過程中這些誤差最后可能使得結(jié)果產(chǎn)生很大偏差,達(dá)不到想要的效果。近年來,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在關(guān)系抽取中受到許多研究者的關(guān)注,不但節(jié)省了人工的工作,并且取得不錯的效果,使用神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)關(guān)系抽取時,可以自動提取特征,不需要有復(fù)雜的設(shè)計過程。卷積網(wǎng)絡(luò)可以通過卷積和池化操作提取句子的重要特征,長短期記憶網(wǎng)絡(luò)是通過記憶句子的上下文,來提取句子的重要特征。

3.4 方法對比總結(jié)

基于規(guī)則的方法精確率較高,但局限性強(qiáng),數(shù)據(jù)集發(fā)生改變時,原來制定的規(guī)則可能就不能再滿足新的需要,人工再制定規(guī)則是非常困難的;而機(jī)器學(xué)習(xí)的方法不再過度依賴專家對語料庫的詳細(xì)分析,只需要有一定的專業(yè)知識來提取重要的特征,減少了一定的人工工作量;基于深度學(xué)習(xí)的方法其實是機(jī)器學(xué)習(xí)的發(fā)展分支,能夠避免人工特征選擇的步驟,自動提取出隱藏的實體關(guān)系特征,減少特征誤差,效果比機(jī)器學(xué)習(xí)要好。

4 煤礦領(lǐng)域文本關(guān)系抽取實現(xiàn)方案

4.1 方法選擇的原則

傳統(tǒng)的基于規(guī)則的方法實現(xiàn)關(guān)系抽取任務(wù),需要專家針對語料庫手工編寫規(guī)則,設(shè)計規(guī)則耗時耗力,過程艱難,若規(guī)則設(shè)計得不好,會達(dá)不到預(yù)期的效果,基于機(jī)器學(xué)習(xí)的方法,需要提供標(biāo)注好的語料庫,然后根據(jù)定義好的關(guān)系類型提取特征,但特征的提取需要經(jīng)過復(fù)雜的設(shè)計和驗證,也是非常艱巨的任務(wù)。目前,基于深度學(xué)習(xí)的方法得到廣泛應(yīng)用,構(gòu)造神經(jīng)網(wǎng)絡(luò)模型來自動提取特征,可以有效減少誤差和人工的工作量。本課題選擇使用深度學(xué)習(xí)的BiLSTM-ATT模型來實現(xiàn)關(guān)系抽取任務(wù)。

4.2 BiLSTM-ATT模型結(jié)構(gòu)

該關(guān)系抽取模型主要分為四部分,分別為:詞向量、BiL-STM、注意力機(jī)制和Softmax分類器。詞向量層的作用是把輸入的句子用詞向量來表示,也就是將自然語言的文本轉(zhuǎn)換為計算機(jī)可以理解的向量形式,嵌入到輸入矩陣中;BiLSTM的作用是通過神經(jīng)網(wǎng)絡(luò)抽取實體間的關(guān)系特征;注意力機(jī)制會計算出各個關(guān)系特征最終所占關(guān)系類型的權(quán)重;Softmax分類器會對實體間的關(guān)系類別做出最后的判斷。

4.3 詞向量

詞向量層是把自然語言的文本轉(zhuǎn)化為模型所需的數(shù)字化向量。使用訓(xùn)練工具Word2vec進(jìn)行訓(xùn)練,并采用CBOW詞袋模型,將一個詞的上下文對應(yīng)的詞向量輸入,得到該詞的詞向量。例如一個句子為:“…natural language processmg is an im-portant direction in the field of computer science -”,取上下文大小為6,那么“direction”的前六個和后六個詞的詞向量就作為輸入,“direction”就是需要輸出的詞向量,在詞袋模型中,關(guān)鍵詞前后的詞沒有順序,不需要考慮這些詞之間距離的大小。

4.4 雙向長短期記憶網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對于很長的文本,不能很好地聯(lián)系上下文,只能記住比較近的信息,比較遠(yuǎn)的信息記憶不到。長短期記憶網(wǎng)絡(luò)(LSTM)通過引入門機(jī)制來決定需要被記住或者需要被丟棄的信息,實質(zhì)上是優(yōu)化過的RNN,可以有效記住長文本的內(nèi)容。

所謂門機(jī)制,即模型中包含三個門:忘記門、輸入門和輸出門,通過公式來計算最終被傳遞的信息。公式中:輸入表示為X,詞向量表示為W,,BiLSTM模型對詞向量的編碼表示為ht。

輸入門用來決定當(dāng)前傳人的信息和上一級傳送的信息哪些需要被傳遞,保留在細(xì)胞狀態(tài)C+中,公式為:

但是單純的LSTM只能單向傳遞信息,不能記住未來時刻的內(nèi)容,在一個句子中,實體間的關(guān)系不僅僅會被前面所影響,還可能會被后面所影響,所以在BiLSTM中使用前向和后向兩個順序來記憶上下文,最后將兩個方向的輸出向量連接起來,可以更有效地利用上下文。

4.5 注意力機(jī)制

注意力機(jī)制的原理就像人在靠視覺感知周圍的事物時,往往不會完完全全的每個點都認(rèn)真看,而是根據(jù)需要觀察特定的部分。在實體對的句子集合中,不同的句子對于分類的貢獻(xiàn)不一樣,使用注意力機(jī)制學(xué)習(xí)實例權(quán)重,可以從諸多復(fù)雜信息中快速注意到對于需求來說更重要的信息,在輸出層融入注意力機(jī)制,能夠更加有效的表征實體間的關(guān)系。輸出向量以Rh表示,注意力層的權(quán)重矩陣由以下公式得出:

4.7 BiLSTM-ATT模型訓(xùn)練過程

首先使用word2vec訓(xùn)練詞向量模型,也就是將文本以計算機(jī)可以理解的向量形式來表示,構(gòu)建初始數(shù)據(jù)集,以詞向量矩陣作為BiLSTM層的輸入,將初始數(shù)據(jù)集分別放入forward cell和backward cell,把兩個方向的輸出向量合并,融合上下文信息,提取句子中的特征,再通過注意力機(jī)制計算出特征的權(quán)重,最后,使用softmax函數(shù)將特征轉(zhuǎn)換為對應(yīng)的關(guān)系類別的概率。

5 結(jié)果分析

5.1 實驗環(huán)境

實驗采用的環(huán)境見表2。

5.2 實驗數(shù)據(jù)

本次研究針對的數(shù)據(jù)是煤易聯(lián)網(wǎng)站中的法規(guī)、標(biāo)準(zhǔn)和規(guī)范,由于條件限制,只選取了2300個句子作為數(shù)據(jù)集進(jìn)行關(guān)系抽取,涉及的實體關(guān)系共有5種:包含、依據(jù)、裝配、禁止、影響。關(guān)系定義見表3。

5.3 實驗結(jié)果

由于條件限制,只選擇了小部分?jǐn)?shù)據(jù)做實驗,將數(shù)據(jù)集中的1840個句子作為訓(xùn)練集,460個句子作為測試集,各類關(guān)系的測試結(jié)果見表4:

由測試結(jié)果可知,“禁止”這類關(guān)系的準(zhǔn)確率最高,“包含”關(guān)系、“依據(jù)”關(guān)系和“裝配”關(guān)系的識別準(zhǔn)確率較高,“影響”這一關(guān)系的識別效果最差,召回率也是最低的。

6 結(jié)束語

本文首先分析了目前的關(guān)系抽取方法的優(yōu)劣,然后提出了使用BiLSTM-ATT模型完成煤礦領(lǐng)域語料的關(guān)系抽取任務(wù)。首先使用word2vec將文本句子轉(zhuǎn)換為詞向量的形式,然后將詞向量輸入到BiLSTM提取關(guān)系特征,最后通過注意力機(jī)制計算特征的權(quán)重,使用分類器對關(guān)系類型做出概率計算。實驗結(jié)果表明,對整體語料庫的抽取效果較好,但是由于條件限制,語料不夠多,對于“影響”關(guān)系類型識別的效果較差,因此,需要在語料庫的獲取和優(yōu)化上繼續(xù)進(jìn)行研究。

參考文獻(xiàn):

[1]陽小華,張碩望,歐陽純萍.中文關(guān)系抽取技術(shù)研究[J].南華大學(xué)學(xué)報(自然科學(xué)版),2018,32(1): 66-72.

[2] Fukumoto J,Masui F,Shimohata M,et al.Oki Eletricity In-dustry: Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference(MUC-7),1998.

[3] Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4,2000. Seattle, Washington. Morristown, NJ, USA: Associationfor Computational Linguistics, 2000: 76-83.

[4]武文雅,陳鈺楓,徐金安,等.中文實體關(guān)系抽取研究綜述[Jl.計算機(jī)與現(xiàn)代化,2018(8): 21-27,34.

[5]杜嘉,劉思含,李文浩,等.基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用,2019,9(1):114-118.

[6]陳鵬,郭劍毅,余正濤,等.融合領(lǐng)域知識短語樹核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[Jl,南京大學(xué)學(xué)報(自然科學(xué)),2015(1):181-186.

[7]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關(guān)系抽取[Jl,中文信息學(xué)報,2014,28(6):183-189.

[8]朱珊珊,唐慧豐,基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用,2019,9(4): 96-99.

【通聯(lián)編輯:謝媛媛】

作者簡介:張淑霞(1997-),女,河北衡水人,碩士,主要研究方向為自然語言處理;龔炳江,教授,碩士。

主站蜘蛛池模板: 一级毛片无毒不卡直接观看| 国产理论精品| 成人午夜亚洲影视在线观看| 一区二区偷拍美女撒尿视频| 亚洲国产精品一区二区第一页免| 蜜臀AVWWW国产天堂| 波多野衣结在线精品二区| 91精品国产麻豆国产自产在线| 婷婷亚洲视频| 中文成人无码国产亚洲| 福利在线一区| 91在线国内在线播放老师| 亚洲热线99精品视频| 亚洲一级毛片免费看| 亚洲AⅤ永久无码精品毛片| 91伊人国产| 欧美特黄一级大黄录像| 蜜桃臀无码内射一区二区三区| 99精品这里只有精品高清视频| 亚洲AⅤ永久无码精品毛片| 日韩少妇激情一区二区| 激情六月丁香婷婷四房播| 97se亚洲| 亚洲国产综合第一精品小说| 国产亚洲日韩av在线| 国产精品永久在线| 一级做a爰片久久免费| 国产精品黑色丝袜的老师| 精品国产香蕉伊思人在线| 国产精品99r8在线观看| 国产极品美女在线| 国产成人精品视频一区视频二区| 亚洲日本精品一区二区| 1024国产在线| 精品国产免费观看| 亚洲一区二区无码视频| 久久久久无码精品| 亚洲成人网在线观看| 色噜噜综合网| 97人人做人人爽香蕉精品| www欧美在线观看| 亚洲天堂成人| 99久久国产综合精品女同 | 欧美精品在线免费| 在线播放精品一区二区啪视频| 成人精品亚洲| 国产本道久久一区二区三区| 丁香六月激情综合| 免费无码AV片在线观看中文| 国产迷奸在线看| 国产国产人免费视频成18| 国产成人综合亚洲网址| 国产精品无码一区二区桃花视频| 亚洲天堂网在线播放| 国产精品伦视频观看免费| 凹凸国产熟女精品视频| 91九色国产在线| 国产亚洲精品自在久久不卡| 国产小视频免费| 久久婷婷六月| 欧美69视频在线| 精品撒尿视频一区二区三区| 国产成人高清精品免费软件 | 午夜福利视频一区| 亚洲国产日韩在线成人蜜芽| 视频在线观看一区二区| 亚洲精品福利视频| 国产成人无码综合亚洲日韩不卡| 伊人色婷婷| 亚洲区一区| 国产农村1级毛片| 好吊日免费视频| 国产三区二区| 国产第一页第二页| 五月天久久综合国产一区二区| 亚洲欧美极品| 久草视频一区| 99re66精品视频在线观看 | 激情六月丁香婷婷| 国产精品久久久久久影院| 精品国产香蕉在线播出| 一区二区欧美日韩高清免费|