面向煤礦領(lǐng)域的文本關(guān)系抽取關(guān)鍵技術(shù)研究

2020-10-09 10:24:29張淑霞龔炳江

電腦知識與技術(shù) 2020年22期

張淑霞龔炳江

摘要：關(guān)系抽取是信息抽取的子任務(wù)，將關(guān)系抽取應(yīng)用到煤礦的規(guī)范、章程等諸多復(fù)雜的文本信息方面，對于煤礦行業(yè)知識圖譜的構(gòu)建等研究有重要的價值。文章將目前基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的關(guān)系抽取等主要技術(shù)的方法和思路進(jìn)行分析，并提出了使用BiLSTM-ATT（雙向長短期記憶網(wǎng)絡(luò)一注意力機(jī)制）模型來實現(xiàn)煤礦行業(yè)文本信息中實體關(guān)系的抽取。該課題可以為從事煤礦行業(yè)的人員和其他領(lǐng)域的研究提供較大的實際意義。

關(guān)鍵詞：煤礦行業(yè);關(guān)系抽取;主要技術(shù);BiLSTM-ATT模型;文本信息

中圖分類號：TP391.1 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2020）22-0187-03

開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

1 背景

近年來，隨著網(wǎng)絡(luò)信息資源的不斷擴(kuò)充，信息數(shù)據(jù)呈現(xiàn)高速增長，在互聯(lián)網(wǎng)中準(zhǔn)確高效地獲取所需要的信息成為當(dāng)下研究的熱點，因此信息抽取技術(shù)得到廣泛關(guān)注。而煤礦行業(yè)本身就存在著諸多煩瑣的規(guī)章、條例、規(guī)范等信息，因此本課題旨在挖掘煤礦領(lǐng)域文本數(shù)據(jù)中的語義關(guān)系，為構(gòu)建知識圖譜、智能問答等能夠快速獲取所需信息的研究提供堅實的基礎(chǔ)。關(guān)系抽取是信息抽取的主要步驟之一，在自然語言處理中有著廣泛的應(yīng)用。

關(guān)系抽取具體來講是指從非結(jié)構(gòu)化的文本數(shù)據(jù)中找出實體之間存在的關(guān)系，并表示為三元組：<實體1，關(guān)系，實體2>。通過關(guān)系抽取，可以找出實體間更多隱藏的關(guān)系，幫助計算機(jī)更好的理解大規(guī)模的文本數(shù)據(jù)信息。本文將對目前已有的關(guān)系抽取技術(shù)進(jìn)行分析對比，并在此基礎(chǔ)上針對煤礦領(lǐng)域的條例、規(guī)范等數(shù)據(jù)，提出實現(xiàn)關(guān)系抽取的解決方法，為構(gòu)建煤礦行業(yè)知識圖譜和實現(xiàn)智能問答提供有效的幫助。

2 關(guān)系抽取的發(fā)展歷程

MUC是美國一個研究委員會資助的信息理解會議，一直致力于信息抽取方法的研究，關(guān)系抽取最早是MUC于1998年的第七次會議上以關(guān)系模板的形式提出的[1]。MUC只召開過七次，之后在1999年，美國的研究院又召開了ACE（自動內(nèi)容抽取）評測會議，ACE針對新聞行業(yè)的實體關(guān)系抽取展開研究，為以后關(guān)系抽取的發(fā)展提供了基礎(chǔ)的語料和關(guān)系類型，在一定程度上推動了關(guān)系抽取技術(shù)的進(jìn)步。近年來，開放域關(guān)系抽取方法在語料獲取方面提供了有效的解決方法，逐漸走進(jìn)研究人員的視野，慢慢受到越來越多的關(guān)注。目前的維基百科、Freebase等大規(guī)模知識庫涉及的領(lǐng)域更廣、關(guān)系類型更多，為研究人員在標(biāo)注語料的獲取方面提供了有效的支持。在當(dāng)今時代，中文在世界上的使用越來越廣泛，對中文實體關(guān)系抽取的研究越來越迫切。

3 關(guān)系抽取技術(shù)的分析比較

本文將中文實體關(guān)系抽取方法按照模型的特點分為規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類分別進(jìn)行分析。

3.1 基于規(guī)則的方法

基于規(guī)則的方法是通過專家對語料的深入分析，列舉出其中存在的各種關(guān)系模板，構(gòu)建出大規(guī)模的關(guān)系模板庫，然后在數(shù)據(jù)集中尋找與模板相似的句子實例，從而獲取實體間的語義關(guān)系。Fukumoto等人根據(jù)謂語動詞來判斷實體之間的關(guān)系，實驗結(jié)果顯示召回率很低，在測試中F指數(shù)只達(dá)到了39.1%[2]。Aone利用語義關(guān)系特征，識別出句子的中心詞和修飾詞之間的關(guān)系，在測試中達(dá)到了75.6%的F指數(shù)，效果是最好的[3]。人工規(guī)則往往是高精度的，可以針對特定領(lǐng)域進(jìn)行定制，具有較好的準(zhǔn)確率。但是通常會出現(xiàn)低召回率，信息缺乏覆蓋率，人工成本高、代價大，設(shè)計過程艱難。

3.2 基于機(jī)器學(xué)習(xí)的方法

基于機(jī)器學(xué)習(xí)的方法中最依賴于標(biāo)注的就是有監(jiān)督的關(guān)系抽取，主要包括特征向量和核函數(shù)兩種方法。特征向量方法速度很快，但因為語義關(guān)系復(fù)雜多樣，再找出更適合的有效特征來提高性能是不太容易的。核函數(shù)的方法是將句子構(gòu)造為結(jié)構(gòu)樹，使用核函數(shù)來計算樹和樹之間的距離，可以綜合利用多種不同方面的特征，但核函數(shù)計算過程復(fù)雜，需要花費大量時間。

最常見的半監(jiān)督方法是自舉方法（ Bootstrapping），在沒有足夠的標(biāo)注語料時，只需要將每種關(guān)系標(biāo)注少量種子實體對，選擇包含種子實體對的相關(guān)句子集合，再從句子中抽取關(guān)系的模式，以此循環(huán)迭代，最終得到關(guān)系數(shù)據(jù)[4]。此方法能自動挖掘句子中的部分詞法特征，適合沒有足夠語料標(biāo)注的關(guān)系抽取場景，但是對種子的質(zhì)量要求高。

無監(jiān)督的抽取方法不需要人工標(biāo)注語料，是通過聚類方法尋找相似度比較接近的實體對，將其歸為一類，再使用合適的詞語來標(biāo)注這種關(guān)系[5]。相比有監(jiān)督和半監(jiān)督的方法有很大的優(yōu)勢;但是聚類閾值確定困難，缺乏必要的語料庫，頻率少的實例抽取率也低，在評價標(biāo)準(zhǔn)上難以量化和統(tǒng)一。

3.3 基于深度學(xué)習(xí)的關(guān)系抽取方法

有監(jiān)督關(guān)系抽取方法雖然抽取效果不錯，但是十分依賴于人工標(biāo)注提供有效特征，而標(biāo)注通常會存在一些誤差，在關(guān)系抽取過程中這些誤差最后可能使得結(jié)果產(chǎn)生很大偏差，達(dá)不到想要的效果。近年來，深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在關(guān)系抽取中受到許多研究者的關(guān)注，不但節(jié)省了人工的工作，并且取得不錯的效果，使用神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)關(guān)系抽取時，可以自動提取特征，不需要有復(fù)雜的設(shè)計過程。卷積網(wǎng)絡(luò)可以通過卷積和池化操作提取句子的重要特征，長短期記憶網(wǎng)絡(luò)是通過記憶句子的上下文，來提取句子的重要特征。

3.4 方法對比總結(jié)

基于規(guī)則的方法精確率較高，但局限性強(qiáng)，數(shù)據(jù)集發(fā)生改變時，原來制定的規(guī)則可能就不能再滿足新的需要，人工再制定規(guī)則是非常困難的;而機(jī)器學(xué)習(xí)的方法不再過度依賴專家對語料庫的詳細(xì)分析，只需要有一定的專業(yè)知識來提取重要的特征，減少了一定的人工工作量;基于深度學(xué)習(xí)的方法其實是機(jī)器學(xué)習(xí)的發(fā)展分支，能夠避免人工特征選擇的步驟，自動提取出隱藏的實體關(guān)系特征，減少特征誤差，效果比機(jī)器學(xué)習(xí)要好。

4 煤礦領(lǐng)域文本關(guān)系抽取實現(xiàn)方案

4.1 方法選擇的原則

傳統(tǒng)的基于規(guī)則的方法實現(xiàn)關(guān)系抽取任務(wù)，需要專家針對語料庫手工編寫規(guī)則，設(shè)計規(guī)則耗時耗力，過程艱難，若規(guī)則設(shè)計得不好，會達(dá)不到預(yù)期的效果，基于機(jī)器學(xué)習(xí)的方法，需要提供標(biāo)注好的語料庫，然后根據(jù)定義好的關(guān)系類型提取特征，但特征的提取需要經(jīng)過復(fù)雜的設(shè)計和驗證，也是非常艱巨的任務(wù)。目前，基于深度學(xué)習(xí)的方法得到廣泛應(yīng)用，構(gòu)造神經(jīng)網(wǎng)絡(luò)模型來自動提取特征，可以有效減少誤差和人工的工作量。本課題選擇使用深度學(xué)習(xí)的BiLSTM-ATT模型來實現(xiàn)關(guān)系抽取任務(wù)。

4.2 BiLSTM-ATT模型結(jié)構(gòu)

該關(guān)系抽取模型主要分為四部分，分別為：詞向量、BiL-STM、注意力機(jī)制和Softmax分類器。詞向量層的作用是把輸入的句子用詞向量來表示，也就是將自然語言的文本轉(zhuǎn)換為計算機(jī)可以理解的向量形式，嵌入到輸入矩陣中;BiLSTM的作用是通過神經(jīng)網(wǎng)絡(luò)抽取實體間的關(guān)系特征;注意力機(jī)制會計算出各個關(guān)系特征最終所占關(guān)系類型的權(quán)重;Softmax分類器會對實體間的關(guān)系類別做出最后的判斷。

4.3 詞向量

詞向量層是把自然語言的文本轉(zhuǎn)化為模型所需的數(shù)字化向量。使用訓(xùn)練工具Word2vec進(jìn)行訓(xùn)練，并采用CBOW詞袋模型，將一個詞的上下文對應(yīng)的詞向量輸入，得到該詞的詞向量。例如一個句子為：“…natural language processmg is an im-portant direction in the field of computer science -”，取上下文大小為6，那么“direction”的前六個和后六個詞的詞向量就作為輸入，“direction”就是需要輸出的詞向量，在詞袋模型中，關(guān)鍵詞前后的詞沒有順序，不需要考慮這些詞之間距離的大小。

4.4 雙向長短期記憶網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）對于很長的文本，不能很好地聯(lián)系上下文，只能記住比較近的信息，比較遠(yuǎn)的信息記憶不到。長短期記憶網(wǎng)絡(luò)（LSTM）通過引入門機(jī)制來決定需要被記住或者需要被丟棄的信息，實質(zhì)上是優(yōu)化過的RNN，可以有效記住長文本的內(nèi)容。

所謂門機(jī)制，即模型中包含三個門：忘記門、輸入門和輸出門，通過公式來計算最終被傳遞的信息。公式中：輸入表示為X，詞向量表示為W，，BiLSTM模型對詞向量的編碼表示為ht。

輸入門用來決定當(dāng)前傳人的信息和上一級傳送的信息哪些需要被傳遞，保留在細(xì)胞狀態(tài)C+中，公式為：

但是單純的LSTM只能單向傳遞信息，不能記住未來時刻的內(nèi)容，在一個句子中，實體間的關(guān)系不僅僅會被前面所影響，還可能會被后面所影響，所以在BiLSTM中使用前向和后向兩個順序來記憶上下文，最后將兩個方向的輸出向量連接起來，可以更有效地利用上下文。

4.5 注意力機(jī)制

注意力機(jī)制的原理就像人在靠視覺感知周圍的事物時，往往不會完完全全的每個點都認(rèn)真看，而是根據(jù)需要觀察特定的部分。在實體對的句子集合中，不同的句子對于分類的貢獻(xiàn)不一樣，使用注意力機(jī)制學(xué)習(xí)實例權(quán)重，可以從諸多復(fù)雜信息中快速注意到對于需求來說更重要的信息，在輸出層融入注意力機(jī)制，能夠更加有效的表征實體間的關(guān)系。輸出向量以Rh表示，注意力層的權(quán)重矩陣由以下公式得出：

4.7 BiLSTM-ATT模型訓(xùn)練過程

首先使用word2vec訓(xùn)練詞向量模型，也就是將文本以計算機(jī)可以理解的向量形式來表示，構(gòu)建初始數(shù)據(jù)集，以詞向量矩陣作為BiLSTM層的輸入，將初始數(shù)據(jù)集分別放入forward cell和backward cell，把兩個方向的輸出向量合并，融合上下文信息，提取句子中的特征，再通過注意力機(jī)制計算出特征的權(quán)重，最后，使用softmax函數(shù)將特征轉(zhuǎn)換為對應(yīng)的關(guān)系類別的概率。

5 結(jié)果分析

5.1 實驗環(huán)境

實驗采用的環(huán)境見表2。

5.2 實驗數(shù)據(jù)

本次研究針對的數(shù)據(jù)是煤易聯(lián)網(wǎng)站中的法規(guī)、標(biāo)準(zhǔn)和規(guī)范，由于條件限制，只選取了2300個句子作為數(shù)據(jù)集進(jìn)行關(guān)系抽取，涉及的實體關(guān)系共有5種：包含、依據(jù)、裝配、禁止、影響。關(guān)系定義見表3。

5.3 實驗結(jié)果

由于條件限制，只選擇了小部分?jǐn)?shù)據(jù)做實驗，將數(shù)據(jù)集中的1840個句子作為訓(xùn)練集，460個句子作為測試集，各類關(guān)系的測試結(jié)果見表4：

由測試結(jié)果可知，“禁止”這類關(guān)系的準(zhǔn)確率最高，“包含”關(guān)系、“依據(jù)”關(guān)系和“裝配”關(guān)系的識別準(zhǔn)確率較高，“影響”這一關(guān)系的識別效果最差，召回率也是最低的。

6 結(jié)束語

本文首先分析了目前的關(guān)系抽取方法的優(yōu)劣，然后提出了使用BiLSTM-ATT模型完成煤礦領(lǐng)域語料的關(guān)系抽取任務(wù)。首先使用word2vec將文本句子轉(zhuǎn)換為詞向量的形式，然后將詞向量輸入到BiLSTM提取關(guān)系特征，最后通過注意力機(jī)制計算特征的權(quán)重，使用分類器對關(guān)系類型做出概率計算。實驗結(jié)果表明，對整體語料庫的抽取效果較好，但是由于條件限制，語料不夠多，對于“影響”關(guān)系類型識別的效果較差，因此，需要在語料庫的獲取和優(yōu)化上繼續(xù)進(jìn)行研究。

參考文獻(xiàn)：

[1]陽小華，張碩望，歐陽純萍.中文關(guān)系抽取技術(shù)研究[J].南華大學(xué)學(xué)報（自然科學(xué)版），2018，32（1）： 66-72.

[2] Fukumoto J，Masui F，Shimohata M，et al.Oki Eletricity In-dustry： Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference（MUC-7），1998.

[3] Aone C，Ramos-Santacruz M.REES：a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4，2000. Seattle， Washington. Morristown， NJ， USA： Associationfor Computational Linguistics， 2000： 76-83.

[4]武文雅，陳鈺楓，徐金安，等.中文實體關(guān)系抽取研究綜述[Jl.計算機(jī)與現(xiàn)代化，2018（8）： 21-27，34.

[5]杜嘉，劉思含，李文浩，等.基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用，2019，9（1）：114-118.

[6]陳鵬，郭劍毅，余正濤，等.融合領(lǐng)域知識短語樹核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[Jl，南京大學(xué)學(xué)報（自然科學(xué)），2015（1）：181-186.

[7]郭喜躍，何婷婷，胡小華，等.基于句法語義特征的中文實體關(guān)系抽取[Jl，中文信息學(xué)報，2014，28（6）：183-189.

[8]朱珊珊，唐慧豐，基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用，2019，9（4）： 96-99.

【通聯(lián)編輯：謝媛媛】

作者簡介：張淑霞（1997-），女，河北衡水人，碩士，主要研究方向為自然語言處理;龔炳江，教授，碩士。

電腦知識與技術(shù)2020年22期

電腦知識與技術(shù)的其它文章: VLOOKUP函數(shù)在財務(wù)辦公中的應(yīng)用探究; 校園網(wǎng)扁平化改造設(shè)計; “互聯(lián)網(wǎng)+”背景下連鎖零售企業(yè)O2O電子商務(wù)體系構(gòu)建策略研究; 基于H5技術(shù)的電腦維修App市場可行性分析; C語言中遞歸的分析及應(yīng)用; 新形勢下的計算機(jī)應(yīng)用技術(shù)創(chuàng)新實踐研究