張淑霞 龔炳江



摘要:關(guān)系抽取是信息抽取的子任務(wù),將關(guān)系抽取應(yīng)用到煤礦的規(guī)范、章程等諸多復(fù)雜的文本信息方面,對于煤礦行業(yè)知識圖譜的構(gòu)建等研究有重要的價值。文章將目前基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的關(guān)系抽取等主要技術(shù)的方法和思路進(jìn)行分析,并提出了使用BiLSTM-ATT(雙向長短期記憶網(wǎng)絡(luò)一注意力機(jī)制)模型來實現(xiàn)煤礦行業(yè)文本信息中實體關(guān)系的抽取。該課題可以為從事煤礦行業(yè)的人員和其他領(lǐng)域的研究提供較大的實際意義。
關(guān)鍵詞:煤礦行業(yè);關(guān)系抽取;主要技術(shù);BiLSTM-ATT模型;文本信息
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)22-0187-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 背景
近年來,隨著網(wǎng)絡(luò)信息資源的不斷擴(kuò)充,信息數(shù)據(jù)呈現(xiàn)高速增長,在互聯(lián)網(wǎng)中準(zhǔn)確高效地獲取所需要的信息成為當(dāng)下研究的熱點,因此信息抽取技術(shù)得到廣泛關(guān)注。而煤礦行業(yè)本身就存在著諸多煩瑣的規(guī)章、條例、規(guī)范等信息,因此本課題旨在挖掘煤礦領(lǐng)域文本數(shù)據(jù)中的語義關(guān)系,為構(gòu)建知識圖譜、智能問答等能夠快速獲取所需信息的研究提供堅實的基礎(chǔ)。關(guān)系抽取是信息抽取的主要步驟之一,在自然語言處理中有著廣泛的應(yīng)用。
關(guān)系抽取具體來講是指從非結(jié)構(gòu)化的文本數(shù)據(jù)中找出實體之間存在的關(guān)系,并表示為三元組:<實體1,關(guān)系,實體2>。通過關(guān)系抽取,可以找出實體間更多隱藏的關(guān)系,幫助計算機(jī)更好的理解大規(guī)模的文本數(shù)據(jù)信息。本文將對目前已有的關(guān)系抽取技術(shù)進(jìn)行分析對比,并在此基礎(chǔ)上針對煤礦領(lǐng)域的條例、規(guī)范等數(shù)據(jù),提出實現(xiàn)關(guān)系抽取的解決方法,為構(gòu)建煤礦行業(yè)知識圖譜和實現(xiàn)智能問答提供有效的幫助。
2 關(guān)系抽取的發(fā)展歷程
MUC是美國一個研究委員會資助的信息理解會議,一直致力于信息抽取方法的研究,關(guān)系抽取最早是MUC于1998年的第七次會議上以關(guān)系模板的形式提出的[1]。MUC只召開過七次,之后在1999年,美國的研究院又召開了ACE(自動內(nèi)容抽取)評測會議,ACE針對新聞行業(yè)的實體關(guān)系抽取展開研究,為以后關(guān)系抽取的發(fā)展提供了基礎(chǔ)的語料和關(guān)系類型,在一定程度上推動了關(guān)系抽取技術(shù)的進(jìn)步。近年來,開放域關(guān)系抽取方法在語料獲取方面提供了有效的解決方法,逐漸走進(jìn)研究人員的視野,慢慢受到越來越多的關(guān)注。目前的維基百科、Freebase等大規(guī)模知識庫涉及的領(lǐng)域更廣、關(guān)系類型更多,為研究人員在標(biāo)注語料的獲取方面提供了有效的支持。在當(dāng)今時代,中文在世界上的使用越來越廣泛,對中文實體關(guān)系抽取的研究越來越迫切。
3 關(guān)系抽取技術(shù)的分析比較
本文將中文實體關(guān)系抽取方法按照模型的特點分為規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類分別進(jìn)行分析。
3.1 基于規(guī)則的方法
基于規(guī)則的方法是通過專家對語料的深入分析,列舉出其中存在的各種關(guān)系模板,構(gòu)建出大規(guī)模的關(guān)系模板庫,然后在數(shù)據(jù)集中尋找與模板相似的句子實例,從而獲取實體間的語義關(guān)系。Fukumoto等人根據(jù)謂語動詞來判斷實體之間的關(guān)系,實驗結(jié)果顯示召回率很低,在測試中F指數(shù)只達(dá)到了39.1%[2]。Aone利用語義關(guān)系特征,識別出句子的中心詞和修飾詞之間的關(guān)系,在測試中達(dá)到了75.6%的F指數(shù),效果是最好的[3]。 人工規(guī)則往往是高精度的,可以針對特定領(lǐng)域進(jìn)行定制,具有較好的準(zhǔn)確率。但是通常會出現(xiàn)低召回率,信息缺乏覆蓋率,人工成本高、代價大,設(shè)計過程艱難。
3.2 基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)的方法中最依賴于標(biāo)注的就是有監(jiān)督的關(guān)系抽取,主要包括特征向量和核函數(shù)兩種方法。特征向量方法速度很快,但因為語義關(guān)系復(fù)雜多樣,再找出更適合的有效特征來提高性能是不太容易的。核函數(shù)的方法是將句子構(gòu)造為結(jié)構(gòu)樹,使用核函數(shù)來計算樹和樹之間的距離,可以綜合利用多種不同方面的特征,但核函數(shù)計算過程復(fù)雜,需要花費大量時間。
最常見的半監(jiān)督方法是自舉方法( Bootstrapping),在沒有足夠的標(biāo)注語料時,只需要將每種關(guān)系標(biāo)注少量種子實體對,選擇包含種子實體對的相關(guān)句子集合,再從句子中抽取關(guān)系的模式,以此循環(huán)迭代,最終得到關(guān)系數(shù)據(jù)[4]。此方法能自動挖掘句子中的部分詞法特征,適合沒有足夠語料標(biāo)注的關(guān)系抽取場景,但是對種子的質(zhì)量要求高。
無監(jiān)督的抽取方法不需要人工標(biāo)注語料,是通過聚類方法尋找相似度比較接近的實體對,將其歸為一類,再使用合適的詞語來標(biāo)注這種關(guān)系[5]。相比有監(jiān)督和半監(jiān)督的方法有很大的優(yōu)勢;但是聚類閾值確定困難,缺乏必要的語料庫,頻率少的實例抽取率也低,在評價標(biāo)準(zhǔn)上難以量化和統(tǒng)一。
3.3 基于深度學(xué)習(xí)的關(guān)系抽取方法
有監(jiān)督關(guān)系抽取方法雖然抽取效果不錯,但是十分依賴于人工標(biāo)注提供有效特征,而標(biāo)注通常會存在一些誤差,在關(guān)系抽取過程中這些誤差最后可能使得結(jié)果產(chǎn)生很大偏差,達(dá)不到想要的效果。近年來,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在關(guān)系抽取中受到許多研究者的關(guān)注,不但節(jié)省了人工的工作,并且取得不錯的效果,使用神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)關(guān)系抽取時,可以自動提取特征,不需要有復(fù)雜的設(shè)計過程。卷積網(wǎng)絡(luò)可以通過卷積和池化操作提取句子的重要特征,長短期記憶網(wǎng)絡(luò)是通過記憶句子的上下文,來提取句子的重要特征。
3.4 方法對比總結(jié)
基于規(guī)則的方法精確率較高,但局限性強(qiáng),數(shù)據(jù)集發(fā)生改變時,原來制定的規(guī)則可能就不能再滿足新的需要,人工再制定規(guī)則是非常困難的;而機(jī)器學(xué)習(xí)的方法不再過度依賴專家對語料庫的詳細(xì)分析,只需要有一定的專業(yè)知識來提取重要的特征,減少了一定的人工工作量;基于深度學(xué)習(xí)的方法其實是機(jī)器學(xué)習(xí)的發(fā)展分支,能夠避免人工特征選擇的步驟,自動提取出隱藏的實體關(guān)系特征,減少特征誤差,效果比機(jī)器學(xué)習(xí)要好。
4 煤礦領(lǐng)域文本關(guān)系抽取實現(xiàn)方案
4.1 方法選擇的原則
傳統(tǒng)的基于規(guī)則的方法實現(xiàn)關(guān)系抽取任務(wù),需要專家針對語料庫手工編寫規(guī)則,設(shè)計規(guī)則耗時耗力,過程艱難,若規(guī)則設(shè)計得不好,會達(dá)不到預(yù)期的效果,基于機(jī)器學(xué)習(xí)的方法,需要提供標(biāo)注好的語料庫,然后根據(jù)定義好的關(guān)系類型提取特征,但特征的提取需要經(jīng)過復(fù)雜的設(shè)計和驗證,也是非常艱巨的任務(wù)。目前,基于深度學(xué)習(xí)的方法得到廣泛應(yīng)用,構(gòu)造神經(jīng)網(wǎng)絡(luò)模型來自動提取特征,可以有效減少誤差和人工的工作量。本課題選擇使用深度學(xué)習(xí)的BiLSTM-ATT模型來實現(xiàn)關(guān)系抽取任務(wù)。
4.2 BiLSTM-ATT模型結(jié)構(gòu)
該關(guān)系抽取模型主要分為四部分,分別為:詞向量、BiL-STM、注意力機(jī)制和Softmax分類器。詞向量層的作用是把輸入的句子用詞向量來表示,也就是將自然語言的文本轉(zhuǎn)換為計算機(jī)可以理解的向量形式,嵌入到輸入矩陣中;BiLSTM的作用是通過神經(jīng)網(wǎng)絡(luò)抽取實體間的關(guān)系特征;注意力機(jī)制會計算出各個關(guān)系特征最終所占關(guān)系類型的權(quán)重;Softmax分類器會對實體間的關(guān)系類別做出最后的判斷。
4.3 詞向量
詞向量層是把自然語言的文本轉(zhuǎn)化為模型所需的數(shù)字化向量。使用訓(xùn)練工具Word2vec進(jìn)行訓(xùn)練,并采用CBOW詞袋模型,將一個詞的上下文對應(yīng)的詞向量輸入,得到該詞的詞向量。例如一個句子為:“…natural language processmg is an im-portant direction in the field of computer science -”,取上下文大小為6,那么“direction”的前六個和后六個詞的詞向量就作為輸入,“direction”就是需要輸出的詞向量,在詞袋模型中,關(guān)鍵詞前后的詞沒有順序,不需要考慮這些詞之間距離的大小。
4.4 雙向長短期記憶網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對于很長的文本,不能很好地聯(lián)系上下文,只能記住比較近的信息,比較遠(yuǎn)的信息記憶不到。長短期記憶網(wǎng)絡(luò)(LSTM)通過引入門機(jī)制來決定需要被記住或者需要被丟棄的信息,實質(zhì)上是優(yōu)化過的RNN,可以有效記住長文本的內(nèi)容。
所謂門機(jī)制,即模型中包含三個門:忘記門、輸入門和輸出門,通過公式來計算最終被傳遞的信息。公式中:輸入表示為X,詞向量表示為W,,BiLSTM模型對詞向量的編碼表示為ht。
輸入門用來決定當(dāng)前傳人的信息和上一級傳送的信息哪些需要被傳遞,保留在細(xì)胞狀態(tài)C+中,公式為:
但是單純的LSTM只能單向傳遞信息,不能記住未來時刻的內(nèi)容,在一個句子中,實體間的關(guān)系不僅僅會被前面所影響,還可能會被后面所影響,所以在BiLSTM中使用前向和后向兩個順序來記憶上下文,最后將兩個方向的輸出向量連接起來,可以更有效地利用上下文。
4.5 注意力機(jī)制
注意力機(jī)制的原理就像人在靠視覺感知周圍的事物時,往往不會完完全全的每個點都認(rèn)真看,而是根據(jù)需要觀察特定的部分。在實體對的句子集合中,不同的句子對于分類的貢獻(xiàn)不一樣,使用注意力機(jī)制學(xué)習(xí)實例權(quán)重,可以從諸多復(fù)雜信息中快速注意到對于需求來說更重要的信息,在輸出層融入注意力機(jī)制,能夠更加有效的表征實體間的關(guān)系。輸出向量以Rh表示,注意力層的權(quán)重矩陣由以下公式得出:
4.7 BiLSTM-ATT模型訓(xùn)練過程
首先使用word2vec訓(xùn)練詞向量模型,也就是將文本以計算機(jī)可以理解的向量形式來表示,構(gòu)建初始數(shù)據(jù)集,以詞向量矩陣作為BiLSTM層的輸入,將初始數(shù)據(jù)集分別放入forward cell和backward cell,把兩個方向的輸出向量合并,融合上下文信息,提取句子中的特征,再通過注意力機(jī)制計算出特征的權(quán)重,最后,使用softmax函數(shù)將特征轉(zhuǎn)換為對應(yīng)的關(guān)系類別的概率。
5 結(jié)果分析
5.1 實驗環(huán)境
實驗采用的環(huán)境見表2。
5.2 實驗數(shù)據(jù)
本次研究針對的數(shù)據(jù)是煤易聯(lián)網(wǎng)站中的法規(guī)、標(biāo)準(zhǔn)和規(guī)范,由于條件限制,只選取了2300個句子作為數(shù)據(jù)集進(jìn)行關(guān)系抽取,涉及的實體關(guān)系共有5種:包含、依據(jù)、裝配、禁止、影響。關(guān)系定義見表3。
5.3 實驗結(jié)果
由于條件限制,只選擇了小部分?jǐn)?shù)據(jù)做實驗,將數(shù)據(jù)集中的1840個句子作為訓(xùn)練集,460個句子作為測試集,各類關(guān)系的測試結(jié)果見表4:
由測試結(jié)果可知,“禁止”這類關(guān)系的準(zhǔn)確率最高,“包含”關(guān)系、“依據(jù)”關(guān)系和“裝配”關(guān)系的識別準(zhǔn)確率較高,“影響”這一關(guān)系的識別效果最差,召回率也是最低的。
6 結(jié)束語
本文首先分析了目前的關(guān)系抽取方法的優(yōu)劣,然后提出了使用BiLSTM-ATT模型完成煤礦領(lǐng)域語料的關(guān)系抽取任務(wù)。首先使用word2vec將文本句子轉(zhuǎn)換為詞向量的形式,然后將詞向量輸入到BiLSTM提取關(guān)系特征,最后通過注意力機(jī)制計算特征的權(quán)重,使用分類器對關(guān)系類型做出概率計算。實驗結(jié)果表明,對整體語料庫的抽取效果較好,但是由于條件限制,語料不夠多,對于“影響”關(guān)系類型識別的效果較差,因此,需要在語料庫的獲取和優(yōu)化上繼續(xù)進(jìn)行研究。
參考文獻(xiàn):
[1]陽小華,張碩望,歐陽純萍.中文關(guān)系抽取技術(shù)研究[J].南華大學(xué)學(xué)報(自然科學(xué)版),2018,32(1): 66-72.
[2] Fukumoto J,Masui F,Shimohata M,et al.Oki Eletricity In-dustry: Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference(MUC-7),1998.
[3] Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4,2000. Seattle, Washington. Morristown, NJ, USA: Associationfor Computational Linguistics, 2000: 76-83.
[4]武文雅,陳鈺楓,徐金安,等.中文實體關(guān)系抽取研究綜述[Jl.計算機(jī)與現(xiàn)代化,2018(8): 21-27,34.
[5]杜嘉,劉思含,李文浩,等.基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用,2019,9(1):114-118.
[6]陳鵬,郭劍毅,余正濤,等.融合領(lǐng)域知識短語樹核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[Jl,南京大學(xué)學(xué)報(自然科學(xué)),2015(1):181-186.
[7]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關(guān)系抽取[Jl,中文信息學(xué)報,2014,28(6):183-189.
[8]朱珊珊,唐慧豐,基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計算機(jī)與應(yīng)用,2019,9(4): 96-99.
【通聯(lián)編輯:謝媛媛】
作者簡介:張淑霞(1997-),女,河北衡水人,碩士,主要研究方向為自然語言處理;龔炳江,教授,碩士。