










摘要:現(xiàn)有礦山領(lǐng)域知識(shí)圖譜構(gòu)建方法在預(yù)訓(xùn)練階段需要大量人工標(biāo)注的高質(zhì)量監(jiān)督數(shù)據(jù),人力成本高且效率低。大語言模型(LLM)可在少量人工標(biāo)注的高質(zhì)量數(shù)據(jù)下顯著提高信息抽取的質(zhì)量且效率較高,然而LLM 結(jié)合Prompt 的方法會(huì)產(chǎn)生災(zāi)難性遺忘問題。針對(duì)上述問題,將圖結(jié)構(gòu)信息嵌入到Prompt 模板中,提出了圖結(jié)構(gòu)Prompt,通過在LLM 上嵌入圖結(jié)構(gòu)Prompt,實(shí)現(xiàn)基于LLM 的礦山事故知識(shí)圖譜高質(zhì)量構(gòu)建。首先,收集煤礦安全生產(chǎn)網(wǎng)公開的礦山事故報(bào)告并進(jìn)行格式修正、冗余信息剔除等預(yù)處理。其次,利用LLM 挖掘礦山事故報(bào)告文本中蘊(yùn)含的知識(shí),對(duì)礦山事故報(bào)告文本中的實(shí)體及實(shí)體間關(guān)系進(jìn)行K?means 聚類,完成礦山事故本體構(gòu)建。然后,依據(jù)構(gòu)建的本體進(jìn)行少量數(shù)據(jù)標(biāo)注,標(biāo)注數(shù)據(jù)用于LLM 的學(xué)習(xí)與微調(diào)。最后,采用嵌入圖結(jié)構(gòu)Prompt 的LLM 進(jìn)行信息抽取,實(shí)例化實(shí)體關(guān)系三元組,從而構(gòu)建礦山事故知識(shí)圖譜。實(shí)驗(yàn)結(jié)果表明:在實(shí)體抽取和關(guān)系抽取任務(wù)中,LLM 的表現(xiàn)優(yōu)于通用信息抽取(UIE)模型,且嵌入圖結(jié)構(gòu)Prompt 的LLM 在精確率、召回率、F1 值方面均高于未嵌入圖結(jié)構(gòu)Prompt 的LLM。
關(guān)鍵詞:礦山事故;知識(shí)圖譜;大語言模型;圖結(jié)構(gòu)Prompt;本體構(gòu)建;信息抽取
中圖分類號(hào):TD67 文獻(xiàn)標(biāo)志碼:A
0 引言
知識(shí)圖譜是結(jié)構(gòu)化的語義網(wǎng)絡(luò)知識(shí)庫(kù),其以三元組的形式結(jié)構(gòu)化表示客觀世界中存在的概念、實(shí)體及其關(guān)聯(lián)關(guān)系[1]。在礦山領(lǐng)域,大量的事故信息通常以報(bào)告文本的形式存在,結(jié)構(gòu)化程度低,難以實(shí)現(xiàn)事故信息的數(shù)據(jù)挖掘及知識(shí)推理。構(gòu)建礦山事故知識(shí)圖譜可有效整合報(bào)告文本中事故概述、經(jīng)過及原因中離散的實(shí)體及實(shí)體間關(guān)系,將礦山事故中事故地點(diǎn)、類型、原因等關(guān)鍵因素及其之間的關(guān)系以三元組的形式進(jìn)行存儲(chǔ),提高礦山事故信息的結(jié)構(gòu)化程度,從而實(shí)現(xiàn)對(duì)事故信息的數(shù)據(jù)挖掘及知識(shí)推理,為礦山風(fēng)險(xiǎn)識(shí)別與預(yù)防、應(yīng)急響應(yīng)與決策支持、事故分析與原因追溯、事故預(yù)防措施制訂等一系列礦山智能化安全管理系統(tǒng)建設(shè)提供數(shù)據(jù)支撐[2]。
在礦山領(lǐng)域知識(shí)圖譜構(gòu)建中,郭曉黎等[3]對(duì)煤礦安全事故的種類及類間關(guān)系進(jìn)行分析,建立了煤礦安全事件本體,為構(gòu)建煤礦安全事件知識(shí)圖譜提供了理論指導(dǎo)。潘理虎等[4]提出了一種基于七步法、METHONTOLOGY 法的本體構(gòu)建方法,采用知識(shí)存儲(chǔ)映射算法將煤礦領(lǐng)域本體映射到Neo4j 圖數(shù)據(jù)庫(kù)中,完成了煤礦領(lǐng)域知識(shí)圖譜的構(gòu)建。李蓓等[5]基于煤礦災(zāi)害事件概念語義分類和煤礦災(zāi)害事件描述屬性,構(gòu)建了煤礦災(zāi)害事件本體,為構(gòu)建煤礦災(zāi)害知識(shí)圖譜提供了理論借鑒。曹現(xiàn)剛等[6]采用預(yù)訓(xùn)練的Lattice?LSTM 模型進(jìn)行實(shí)體識(shí)別,采用基于弱監(jiān)督學(xué)習(xí)的Bootstrapping 方法進(jìn)行關(guān)系抽取,完成了煤礦設(shè)備維護(hù)知識(shí)圖譜的構(gòu)建。王忠強(qiáng)等[7]針對(duì)智慧礦山領(lǐng)域的知識(shí)要素,提出了基于依存句法分析的實(shí)體抽取方法,并根據(jù)語句結(jié)構(gòu)特點(diǎn),設(shè)計(jì)了依存句法樹結(jié)構(gòu),構(gòu)建了智慧礦山知識(shí)圖譜。韓一搏等[8]采用聯(lián)合編碼器將收集到的綜采設(shè)備數(shù)據(jù)轉(zhuǎn)換為向量表示,在解碼時(shí)采用預(yù)訓(xùn)練的Lattice?LSTM 模型,完成了綜采設(shè)備實(shí)體識(shí)別,實(shí)現(xiàn)了煤礦綜采設(shè)備知識(shí)圖譜構(gòu)建。現(xiàn)有礦山領(lǐng)域知識(shí)圖譜構(gòu)建多采用基于預(yù)訓(xùn)練模型的方法,該方法在預(yù)訓(xùn)練階段需要大量人工標(biāo)注的高質(zhì)量監(jiān)督數(shù)據(jù)[9],而標(biāo)注高質(zhì)量的監(jiān)督數(shù)據(jù)需要投入大量人力資源,并且效率較低。
近年來, 大語言模型(Large Language Model,LLM)在自然語言理解、學(xué)習(xí)和表達(dá)上取得重大突破,LLM 可在少量人工標(biāo)注的高質(zhì)量數(shù)據(jù)下顯著提高信息抽取的質(zhì)量且效率較高,廣泛應(yīng)用于各領(lǐng)域的信息抽取任務(wù)[10-12]。M. Agrawal 等[13]證明了LLM在沒有針對(duì)專業(yè)領(lǐng)域進(jìn)行訓(xùn)練的情況下,仍可在零樣本和少樣本的醫(yī)療文本信息抽取任務(wù)中表現(xiàn)良好。S. Wadhwa 等[14]證明了LLM 可高質(zhì)量地完成少樣本新聞信息抽取。馮鈞等[15]證明了LLM 在未針對(duì)水利調(diào)度領(lǐng)域文本進(jìn)行訓(xùn)練的情況下,可在少樣本的調(diào)度文本中實(shí)現(xiàn)高質(zhì)量信息抽取。因此, 將LLM 應(yīng)用于零樣本和少樣本的礦山事故信息抽取任務(wù),從而構(gòu)建礦山事故知識(shí)圖譜是可行的。
隨著LLM 的不斷發(fā)展,Prompt 已經(jīng)成為自然語言處理領(lǐng)域的一種前沿方法,為L(zhǎng)LM 的使用提供了一種更有效和更具成本效益的方法[16]。然而,LLM結(jié)合Prompt 的方法會(huì)產(chǎn)生災(zāi)難性遺忘問題[17],致使模型原始理解上下文能力喪失,難以處理蘊(yùn)含復(fù)雜關(guān)系的信息抽取任務(wù)。圖結(jié)構(gòu)信息可增強(qiáng)模型對(duì)實(shí)體間復(fù)雜關(guān)系的理解能力,提高實(shí)體抽取和關(guān)系抽取的準(zhǔn)確率。Li Lei 等[18]提出了一種基于上下文感知圖結(jié)構(gòu)的圖卷積網(wǎng)絡(luò)來進(jìn)行事件檢測(cè)任務(wù),提高了模型理解語義上下文信息的能力。Zhang Qianjin等[19]將實(shí)體間的隱式圖結(jié)構(gòu)信息融入知識(shí)圖譜嵌入模型,在關(guān)系預(yù)測(cè)任務(wù)上實(shí)現(xiàn)了性能提升,增強(qiáng)了模型對(duì)上下文的理解能力。因此,本文將圖結(jié)構(gòu)信息嵌入到Prompt 模板中,提出了圖結(jié)構(gòu)Prompt,通過在LLM 上嵌入圖結(jié)構(gòu)Prompt,提升礦山事故知識(shí)圖譜的構(gòu)建質(zhì)量。首先,對(duì)收集到的礦山事故報(bào)告進(jìn)行預(yù)處理得到原始語料。其次,按照相關(guān)文件要求,使用LLM 對(duì)礦山事故報(bào)告文本中的事故信息進(jìn)行K?means 聚類分析,挖掘事故信息中的實(shí)體及實(shí)體間關(guān)系,完成事故本體構(gòu)建。然后,將礦山事故報(bào)告文本中蘊(yùn)含的圖結(jié)構(gòu)信息嵌入到Prompt 模板中,進(jìn)行礦山事故實(shí)體及關(guān)系的信息抽取,實(shí)例化實(shí)體關(guān)系三元組。最后,根據(jù)抽取到的實(shí)體關(guān)系三元組構(gòu)建知識(shí)圖譜。
1 基于LLM 的礦山事故知識(shí)圖譜構(gòu)建
本文采用自頂向下的方式構(gòu)建礦山事故知識(shí)圖譜,流程如圖1 所示。知識(shí)圖譜涵蓋模式層和數(shù)據(jù)層[20]。模式層在數(shù)據(jù)層之上,主要通過本體來規(guī)范數(shù)據(jù)層中的一系列事實(shí)表達(dá);數(shù)據(jù)層主要由一系列事實(shí)三元組組成,知識(shí)以事實(shí)為單位進(jìn)行存儲(chǔ)。通過網(wǎng)絡(luò)爬蟲技術(shù),收集煤礦安全生產(chǎn)網(wǎng)公開的礦山事故報(bào)告,經(jīng)過預(yù)處理得到原始語料,使用LLM 對(duì)事故報(bào)告中的名詞、名詞短語及動(dòng)詞進(jìn)行批量化抽取。在模式層中,實(shí)體集由事故報(bào)告中的名詞、名詞短語組成,關(guān)系集由事故報(bào)告中的動(dòng)詞組成。通過LLM 對(duì)實(shí)體集和關(guān)系集中的元素進(jìn)行聚類分析,同時(shí)結(jié)合《礦山生產(chǎn)安全事故報(bào)告和調(diào)查處理辦法》《生產(chǎn)安全事故報(bào)告和調(diào)查處理?xiàng)l例》《煤礦安全生產(chǎn)條例》中要求事故報(bào)告應(yīng)包含的內(nèi)容,構(gòu)建礦山事故本體。本體構(gòu)建完成后,對(duì)原始語料進(jìn)行少量的人工標(biāo)注,標(biāo)注數(shù)據(jù)用于LLM 的學(xué)習(xí)與微調(diào)。按照本體中的概念定義設(shè)計(jì)信息抽取模板。在數(shù)據(jù)層中,將礦山事故報(bào)告中不同文本中實(shí)體及實(shí)體間關(guān)系的圖結(jié)構(gòu)信息嵌入到信息抽取模板中,使用LLM進(jìn)行實(shí)體及關(guān)系抽取,得到礦山事故文本中的實(shí)體關(guān)系三元組,完成數(shù)據(jù)的實(shí)例化。
1.1 模式層構(gòu)建
模式層是知識(shí)圖譜的概念模型和邏輯基礎(chǔ),可借助本體定義的規(guī)則和公理對(duì)數(shù)據(jù)層進(jìn)行規(guī)范約束[3]。對(duì)礦山事故報(bào)告文本分析可知,該報(bào)告文本中蘊(yùn)含豐富的實(shí)體對(duì)象和關(guān)系。使用LLM 并結(jié)合煤礦生產(chǎn)文件、煤礦設(shè)備文件和安全防治文件對(duì)礦山事故報(bào)告文本進(jìn)行了實(shí)體關(guān)系挖掘、聚類和總結(jié)歸納。
礦山事故報(bào)告按照結(jié)構(gòu)可劃分為事故概述、事故原因、事故單位情況和事故發(fā)生經(jīng)過。實(shí)體關(guān)系挖掘過程如圖2 所示。首先,本文利用LLM 按事故報(bào)告結(jié)構(gòu)分批獲取礦山事故報(bào)告文本中的所有名詞及名詞短語, 同時(shí), 提示LLM 采用粗粒度分詞標(biāo)準(zhǔn)。例如,事故原因文本為“事故直接原因:工作面放炮崩歪單體液壓支柱,工人在空頂情況下違章打設(shè)支柱,冒落的巖石砸倒支柱,支柱砸傷其頭部致死。”,采用粗粒度分詞標(biāo)準(zhǔn)后的分詞結(jié)果為“事故/直接原因/:/工作面放炮崩歪單體液壓支柱/,/工人/在/空頂情況下/違章打設(shè)支柱/,/冒落的巖石/砸倒支柱/,/支柱/砸傷其頭部致死/。”。采用粗粒度分詞標(biāo)準(zhǔn)可以保留事故原因的語義完整性,有助于模型理解上下文,減少分詞歧義。其次,獲取事故報(bào)告中的所有名詞及名詞短語后,通過LLM 對(duì)所有名詞及名詞短語進(jìn)行K?means 聚類。如將具體名詞“單體液壓支柱”“風(fēng)鎬”“液壓槍”等聚類在一起,并進(jìn)一步映射為“設(shè)備”標(biāo)簽;將“運(yùn)輸事故”“頂板事故”“水害事故”等聚類在一起,并映射為“事故類型”標(biāo)簽;將“2 號(hào)采煤工作面”“硐室”“106 號(hào)—115 號(hào)液壓支架間” 等聚類在一起, 并映射為“ 地點(diǎn)” 標(biāo)簽; 將“2023 年6 月8 日6 時(shí)許”“60 萬t/a”“未打設(shè)臨時(shí)支護(hù)”等分類為其他標(biāo)簽。得到聚類數(shù)據(jù)后,將同標(biāo)簽的名詞及名詞短語放入同一集合中,采用Dice 系數(shù)對(duì)聚類后的每個(gè)標(biāo)簽集合進(jìn)行相似性度量,即兩兩比較集合中文本元素的重復(fù)度。Dice 系數(shù)越接近1,表示2 個(gè)集合越相似。如果相似,則重復(fù)上述步驟進(jìn)行進(jìn)一步聚類,否則根據(jù)集合中的元素并結(jié)合事故文本特征進(jìn)行標(biāo)簽映射。最后,得到事故核心、機(jī)構(gòu)、事故原因、設(shè)備、事件、人員和證照7 類實(shí)體。
在對(duì)語料中的關(guān)系進(jìn)行挖掘時(shí), 首先, 利用LLM 按事故報(bào)告結(jié)構(gòu)分批獲取礦山事故報(bào)告文本中的所有動(dòng)詞。然后使用LLM 對(duì)獲取到的所有動(dòng)詞進(jìn)行K?means 聚類,同樣使用Dice 系數(shù)對(duì)聚類后的動(dòng)詞集合進(jìn)行相似性度量,結(jié)合行業(yè)實(shí)際情況進(jìn)行調(diào)整。最后獲得位于、處于、取得、對(duì)應(yīng)、具備、參與、采取、導(dǎo)致、發(fā)生、操作10 種關(guān)系。
此外,在對(duì)訓(xùn)練數(shù)據(jù)中少量樣本進(jìn)行數(shù)據(jù)標(biāo)注時(shí),為提高人工標(biāo)注的效率,提升實(shí)體辨識(shí)度,對(duì)前文所述7 類實(shí)體中的事故核心、機(jī)構(gòu)、事件和證照4 類實(shí)體進(jìn)行了細(xì)分,細(xì)分后的實(shí)體及實(shí)體間關(guān)系如圖3 所示。將事故核心實(shí)體細(xì)分為時(shí)間、地點(diǎn)、事故類型、死亡人數(shù)、受傷人數(shù)和經(jīng)濟(jì)損失,將機(jī)構(gòu)實(shí)體細(xì)分為煤礦名稱、地址、生產(chǎn)能力和生產(chǎn)狀態(tài),將事件實(shí)體細(xì)分為業(yè)務(wù)名稱、救援行動(dòng)和現(xiàn)象,將證照實(shí)體細(xì)分為證照編號(hào)和證照有效期。最終得到礦山事故領(lǐng)域?qū)嶓w及實(shí)體間關(guān)系。
1.2 數(shù)據(jù)層構(gòu)建
在數(shù)據(jù)層中,知識(shí)以“實(shí)體?關(guān)系?實(shí)體”或“實(shí)體?屬性?屬性值”的三元組形式存在。根據(jù)模式層中對(duì)實(shí)體及實(shí)體間關(guān)系的定義,對(duì)事故文本進(jìn)行信息抽取,構(gòu)建礦山事故知識(shí)圖譜的數(shù)據(jù)層。
根據(jù)礦山事故報(bào)告文本中實(shí)體及實(shí)體間關(guān)系結(jié)構(gòu),可將圖結(jié)構(gòu)信息分為3 類。事故概述文本和事故原因文本的圖結(jié)構(gòu)信息相同。以事故概述文本的圖結(jié)構(gòu)信息(圖4)為例,按照礦山事故本體中實(shí)體及實(shí)體間關(guān)系,該文本中XX 煤礦為起始節(jié)點(diǎn),其余節(jié)點(diǎn)為終止節(jié)點(diǎn)。起始節(jié)點(diǎn)與各個(gè)終止節(jié)點(diǎn)之間存在發(fā)生、導(dǎo)致等不同的關(guān)系,并且節(jié)點(diǎn)之間只有一對(duì)多的圖結(jié)構(gòu)信息,在對(duì)事故概述文本進(jìn)行信息抽取時(shí),可定義該部分文本的Prompt 模板,將各節(jié)點(diǎn)之間的關(guān)系和圖結(jié)構(gòu)信息嵌入Prompt 模板。
事故單位情況文本的圖結(jié)構(gòu)信息如圖5 所示。按照礦山事故本體中實(shí)體及實(shí)體間關(guān)系,該文本中XX 煤礦為起始節(jié)點(diǎn),證號(hào)為中間節(jié)點(diǎn),證照有效期為終止節(jié)點(diǎn)。起始節(jié)點(diǎn)和終止節(jié)點(diǎn)通過中間節(jié)點(diǎn)進(jìn)行連接,各個(gè)節(jié)點(diǎn)之間存在取得、對(duì)應(yīng)等不同的關(guān)系,并且起始節(jié)點(diǎn)與中間節(jié)點(diǎn)之間只存在一對(duì)多的關(guān)系,中間節(jié)點(diǎn)和終止節(jié)點(diǎn)之間存在一對(duì)一的關(guān)系,在對(duì)事故單位證照情況進(jìn)行信息抽取時(shí),可固定該部分文本的Prompt 模板,將各節(jié)點(diǎn)之間的關(guān)系和圖結(jié)構(gòu)信息嵌入Prompt 模板。
事故發(fā)生經(jīng)過文本的圖結(jié)構(gòu)信息如圖6 所示。在該文本中,事件是按照時(shí)間順序發(fā)生的,各個(gè)時(shí)間點(diǎn)中都有人員參與,且參與其中的人員都在進(jìn)行相應(yīng)活動(dòng),如操作設(shè)備、進(jìn)行業(yè)務(wù)施工、采取救援措施等。因此,按照礦山事故本體中實(shí)體及實(shí)體間關(guān)系,將該文本中時(shí)間點(diǎn)作為起始節(jié)點(diǎn),人員作為中間節(jié)點(diǎn),具體業(yè)務(wù)名稱作為終止節(jié)點(diǎn)。起始節(jié)點(diǎn)和終止節(jié)點(diǎn)通過中間節(jié)點(diǎn)進(jìn)行連接,各個(gè)節(jié)點(diǎn)之間存在參與、操作、對(duì)應(yīng)等不同的關(guān)系,并且起始節(jié)點(diǎn)與中間節(jié)點(diǎn)之間存在一對(duì)多的關(guān)系,中間節(jié)點(diǎn)與終止節(jié)點(diǎn)之間存在一對(duì)一和一對(duì)多的關(guān)系,在對(duì)事故發(fā)生經(jīng)過文本進(jìn)行信息抽取時(shí),可固定該部分文本的Prompt模板,將事故發(fā)生經(jīng)過文本中各節(jié)點(diǎn)之間關(guān)系和圖結(jié)構(gòu)信息嵌入Prompt 模板。
根據(jù)礦山事故報(bào)告文本各部分內(nèi)容的差異性,對(duì)事故概述、事故原因、事故單位情況和事故發(fā)生經(jīng)過進(jìn)行信息抽取時(shí)采用不同的Prompt 模板。信息抽取過程如圖7(a)所示,在Prompt 模板中嵌入原始語料中實(shí)體之間的圖結(jié)構(gòu)信息,將嵌入圖結(jié)構(gòu)信息的Prompt 模板和待抽取文本輸入LLM,使用人工標(biāo)注的訓(xùn)練集數(shù)據(jù)指導(dǎo)LLM 進(jìn)行礦山事故中實(shí)體及實(shí)體間復(fù)雜關(guān)系的學(xué)習(xí),對(duì)模型參數(shù)進(jìn)行微調(diào),使LLM 在當(dāng)前對(duì)話中保持對(duì)該任務(wù)的信息抽取能力。具體信息抽取案例如圖7(b)所示,模板中的triples 表示當(dāng)前待抽取文本中所包含的三元組,target 表示嵌入圖結(jié)構(gòu)信息后的文本,Subject_X標(biāo)簽表示起始節(jié)點(diǎn), Object_X 標(biāo)簽表示終止節(jié)點(diǎn),target_text 表示待抽取文本的內(nèi)容,ner2ent 表示待抽取文本中所包含的實(shí)體節(jié)點(diǎn)與標(biāo)簽的對(duì)應(yīng)關(guān)系。
在信息抽取時(shí),按礦山事故報(bào)告結(jié)構(gòu)對(duì)原始語料進(jìn)行劃分,將嵌入圖結(jié)構(gòu)信息的Prompt 模板和待抽取文本輸入LLM 進(jìn)行批量化信息抽取, 最終LLM 輸出抽取到的實(shí)體關(guān)系三元組。
2 實(shí)驗(yàn)驗(yàn)證
為驗(yàn)證本文方法的可行性和有效性,開展實(shí)驗(yàn)驗(yàn)證。用于實(shí)驗(yàn)驗(yàn)證的LLM 包括GPT?3.5,GLM_4,ERNIE?4.0 及Qwen?7B?chat,將LLM 的信息抽取結(jié)果與通用信息抽取(Universal Information Extraction,UIE)模型[21]的信息抽取結(jié)果進(jìn)行對(duì)比。
2.1 數(shù)據(jù)集構(gòu)建
在礦山事故信息抽取任務(wù)中,目前尚無公開的數(shù)據(jù)集,因此需要自行構(gòu)建數(shù)據(jù)集。本文收集的數(shù)據(jù)來源于煤礦安全生產(chǎn)網(wǎng),通過網(wǎng)絡(luò)爬蟲獲取原始語料文本,選取7 類礦山事故,共包含2 532 個(gè)礦山事故報(bào)告文本,人工標(biāo)注253 個(gè)礦山事故報(bào)告文本,將標(biāo)注后的數(shù)據(jù)按照7∶3 的比例劃分為訓(xùn)練集和測(cè)試集。
通過網(wǎng)絡(luò)爬蟲獲取到的原始礦山事故報(bào)告文本存在實(shí)體關(guān)系和專業(yè)詞匯復(fù)雜及實(shí)體嵌套等問題,使得本體構(gòu)建變得困難,且直接對(duì)原始語料進(jìn)行信息抽取并不能得到高質(zhì)量的抽取結(jié)果。此外,收集到的原始礦山事故報(bào)告存在諸多冗余信息和格式混亂數(shù)據(jù),無法將其直接用于信息抽取任務(wù)。為改善上述問題,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以提高語料庫(kù)的構(gòu)建質(zhì)量。
根據(jù)國(guó)家礦山安全監(jiān)察局《關(guān)于印發(fā)〈礦山安全生產(chǎn)事故報(bào)告和調(diào)查處理辦法〉的通知》(礦安〔2023〕7 號(hào))第十條要求,對(duì)采集到的原始礦山事故報(bào)告進(jìn)行預(yù)處理,如圖8 所示。首先,對(duì)原始語料進(jìn)行數(shù)據(jù)清洗,修正格式混亂的數(shù)據(jù),同時(shí)對(duì)報(bào)告內(nèi)容進(jìn)行精簡(jiǎn),刪除礦山事故報(bào)告中的冗余信息,去除事故責(zé)任追究與處理建議等與本體構(gòu)建無關(guān)信息,保留事故發(fā)生單位概況,事故發(fā)生的時(shí)間、地點(diǎn)、事故類別,事故的簡(jiǎn)要經(jīng)過,事故已經(jīng)造成傷亡人數(shù)、涉險(xiǎn)人數(shù)、失蹤人數(shù)和初步估計(jì)的直接經(jīng)濟(jì)損失等必要內(nèi)容。然后, 進(jìn)行實(shí)體對(duì)齊, 例如針對(duì)XX 市XX 區(qū)XX 煤業(yè)有限公司(以下簡(jiǎn)稱“XX 煤業(yè)”),統(tǒng)一使用簡(jiǎn)稱之后的煤礦名稱。最后,統(tǒng)一礦山事故報(bào)告結(jié)構(gòu),將礦山事故報(bào)告保留的內(nèi)容進(jìn)一步精煉為事故概述、事故原因、事故單位情況和事故發(fā)生經(jīng)過4 個(gè)部分內(nèi)容。
2.2 信息抽取結(jié)果
分別采用GPT?3.5,GLM_4,ERNIE?4.0 及Qwen?7B?chat 這4 個(gè)LLM 與UIE 模型對(duì)礦山事故報(bào)告中的實(shí)體和關(guān)系進(jìn)行抽取,結(jié)果見表1。
由表1 可知:在實(shí)體抽取任務(wù)中,UIE 模型表現(xiàn)穩(wěn)定但整體略差于LLM;在關(guān)系抽取任務(wù)中,LLM表現(xiàn)顯著優(yōu)于UIE 模型。這是因?yàn)閁IE 模型依賴于預(yù)定義的結(jié)構(gòu)化模式,難以靈活處理多樣化的關(guān)系類型;而LLM 憑借強(qiáng)大的上下文理解能力、生成式框架及對(duì)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的深度學(xué)習(xí)能力,能夠更好地捕捉語義關(guān)聯(lián)和隱含關(guān)系,此外,LLM 在處理動(dòng)態(tài)和多樣化任務(wù)時(shí)表現(xiàn)出更強(qiáng)的泛化能力,能夠更準(zhǔn)確地構(gòu)建實(shí)體之間的關(guān)系,從而在實(shí)體抽取和關(guān)系抽取任務(wù)中取得更好的效果。
在GPT?3.5, GLM_4, ERNIE?4.0 和Qwen?7B?chat 上開展嵌入圖結(jié)構(gòu)Prompt 和未嵌入圖結(jié)構(gòu)Prompt 的對(duì)比實(shí)驗(yàn),分別對(duì)測(cè)試集數(shù)據(jù)進(jìn)行實(shí)體抽取和關(guān)系抽取,結(jié)果見表2。
由表2 可知,在LLM 中嵌入圖結(jié)構(gòu)Prompt 后的信息抽取結(jié)果明顯優(yōu)于未嵌入圖結(jié)構(gòu)Prompt。未嵌入圖結(jié)構(gòu)Prompt 的LLM 雖能捕捉一定的語義信息,但在精確率和召回率上存在局限性,尤其在處理復(fù)雜圖結(jié)構(gòu)數(shù)據(jù)時(shí),難以充分利用節(jié)點(diǎn)和邊之間的關(guān)系信息。而嵌入圖結(jié)構(gòu)Prompt 可幫助LLM 更好地理解圖中節(jié)點(diǎn)和邊之間的關(guān)系,并將圖結(jié)構(gòu)信息保留至低維空間表征中,提升捕捉實(shí)體間復(fù)雜關(guān)系的能力。
2.3 知識(shí)圖譜構(gòu)建結(jié)果
利用嵌入圖結(jié)構(gòu)Prompt 的LLM 從礦山事故報(bào)告中抽取事故概述、事故原因、事故單位情況和事故發(fā)生經(jīng)過所包含的實(shí)體及實(shí)體間關(guān)系信息,生成礦山事故知識(shí)圖譜三元組,并將其存儲(chǔ)在Neo4j 圖數(shù)據(jù)庫(kù)中,從而構(gòu)建礦山事故知識(shí)圖譜。
使用Cypher 語句可對(duì)Neo4j 圖數(shù)據(jù)庫(kù)中的礦山事故進(jìn)行查詢。以頂板事故為例,查詢某一煤礦發(fā)生的頂板事故,該頂板事故的事故概述、事故原因、事故單位情況和事故發(fā)生經(jīng)過所涵蓋的實(shí)體關(guān)系三元組構(gòu)成的知識(shí)圖譜如圖9 所示。
3 結(jié)論
1) 通過LLM 對(duì)礦山事故報(bào)告文本中的名詞、名詞短語及動(dòng)詞進(jìn)行K?means 聚類分析, 使用Dice 系數(shù)對(duì)聚類后的集合進(jìn)行相似性度量,并結(jié)合煤礦領(lǐng)域相關(guān)規(guī)范性文件,可快速、高效地完成煤礦領(lǐng)域事故本體構(gòu)建,生成礦山事故知識(shí)圖譜三元組,實(shí)現(xiàn)礦山事故信息的結(jié)構(gòu)化表示。
2) 在LLM 上嵌入圖結(jié)構(gòu)Prompt,提升了LLM實(shí)體抽取和關(guān)系抽取的準(zhǔn)確率,從而在少量的標(biāo)注數(shù)據(jù)下快速實(shí)現(xiàn)礦山事故知識(shí)圖譜的高質(zhì)量構(gòu)建。
3) 由于數(shù)據(jù)來源于煤礦安全生產(chǎn)網(wǎng)的礦山事故報(bào)告,文本結(jié)構(gòu)相對(duì)固定,文本類型相對(duì)單一。在未來的研究中,可提高數(shù)據(jù)源的多樣性,進(jìn)一步完善礦山事故知識(shí)圖譜,探索在礦山事故原因分析、救援策略決斷、防范措施制訂和事故報(bào)告自動(dòng)生成等場(chǎng)景下的應(yīng)用。
參考文獻(xiàn)(References):
[ 1 ]JI Shaoxiong, PAN Shirui, CAMBRIA E, et al. Asurvey on knowledge graphs: representation,acquisition, and applications[J]. IEEE Transactions onNeural Networks and Learning Systems, 2022, 33(2) :494-514.
[ 2 ]王國(guó)法,任懷偉,趙國(guó)瑞,等. 智能化煤礦數(shù)據(jù)模型及復(fù)雜巨系統(tǒng)耦合技術(shù)體系[J]. 煤炭學(xué)報(bào), 2022,47(1):61-74.
WANG Guofa, REN Huaiwei, ZHAO Guorui, et al.Digital model and giant system coupling technologysystem of smart coal mine[J]. Journal of China CoalSociety,2022,47(1):61-74.
[ 3 ]郭曉黎,王宇,劉瑞祥. 面向煤礦安全事件本體模型研究與應(yīng)用[J]. 中國(guó)煤炭,2014,40(12):113-116.
GUO Xiaoli, WANG Yu, LIU Ruixiang. Research andapplication of event ontology model of coal mineaccidents[J]. China Coal,2014,40(12):113-116.
[ 4 ]潘理虎,張佳宇,張英俊,等. 煤礦領(lǐng)域知識(shí)圖譜構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(8):47-54,59.
PAN Lihu, ZHANG Jiayu, ZHANG Yingjun, et al.Construction of knowledge graph in coal minedomain[J]. Computer Applications and Software,2019,36(8):47-54,59.
[ 5 ]李蓓,王鵬,楊政,等. 基于多層次語義約束的煤礦災(zāi)害事件本體模型構(gòu)建[J]. 陜西煤炭,2024,43(4):146-149.
LI Bei, WANG Peng, YANG Zheng, et al. Disasterevent ontology model building of coal mine based onmulti-level semantic constraints[J]. Shaanxi Coal,2024,43(4):146-149.
[ 6 ]曹現(xiàn)剛,張夢(mèng)園,雷卓,等. 煤礦裝備維護(hù)知識(shí)圖譜構(gòu)建及應(yīng)用[J]. 工礦自動(dòng)化,2021,47(3):41-45.
CAO Xiangang, ZHANG Mengyuan, LEI Zhuo, et al.Construction and application of knowledge graph forcoal mine equipment maintenance[J]. Industry and MineAutomation,2021,47(3):41-45.
[ 7 ]王忠強(qiáng),宋建鑫,余數(shù)三,等. 基于依存句法分析的智慧礦山知識(shí)圖譜構(gòu)建方法[J]. 礦業(yè)研究與開發(fā),2023,43(10):232-240.
WANG Zhongqiang, SONG Jianxin, YU Shusan, et al.A method of constructing knowledge graph of intelligentmines based on dependency syntax analysis[J]. Mining
Research and Development,2023,43(10):232-240.[ 8 ]韓一搏,董立紅,葉鷗. 基于聯(lián)合編碼的煤礦綜采設(shè)備知識(shí)圖譜構(gòu)建[J]. 工礦自動(dòng)化,2024,50(4):84-93.
HAN Yibo, DONG Lihong, YE Ou. Construction ofknowledge graph for fully mechanized coal miningequipment based on joint coding[J]. Journal of MineAutomation,2024,50(4):84-93.
[ 9 ]ZHONG Lingfeng, WU Jia, LI Qian, et al. Acomprehensive survey on automatic knowledge graphconstruction[J]. ACM Computing Surveys, 2023,56(4):1-62.
[10]DAGDELEN J, DUNN A, LEE S, et al. Structuredinformation extraction from scientific text with largelanguage models[J]. Nature Communications, 2024,15(1). DOI:10.1038/s41467-024-45563-x.
[11]HU Yan, CHEN Qingyu, DU Jingcheng, et al.Improving large language models for clinical namedentity recognition via prompt engineering[J]. Journal ofthe American Medical Informatics Association, 2024,31(9):1812-1820.
[12]REMADI A, EL HAGE K, HOBEIKA Y, et al. Toprompt or not to prompt: navigating the use of largelanguage models for integrating and modelingheterogeneous data[J]. Data amp; KnowledgeEngineering, 2024, 152. DOI: 10.1016/J.DATAK.2024.102313.
[13]AGRAWAL M, HEGSELMANN S, LANG H, et al.Large language models are few-shot clinical informationextractors[EB/OL]. [2024-07-25]. https://arxiv.org/abs/2205.12689v2.
[14]WADHWA S, AMIR S, WALLACE B C. Revisitingrelation extraction in the era of large languagemodels[EB/OL]. [2024-07-25]. https://doi.org/10.48550/arXiv.2305.05003.
[15]馮鈞,暢陽紅,陸佳民,等. 基于大語言模型的水工程調(diào)度知識(shí)圖譜的構(gòu)建與應(yīng)用[J]. 計(jì)算機(jī)科學(xué)與探索,2024,18(6):1637-1647.
FENG Jun, CHANG Yanghong, LU Jiamin, et al.Construction and application of knowledge graph forwater engineering scheduling based on large languagemodel[J]. Journal of Frontiers of Computer Science andTechnology,2024,18(6):1637-1647.
[16]WANG Jiaqi, SHI Enze, YU Sigang, et al. Promptengineering for healthcare: methodologies andapplications[EB/OL]. [2024-07-25]. https://arxiv.org/abs/2304.14670?context=cs.
[17]TONEVA M,SORDONI A,DES COMBES R T,et al.An empirical study of example forgetting during deepneural network learning[EB/OL]. [2024-07-25]. https://arxiv.org/abs/1812.05159.
[18]LI Lei,JIN Li,ZHANG Zequn,et al. Graph convolutionover multiple latent context-aware graph structures forevent detection[J]. IEEE Access,2020,8:171435-171446.
[19]ZHANG Qianjin, WANG Ronggui, YANG Juan, et al.Structural context-based knowledge graph embeddingfor link prediction[J]. Neurocomputing, 2022, 470:109-120.
[20]張吉祥,張祥森,武長(zhǎng)旭,等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)工程,2022,48(3):23-37.
ZHANG Jixiang, ZHANG Xiangsen, WU Changxu,et al. Survey of knowledge graph constructiontechniques[J]. Computer Engineering,2022,48(3):23-37.
[21]LU Yaojie,LIU Qing,DAI Dai,et al. Unified structuregeneration for universal information extraction[C]. The60th Annual Meeting of the Association forComputational Linguistics,Dublin,2022:5755-5772.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61802107);河北省高等學(xué)校科學(xué)技術(shù)研究項(xiàng)目(ZD2020171);河北省省級(jí)科技計(jì)劃資助項(xiàng)目(22567624H)。