




摘要:盡管現代照明技術在煤礦井下得到廣泛應用,但由于信息碎片化和繁雜化,導致大量數據和知識未能充分利用。為解決這一問題,本文構建了基于本體的煤礦井下照明知識圖譜。通過定義核心概念、關系和屬性,進行知識建模,然后利用命名實體識別、關系抽取和屬性抽取將非結構化數據轉化為結構化數據。最后,使用Neo4j圖數據庫存儲知識,實現了煤礦井下照明知識圖譜的構建。該圖譜提高了數據整合和管理效率,為煤礦行業(yè)數字化轉型提供了有力的知識支持。
關鍵詞:煤礦井下照明;知識圖譜;本體;知識抽取;Neo4j
煤礦作為主要的能源資源之一,為國家經濟發(fā)展和人民生活提供了不可或缺的能源支持。伴隨著煤礦行業(yè)的快速發(fā)展,對煤礦設備智能化管理的要求也逐步提高,然而目前領域內各類相關信息具有來源多樣、結構復雜的特點,難以對其進行整合,造成信息管理的效率低下,煤礦智能化進程受到限制[1]。
知識圖譜是一種用于組織和表示知識的圖形化數據結構,是從感知智能發(fā)展為認知智能的基石。知識圖譜技術近年來在各個領域都取得了顯著的進展,它可以幫助組織和管理大量復雜的信息,并為決策提供支持。目前,已有多位學者開始圍繞煤礦領域知識圖譜展開研究。李哲等[2]構建了煤礦機電設備事故知識圖譜,旨在通過事故診斷方面的應用,達到減少事故處理時間的目的。蔡安江等[3]引入知識圖譜技術對綜采設備故障數據進行系統(tǒng)化管理,實現了對存儲綜采設備故障知識的精準抽取。吳雪峰等[4]搭建了煤礦巷道支護領域知識圖譜,推進了煤礦巷道支護智能化管理。現有研究雖然都具有良好的實際效用,但研究方向未將煤礦領域覆蓋,仍留有空白。在上述研究基礎上,本文聚焦煤礦井下照明領域,構建了煤礦井下照明知識圖譜,將領域內相關信息高效整合利用。
1"煤礦井下照明知識圖譜構建過程
知識圖譜本質上是一個語義網絡,用于描述客觀世界中的概念、實體、事件以及它們之間的關聯。其核心是三元組,三元組由實體、屬性和關系所組成,通常以lt;實體,關系,實體gt;或lt;實體,屬性,屬性值gt;作為形式。
在知識圖譜的構建過程中,常常采用自頂向下和自底向上兩種模式。自頂向下模式從最頂層開始構建概念,然后逐步向下細化分支,以確保層次結構的嚴密性,隨后將已收集到的實體逐一添加到預先構建好的概念中;而自底向上模式從底層開始形成概念,然后逐步向上抽象,形成上層概念[5]。本文選取自頂向下的方式構建煤礦井下照明知識圖譜,構建過程如圖1所示。
2基于本體的知識建模
知識圖譜由本體層和數據層兩個層級構成。本體層是知識圖譜的頂層,提供了知識的結構和語義。本體(Ontology)是一種形式化的表示方法,它定義了領域中的概念、關系和屬性,以及它們之間的語義和約束,更多地停留在概念層次上;數據層是知識圖譜的底層,包含了實際的數據和事實。基于本體的知識建模即為知識圖譜搭建本體層,將領域知識以結構化和語義明確的方式進行表示,以便于存儲、查詢和分析。
首先根據煤礦井下照明設計有關資料,將煤礦井下照明相關的概念分為“設備類”“員工信息類”“環(huán)境參數類”“運維方案類”“運維記錄類”“標準規(guī)范類”等6大類別。然后在每個類別中定義概念或子類別,以更詳細地描述領域內的實體。接著對概念定義屬性以描述特征,搭建出層級關系清晰的知識體系。煤礦井下照明知識圖譜本體層部分概念及屬性見表1。最后定義概念之間的關系類型,以描述它們之間的聯系和依賴關系,如設備和維護記錄之間有“維護”的關系,這個關系描述了每個照明設備與相關的維護記錄之間的關聯,使我們能夠跟蹤設備的維護歷史。
3知識抽取
知識抽取是從文本和數據源中提取有效信息,并將其轉化為可用于知識圖譜的結構化形式的過程。煤礦井下照明領域涉及到包括結構化數據、半結構化數據和非結構化數據等多種類型的知識來源。
結構化數據以明確定義的格式存儲,通常以表格形式存在,如技術規(guī)格表、設備維護記錄等,此類數據可以不經過提取直接轉化為知識圖譜的形式。半結構化數據有一定結構,如網頁數據,可通過HTML解析和選擇器技術提取信息。非結構化數據沒有明確結構,以自由文本形式存在,如科技文獻。在煤礦井下照明領域,非結構化數據是豐富而復雜的知識來源,本文重點介紹非結構化數據的知識抽取。
對于非結構化文本數據的知識抽取分為實體識別、關系抽取、屬性抽取三個步驟。實體識別是知識抽取過程中首要且核心的一步,其主要目標是將文本中的這些命名實體定位并分為不同的類別[6]。
實體識別方法包括規(guī)則驅動、基于統(tǒng)計的方法和基于深度學習的方法。規(guī)則驅動方法使用預定義規(guī)則和模式,適用于特定領域但需要手動設計。基于統(tǒng)計的方法使用機器學習算法,依賴大量標記數據。基于深度學習的方法自動提取特征,無需手動設計規(guī)則,近年來成為主流。本文選擇基于深度學習的BiLSTM-CRF模型進行實體識別。
BiLSTM-CRF模型是一種應用于自然語言處理任務的深度學習模型,其工作流程如圖2所示。該模型融合了兩個關鍵組件:BiLSTM代表雙向長短時記憶網絡(Bidirectional"Long"Short-Term"Memory),與傳統(tǒng)的單向循環(huán)神經網絡不同,BiLSTM包含兩個方向的循環(huán)神經網絡:一個從左到右(前向),另一個從右到左(后向)。這允許模型同時考慮到前文和后文的上下文信息,有助于更好地捕捉序列數據中的依賴關系和模式。CRF代表條件隨機場(Conditional"Random"Field),是一種用于序列標注任務的統(tǒng)計建模方法。在BiLSTM-CRF模型中,CRF用于捕捉標簽之間的依賴關系,在標簽序列中引入全局信息。特別是在命名實體識別任務中,它有助于更好地捕捉實體的邊界和結構,確保標記的一致性和合理性[12]。
BiLSTM-CRF模型能夠同時考慮上下文信息和標簽之間的依賴關系。通過深度學習和條件隨機場的結合,該模型能夠大大提高命名實體識別的效率,并在文本處理中取得顯著成果。
關系抽取方法分為基于規(guī)則和基于機器學習兩類。基于規(guī)則的方法需要大量手工工作,難以處理復雜文本。基于機器學習的方法包括有監(jiān)督、半監(jiān)督和無監(jiān)督學習。本文采用半監(jiān)督學習中的Bootstrapping算法,通過迭代從少量已知關系的種子實例開始,自動發(fā)現和擴展新的關系實例。每次迭代中,算法使用當前模型從文本中抽取關系實例,篩選高置信度實例,將它們添加到已知關系的候選列表中。這些新實例用于訓練數據,模型不斷更新,迭代直至滿足停止條件。
屬性抽取的任務是從文本中抽取出實體的屬性信息。因為當實體的某個屬性值也是實體時,這個屬性即相當于關系,所以屬性抽取本質上即為關系抽取,不再分開表述。
4基于Neo4j的知識存儲
煤礦井下照明知識圖譜的構建不僅僅涉及實體和關系的抽取,還需要一個強大的知識存儲系統(tǒng),能夠有效地管理和查詢大規(guī)模的知識數據。本研究采用了Neo4j作為知識圖譜的存儲工具,以支持煤礦井下照明知識的有效存儲和檢索。
Neo4j是一種面向圖數據的高性能、可擴展、具有圖數據庫特性的存儲引擎。它基于圖的概念,數據以節(jié)點和邊的形式存儲,每個節(jié)點代表一個實體,每個邊代表實體之間的關系。標簽、節(jié)點、關系和屬性四個核心元素一起構成了Neo4j圖數據庫的基本數據模型,這些核心元素和其作用、表述對象的對應關系如表2所示。
Neo4j提供了靈活的查詢語言Cypher,通過知識抽取得到的三元組形式的數據,需要使用Cypher語句進行批量導入,才能實現在Neo4j中的存儲以及可視化。Cypher語言常用的語句及用法如表3所示。使用LOAD語句將存放在CSV文件中的實體批量導入,命令示例如下:
LOAD"CSV"WITH"HEADERS"FROM"\"file:///entity.csv\""AS"line
CREATE"(:GeneralLightingDevice{name:"\"一般照明設備\","型號:\"型號值\","制造商:"\"制造商值\","額定功率:"\"額定功率值\"})
再將關系批量導入,命令示例如下:
LOAD"CSV"WITH"HEADERS"FROM"\"file:///relation.csv\""AS"line
MATCH"(device:GeneralLightingDevice{name:\"一般照明設備\"}),"(plan:InspectionPlan{name:\"巡檢方案\"})
CREATE"(device)-[:巡檢方案是]-gt;(plan)
此時知識網絡已經初步搭建完畢,以圖的形式存儲在Neo4j圖數據庫中,具有可視化、可編輯的特點,隨時可以利用Cypher語句對其中的知識進行增刪改等操作,完成對已存儲知識的優(yōu)化與維護。
結語
本文描述了煤礦井下照明知識圖譜的構建過程,分為基于本體的知識建模、知識抽取和基于Neo4j的知識存儲三個方面。首先,本文從領域中的概念、關系和屬性出發(fā),進行本體的構建。然后,通過結構化、半結構化和非結構化數據源來獲取必要的知識。在接下來知識抽取的過程中,分別從數據和文本中抽取實體、關系和屬性。最后將煤礦井下照明知識存儲到Neo4j圖數據庫中,從而形成完整的煤礦井下照明知識圖譜,能夠給煤礦井下帶來更安全、更高效的工作環(huán)境,為煤礦井下照明領域的智能化管理提供有力的知識支持。
參考文獻:
63-65.
作者簡介:李白(1987—""),男,漢族,陜西神木人,碩士,中級職稱,研究方向:礦山機電。