陳梓華,馬占元,李敬兆
(1.安徽理工大學 電氣與信息工程學院,安徽 淮南 232001;2.大同煤礦集團有限責任公司,山西 大同 037000
煤礦安全檢查是煤礦企業日常生產與管理的重要環節[1]。現階段,煤礦日常安全隱患排查流程主要采用定期派遣工作人員下井檢查記錄,并將檢查后存在的隱患問題通過書面文檔的形式匯總,上級排查人員以隱患問題記錄項為條件,檢索煤礦安全規程違反條例項,錄入煤礦安全隱患智能語義采集與決策系統,最終通過系統分析決策,制定安全隱患事故解決措施[2]。其中,煤礦安全生產檢查與記錄存在以下問題:安全隱患問題描述不準確且繁雜,對于相同安全隱患問題表述方式不統一等。此類問題致使煤礦安全隱患檢索效率低下,無法實現煤礦安全隱患實時排查處理。政府和煤礦企業迫切需要一種智能過濾隱患表述中不必要詞句,實時精確檢索煤礦安全隱患關鍵詞的煤礦安全隱患語義信息智能提取系統。
目前,國內外針對煤礦安全隱患語義特征提取等方面的研究相對較少[3,4],但對于網絡文本語義分析等相關方面的研究相對完善,主要采用加權匹配相似度[5-7]、深度學習算法[8-11]等方法。其中,文獻[5]針對普通關鍵詞提取方法未考慮詞間隱含關系,提出了一種依據詞語文本圖和間的相似度進行加權,使用隨機游走的方法迭代計算出相關節點間的相似度,最終以降序的排序方式獲取文本關鍵特征詞。該方法獲取短文本體征詞典準確率較高,但無法解決煤礦安全隱患表述冗余且不準確現象。文獻[9]介紹了一種基于的全卷積神經網絡的高精度文本特征圖語義分割方法,該方法通過特征圖切分模塊,局部區域放大特征,高效且精細分割邊緣,使得網絡語義判別力得到提高。文獻[10]提出了一種基于CNN-LSTM的短文本語義特征提取模型,通過劃分大小不同的卷積窗口,引入長短記憶模型分析文本中語義情感傾向,從而提取短文本的語義特征。文獻[9]和[10]使用了基于不同神經網絡算法的深度學習方法,動態劃分待提取特征區域,進行細密語義特征提取,但對于煤礦具體安全生產場景適應性不強,無法高效篩選特定煤礦安全隱患關鍵詞,且未涉及相同安全隱患表述不統一現象。
本文針對上述研究存在煤礦安全隱患描述繁雜現象與相同問題表述方式等問題,提出了一種基于循環神經網絡(Recurrent Neural Network,RNN)的煤礦安全隱患智能提取系統,實現規范化存儲隱患數據,實時精確提取待檢索關鍵詞,準確獲取對應煤礦安全規程違反項,規范化存儲相關安全隱患數據,提高煤礦安全檢查核心人員的工作效率。
煤礦安全隱患信息關鍵語義智能提取系統主要采用基于RNN語義特征提取的關鍵技術。本系統后臺依次遍歷煤礦安全隱患描述項語句,以逗號為界限分割語句,逐句提取關鍵語義特征,積累過往提取的特征記憶,獲取安全隱患特征關鍵詞,最終使用系統數據庫數據處理技術,通過語義關鍵詞映射表,實現煤礦安全規程違反條例項的精確檢索。
煤礦安全隱患關鍵語義智能提取系統由數據采集層、模型推理層、特征提取層、智能檢索層構成,如圖1所示。

圖1 煤礦安全隱患關鍵語義智能提取系統結構
數據采集層主要采集的是日常安全隱患排查后的問題匯總項數據。煤礦安全人員周期性的將煤礦井下安全檢查隱患問題匯總,核心檢查人員依據隱患程度篩選,人工統計安全隱患需待檢索項,并以“時間-地點-問題-人員”格式的文檔存儲。同時,人工分析煤礦安全規程條例內容,提取標準關鍵詞并建立“一級-二級-三級”多級模式的煤礦安全規程條例項存儲數據庫,各級分類數據表間的索引等。數據采集層結構如圖2所示。

圖2 數據采集層結構
基于RNN的煤礦安全隱患關鍵語義提取模型推理層是本系統的核心。系統通過已獲取的物理信息源,如煤礦安全人員記錄的隱患時間、地點和內容等,進行實際需求分析、算法邏輯設計、實例化對象等操作,構建出基于RNN的煤礦安全隱患數據關鍵語義提取模型,經過測試反饋調整,從而使用穩定的系統模型來進行精確語義關鍵詞提取。基于RNN的煤礦安全隱患關鍵語義提取模型推理過程,如圖3所示。

圖3 模型推理層結構
特征提取層主要是對煤礦安全隱患記錄內容中的關鍵詞精確提取,服務器數據庫初期構建標準關鍵詞字典和同詞性相近詞詞典,隨著數據量增加,各詞性相近詞詞典不斷豐富,待檢索語句基于煤礦隱患信息關鍵語義智能提取模型處理后,該語義關鍵詞可映射數據庫標準關鍵詞,規范安全規程關鍵詞檢索操作,如圖4所示。

圖4 特征提取層結構
智能檢索層主要工作方式是多級分類數據表互聯索引。該系統調用數據映射的標準關鍵詞至服務器數據庫,依據類別各級所屬數據表進行遞進式檢索,“一級分類”按照煤礦安全規程專業分類分為“一通三防、掘進、防治水、機電等”,“二級分類”依據為“人員、設備、環境等”,“三級分類”根據隱患程度分為“一般隱患、重大隱患、紅線隱患”,各級類別表之間采用一對多的鏈式存儲模式,最后一級數據表采用平面數組方式定向存儲隱患程度、標準關鍵詞詞典、安全規程編號與名稱、條例編號、條例內容等關聯屬性項。系統通過特征提取層獲取到的標準關鍵詞與標準關鍵詞詞典中的詞句匹配,從而并行式進行煤礦安全規程違反條例項精準檢索,如圖5所示。

圖5 智能檢索層結構
基于RNN的關鍵語義智能提取模型構建過程如圖6所示。其核心思想是:首先將以逗號為界限進行語句分割,從首句開始,比對同詞性相近詞數據表,過濾句中除名詞和動詞以外的詞,通過0,1,2,…,n的序列對初提取關鍵詞標號,并以正向對角陣的形式輸出;然后在記憶第一句的基礎上,對第二句進行關鍵詞提取,建立對角陣,直至系統檢測遍歷到句號終止,獲取由正向對角陣構成的特征矩陣;接著,通過特征矩陣與詞性權值矩陣,得到輸出層正向方陣序列,最后通過最大池化函數,以一維n×1的矩陣存儲各時段關鍵詞的最大系數,從而獲取對應的關鍵詞組輸出,映射標準關鍵詞數據表,即可得到煤礦安全隱患表述項的標準關鍵詞組,從而進行后續煤礦安全規程精確檢索功能。

圖6 基于RNN的關鍵語義智能提取模型原理圖
基于RNN的關鍵語義智能提取模型算法步驟如下:
1)初始階段,設輸入的關鍵詞待提取語句為Ci,(如:待提取語句為“煤礦人員沒戴安全帽,請戴安全帽”;樣本權重為1),其樣本權重為Ui,同詞性相近詞數據表為W(v,n),并對數據表中每個詞標識Wid,以便后續辨識,記匹配過濾后獲取的詞集為Xi,(例如:第一次過濾前詞集為“煤礦”“人員”“沒戴”“安全帽”;多次過濾后詞集為“人員”“戴”“安全帽”“戴”“安全帽”; 分別為1,2,3,2,3),則輸入層中提取各階段初始詞集合,可用式(1)表示。
2)記動詞詞性權值為Wv,名詞詞性權值為Wn(如“戴”的權值為0.8,“人員”“安全帽”的權值為0.6,),樣本在t-1時刻的記憶為hi=t-1,t-1時刻輸入語句獲取的關鍵詞詞集矩陣為St-1。當t=1時,St=X1,則St-1元素表示為:{V(t-1)i,i,N(t-1)j,j},則t-1時刻詞集中動詞集合V(t)和名詞集合N(t)具體形式,可用式(2)表示。
St-1={V(t-1)i,i,N(t-1)j,j+ht-2}=
{v1,1,v2,2,…,vi,i,n1,1,n2,2,…,nj,j+ht-2}
(2)
則:示例語句第一次的關鍵詞集矩陣為S1=diag(0,0.8,0.6,0.6)。
由于t時刻詞集的提取需要考慮t-1時刻的記憶,則t時刻關鍵詞詞集矩陣表達式St見式(3)。關鍵詞樣本在t時刻的樣本活動情況見式(4)。
St={V(t-1)i,i,V(t)i+1,i+1,N(t-1)j,j,N(t)j+1,j+1}
(3)
ht=St-1Wn+St-1Wv+UtXt
(4)
3)記各時刻提取的關鍵詞詞集St集合為矩陣F(v(t),n(t))見式(5),則隱含層處理后輸出的特征關鍵詞矩陣O(1,…,t-1,t)表達式見式(6)。
O(X1,…,Xt-1,Xt)=F(v(t),n(t))×[Wv,Wn]T
(6)
則:示例語句算法處理后特征矩陣為F(v(2),n(2))=diag(0,0.8,0.6,0.6,0,1.8,1.6,1.6)。
則:示例語句的F(v(2),n(2))在隱含層處理后的關鍵詞特征矩陣為O(X2)=(0,0.6,0.4,0.4,0,1.4,1.0,0)T。
4)將獲取到的輸出結果集進行最大池化,獲取每一時刻最大權值,同時依據中所在矩陣位置編號獲取關鍵詞標識Wid,考慮樣本活動強弱,從而得到局部語義關鍵詞數列Q{Q1,Q2,…,Qn},其池化公式見式(7)。

(7)
則:示例語句的局部語義關鍵詞數列Q{Q1,Q2}={(0.8)T,(1.4,1.0)T},其對應的Wid為(2,2,3)。
5)對相同局部關鍵語義關鍵詞標識Wid進行化簡,得到全句最終語義關鍵詞集合P{P1,P2,…,Pn},則可得到示例語句提取的關鍵詞集合為{“戴”,“安全帽”}。
山西同煤集團于2018年1月采用了基于CNN的煤礦安全隱患智能語義采集系統,2019年6月份開始使用該系統。
本文為驗證基于RNN的關鍵語義智能提取模型在不同語句長度條件下,標準關鍵詞命中率以及用于檢索過程中關鍵詞檢索準確度和消耗時間,在山西同煤集團下屬的忻州窯礦區煤層進行了相關實驗。實驗1:實驗采樣待提取關鍵詞數據量為10000條,實驗分組10組,每組1000條。將基于RNN的關鍵語義智能提取模型(模型1)、基于CNN算法的智能采集模型(模型2)[2],以及相似關鍵字匹配算法模型(模型3)應用于安全隱患違反條例項的檢索過程中,檢索均采用煤礦安全隱患智能采集與智慧決策系統軟件[12-15],驗證其提取關鍵詞的準確度,召回率,F-score值(評判指標)和消耗時間,實驗結果對比見表1。其中,召回率=[(正確檢索的條數)/1000],準確率=[(正確檢索的條數)/(實際檢索的條數)],F-score=[(2*準確率*召回率)/(準確率+召回率)],耗時=關鍵詞提取耗時+檢索耗時。

表1 各模型提取語義關鍵詞檢索的平均精確率與耗時實驗結果對比
通過表1的對比實驗表明:與基于其他模型的系統相比,基于RNN的關鍵語義智能提取模型的檢索系統,語義提取準確率高、綜合評價F-score值等評判指標優、提取語義關鍵詞檢索耗時少,解決了安全隱患關鍵語義提取效率、語義表述不規范,以及精確度不夠高問題,保證了安全檢查人員的條例檢索效率,大大減輕了其日常工作量。
實驗2:實驗采樣待提取關鍵詞的語句長度為10、30、50、70、100、120、140、160、180和200字,在不同長度語句,基于RNN的關鍵語義智能提取模型和基于CNN的智能采集模型,共進行10組實驗,一組兩模型各10次,進行映射標準關鍵詞命中率平均趨勢對比,實驗結果如圖7所示。

圖7 不同長度語句下標準關鍵詞命中率實驗對比結果
通過圖7標準關鍵詞平均命中率變化趨勢對比,可以得出:基于RNN的關鍵語義智能提取模型和基于CNN的智能采集模型在語句長度為100字以內時,標準關鍵詞映射命中率均非常高;隨著語句長度的增加,基于RNN的關鍵語義智能提取模型關鍵詞映射命中率趨于高系數穩定,而基于CNN的智能采集模型呈現下降趨勢,關鍵詞平均命中率最終低于90%。實驗驗證了基于RNN的語義特征提取算法具有高可靠性,且適用于煤礦企業安全生產檢查環節。
煤礦安全隱患信息關鍵語義智能提取系統針對現階段煤礦安全生產面臨的嚴峻問題,以循環神經網絡為基礎,構建語義關鍵詞智能提取模型,高效獲取語義關鍵詞,為精準檢索安全規程條例項提供條件。該系統解決了煤礦安全隱患問題表述不標準,核心隱患問題描述不清等問題,提高了煤礦安全隱患排查能力,減輕了日常安全檢查人員的工作量,極大促進了煤礦企業安全生產管理的智能化。