余安國,劉繼鵬,郭偉,孫志杰,張艷麗
(國網冀北電力有限公司營銷服務中心(資金集約中心、計量中心),北京 100032)
隨著我國經濟社會和科學技術的不斷發展,互聯網大數據技術在社會生產生活中得到越來越廣泛的應用,知識圖譜技術也應運而生[1-2]。知識圖譜技術主要包括應用數學、信息科學和可視化技術等,將相關聯的知識內容根據其關系進行關聯圖譜劃分構建,整合成一個相互關聯的知識信息關系圖譜。比如在瀏覽器中輸入一個關鍵詞,出來的搜索界面中會推薦與其存在關聯關系的其他關鍵詞,并且隨著搜索關鍵詞次數的增加,推薦的關聯性內容信息增多[3]。
知識圖譜技術能夠從整個互聯網資源中提取知識信息,為用戶提供系統化、關聯化的關鍵詞知識體系。目前的許多瀏覽器、社交軟件和其他網絡平臺都需要應用知識圖譜技術[4]。
隨著知識圖譜技術的推廣與普及,該文針對許多企業公司或事業單位業務稽查規則方面存在的問題,基于深度學習方面的原理和技術,構建了業務稽查規則知識圖譜,有利于相關企業單位提高自身業務稽查的管理能力和工作效率。
構建業務稽查規則知識圖譜首先需要對該企業所需的業務稽查信息內容進行采集整理,完成實體抽取和關系挖掘[5]。針對營銷業務方面,由于各部門負責的工作內容具有一定的分散性和獨立性,需要將分散的管理規則分別采集到一個統一的數據庫中。將各部門內的業務稽查規則從系統中復制并提取出來,按照部門進行分類整理,根據數據處理系統的業務規則內容進行數據預處理,檢驗業務規則內容的合理性,篩選并排除存在異常的業務規則和管理內容。
將所有正常的業務稽查規則整合到一起后,進行業務規則的關系挖掘[6-7]。根據企業設定的稽查主題和核心規則,制定支持主題核心規則的相關稽查規則。依據規則的內容要求,提取業務規則數據庫內部的相關關鍵詞,并按照關聯度進行排序,根據關鍵詞所屬的業務規則,將相關聯的業務規則進行關系搭建[8-9]。知識圖譜信息業務關系如圖1 所示。

圖1 知識圖譜信息業務關系
上述分析初步對業務稽查規則的關系進行搭建,為了實現業務稽查規則知識圖譜的智能化,需要對業務規則內容和關鍵詞進行相關的語言描述。將初步形成的關聯關系業務稽查規則內容,通過系統檢索程序進行相關描述內容檢索,參與業務稽查規則知識圖譜的構建,有利于實現該知識圖譜的智能化[10]。
業務稽查規則知識圖譜構建過程包括兩個主要步驟:知識要素識別和關系分析,基于深度學習的業務稽查規則知識圖譜構建流程如圖2 所示。

圖2 業務稽查規則知識圖譜構建流程
業務稽查規則知識實體識別通過NLP 自然語言處理和深度學習模型算法來實現。將之前采集整理好的業務稽查規則信息資源傳輸到數據處理系統,系統的數據處理程序先對業務規則內容進行內容知識實體識別,并對識別出的知識實體進行關鍵詞特征提取,包括詞匯特征、語言特征、關聯特征等,根據特征情況對知識實體進行相關描述,然后將描述信息對應標注在知識實體內容中[11-12]。知識識別內容如圖3 所示。

圖3 知識識別內容
NLP 自然語言處理技術主要負責業務規則內容和相關語言描述在計算機語言和自然語言的相互轉化,實現人機之間的自然語言通信。在自然語言處理技術的基礎上,對知識圖譜的知識實體進行識別分析。知識實體識別一般以相關詞典為基礎,對業務稽查規則進行知識圖譜構建,可選用業務稽查規則相關詞典作為識別基礎。將字典中的關鍵詞匯及其描述的相關特征導入識別程序中,然后采用深度學習算法,對業務規則知識圖譜的樣本信息數據進行關聯運算。根據運算所得的關聯程度,對知識實體和相關詞條進行關系識別[13-14]。根據深度置信網絡進行知識實體和關系識別的運算。關鍵詞特征判定公式為:

式(1)中,v表示該詞匯的所屬特征判定結果,d表示其對應的描述特征,E表示存在關聯性的詞匯。運算結果越接近于1,則表示兩詞匯的關聯度越高,詞匯存在的關系越強。然后對詞匯在其所屬文檔或網頁出現的頻率進行計算,公式如下:

式(2)中,P表示詞匯在其所屬文檔或網頁出現的頻率,ti fi表示詞匯ti在文檔或網頁fi中出現的次數,N表示知識圖譜數據庫中的文檔總數,ni表示該文檔出現詞匯ti的相關詞匯樹。根據此公式能夠得出詞匯的重要性和與其相關的關聯文檔,進而獲取多個文檔之間存在的關系。
基于特征法對關鍵詞匯進行關系識別判定,得到的特征識別結果如圖4 所示。

圖4 特征識別結果
根據圖4 可知,對獲取到的知識實體詞匯及其關聯詞匯和文檔進行語言處理和關系識別。知識實體語言作為分析對象,根據描述特征選擇不同的識別方法,比如字符特征、詞性特征、含義內容等。更具體的識別可根據業務稽查規則的相關詞匯分類進行特征關系識別,比如人名、地名、機構名稱、專業工作詞匯等。在業務稽查規則知識圖譜中,關鍵詞匯或語言主要包括稽查目標、問題描述、快速輸出、與稽查目標相匹配的稽查主題和業務管控規則等。
根據描述特征對存在關聯關系的詞匯和語句進行特征識別分析,推斷出兩者之間的關系性質,并進行關系定義描述,增加關聯詞條解釋,同時雙方所屬文檔也參與到這兩個詞匯或語言的關系圖譜構建中;對于文檔內容的關系識別,則需要從關鍵詞雙方的關聯程度入手,結合其他語言描述關系的識別結果和關系判定結果進行關聯關系構建,并對關系描述詞條加以注釋[15-16]。
在完成了業務稽查規則知識特征提取和關系識別后,整合其關系處理數據資源,對業務稽查規則知識圖譜進行構建。將分析處理好的知識實體信息和相關數據按照一定的關系進行劃分。分批次導入到模型構建系統的數據庫中,系統采用Cypher 語言對詞匯和文檔關系模型進行框架程序編寫。Cypher 能夠在系統資源數據庫和互聯網平臺中,查詢詞匯或文檔的關聯節點和所有關系特征的關鍵描述,根據檢索所得的關系結果進一步完善詞匯之間的關系網和關聯描述,層層推進,構建互相關聯的關系網。同時Cypher 還能夠根據查詢到的關系信息對其關聯度進行個性化的判定,依據關聯程度的大小構建緊密程度不同的關系網。因此,使用者在使用該知識圖譜時,系統會根據搜索關鍵詞的關聯程度推薦關聯度較高的信息內容,其他內容推薦的數量根據關聯程度依次遞減,使用者能夠享受到比較個性化、智能化的檢索服務。此外,該圖譜與系統數據庫保持同步聯系的狀態,會對檢索內容進行相關的記錄,并隨時更新錄入的信息資源,保持知識圖譜的實時性,保障企業單位的業務稽查規則和相關工作內容記錄的真實性、完整性。構建的業務稽查規則知識圖譜如圖5 所示。

圖5 構建的業務稽查規則知識圖譜
同時業務稽查規則知識圖譜還具備檢驗功能,能夠根據自身的檢索規則對業務內容進行檢驗分析,對于存在問題的部分內容,可自動進行錯誤指出和修改糾正,智能解析稽查工單的原始信息和核實后的原因說明,提出稽查核實步驟和整改措施指引等反饋信息,判斷導致異常的原因類型,并標記問題產生的原因標簽,輔助業務人員開展工作,提升稽查規則的創建維護管理效率,從而實現業務管控支撐的智能化。采用Python 語言對知識圖譜進行模塊操作訓練。圖6 為基于深度學習的業務稽查規則知識圖譜工作運行流程。

圖6 基于深度學習的業務稽查規則知識圖譜工作流程
選取該企業的本季度業務工單為實驗對象,對其進行問題稽查,檢驗其存在問題的類型。將公司業務工單內容等信息資源傳輸到知識圖譜處理系統中,進行詞匯提取分類和特征提取識別,根據其特征和相關描述獲取詞匯和語言之間的關系描述,并做好標注;然后進行信息數據集檢驗,檢驗業務規則信息內容的正確性,判斷工單信息是否存在問題,在知識圖譜系統中,根據其關鍵詞和關系描述情況對不同文檔或詞匯之間的關聯程度信息內容進行判定,若存在問題則標注出問題原因;最后將檢驗結果輸出到用戶顯示界面中。
為了檢驗構建的基于深度學習的業務稽查規則知識圖譜的實際應用效果,該文進行了實驗研究,以某公司本季度的業務情況和工單資料為實驗數據樣本,通過業務稽查規則知識圖譜識別檢驗出公司業務工單中存在問題的類型。實驗采用配備Windows 10 系統、MySQL 數據庫、儲存內存為256 GB 的計算機為基礎設備。
采集的數據信息如表1 所示。

表1 數據信息
根據表1 可知,該文的知識圖譜構建方法識別的信息更多。
關系識別的準確度越高,對內容判斷的準確率越高,對業務工單存在的問題的檢驗結果越準確。該文選取了傳統的業務稽查規則知識圖譜進行對比實驗操作,記錄并比較關系識別結果的準確率,其識別結果準確率如圖7 所示。

圖7 業務稽查規則知識圖譜識別準確度
從圖中信息可以看出,基于深度學習的業務稽查規則知識圖譜的關系識別準確率均在90%以上,雖然隨著檢驗數量的增加有所下降,但基本變化比較穩定,體現出其識別效果比較良好;基于關系檢測的知識圖譜識別準確率一開始比較高,隨著檢驗數量增加,準確率下降較快,當檢測數量達到500 時,準確率已經低于80%,說明其識別準確率受檢驗數量影響較大,不適合進行大量數據關系的識別;基于神經網絡的知識圖譜準確率保持較為穩定的水平,基本在75%左右,關系識別準確率不高。
該文針對目前社會經濟的發展需求,構建了基于深度學習的業務稽查規則知識圖譜,并進行了實驗研究。實驗結果表明,基于深度學習的業務稽查規則知識圖譜具有良好的應用效果,能夠滿足當前企業單位對業務稽查方面的技術需求,同時能夠為相關領域的知識圖譜研究提供一定的技術參考。