王 晴, 黃 進, 劉 鑫, 翟樹紅, 方 錚, 李劍波
1(西南交通大學 電氣工程學院, 成都 611756)
2(四川省自然資源資料館, 成都 611756)
3(四川省國土科學技術研究院, 成都 611756)
4(西南交通大學 計算機與人工智能學院, 成都 611756)
新時代中國特色社會主義, 提出需要堅持“創新、協調、綠色、開放、共享”的新發展理念, 因此地質調查工作需要及時進行轉型升級, 同時堅持公益性、基礎性、戰略性的精準定位也十分重要[1]. 地質資料主要包括成果資料、原始資料和實物資料3種類型, 同時,地質資料也是地質工作記錄和成果的表現方式. 本文主要以館藏成果地質資料為研究對象, 利用爬蟲技術、命名實體識別、關系抽取、屬性抽取等相關技術和Neo4j圖數據庫來構建成果地質領域知識圖譜. 知識圖譜是一種結構化的語義網絡知識庫[2], 其主要的目的是提高搜索引擎的能力, 增強用戶的搜索質量以及搜索體驗[3]. 國內, 百度、搜狗等將知識圖譜的研究從概念轉向產品應用[4]. 陸汝鈐院士提出了知見的概念[5]、Chen等人提出了AgriKG, 將知識圖譜應用于農業領域, 構建了農業知識圖譜[6]. 國外也已有較多重要的知識圖譜研究成果, 如Google Knowledge Graph、DBpedia、YAGO和Freebase等[7].
館藏成果地質資料指的是地質資料匯交人將成果地質資料按照規定要求提交后, 由館藏機構對其進行保存和提供利用的成果地質資料. 館藏成果地質資料不僅是國家重要的基礎性信息資源, 同時也是社會化的公共產品. 本文主要以館藏成果地質資料為對象來構建地質資料領域知識圖譜. 首先獲取成果地質資料領域復雜多樣的知識, 然后探索成果地質資料領域知識圖譜的構建方法, 設計成果地質資料知識圖譜的地質實體和關系, 通過知識圖譜可以清晰地了解到地質礦產與地理區域、組織機構的關系. 本文的貢獻主要如下:
(1)利用序列標注工具構建了成果地質資料領域的語料庫, 其中包含了礦產名稱、組織機構、地理區域等相關語料實體.
(2)利用命名實體識別、關系抽取等相關技術將成果地質資料領域的文本中的非結構化數據轉化為結構化數據.
(3)利用Neo4j圖形化數據庫構建了成果地質礦產領域的知識圖譜. 這是首次將知識圖譜技術應用于成果地質資料領域.
知識圖譜主要可以分為通用知識圖譜和行業知識圖譜[8]. 本文主要根據四川省自然資源資料館提供的館藏成果地質資料為基礎, 研究成果地質領域知識圖譜構建與可視化. 將館藏成果地質資料檔案和網絡百科的相關地質資料知識相結合, 利用爬蟲技術, 爬取成果地質資料中的地質礦產、地理區域、組織機構等實體信息, 通過對得到的地質數據進行清洗、抽取和融合處理, 經過實體識別、關系抽取和屬性抽取等步驟, 構建成果地質資料領域知識圖譜, 屬于行業領域的知識圖譜, 圖1為成果地質資料知識圖譜構建流程圖.

圖1 成果地質資料知識圖譜構建流程圖
(1)數據獲取與處理. 地質數據是地質知識模型的載體[9], 因此, 對于地質數據的研究就是對于地質知識模型的研究. 本文主要通過獲取館藏成果地質資料和網絡百科來獲取地質數據, 其中包含了結構化、半結構化和非結構化的數據. 對結構化的數據, 可直接利用規則的方法把地質相關實體映射到知識圖譜中[10]. 比如文本數據中的“四川彭縣鐵礦地質簡報”屬于結構化的數據. 對于成果地質資料中的非結構化數據, 主要是從文本中抽取出地質實體及關系等信息. 首先對成果地質資料進行預處理, 包括分詞、詞性標注、句法分析等, 然后利用命名實體和關系抽取技術得到需要的地質實體和關系.
(2)命名實體識別. 命名實體識別是自然語言處理的一項基礎任務, 主要是因為命名實體任務性能的提高將有利于非結構化文本朝結構化文本的轉化[11]. 成果地質資料具有豐富的領域性特征且文本具有高度非結構化的特征, 梳理地質實體的不同類型、固有的關系和屬性, 完成地質實體的識別與標注工作, 建立“成果地質內容標簽”語料庫. 在BERT框架下研究中文地質命名實體識別方法, 采用預訓練語料庫模式從規模化的地質非結構化文本數據中自動抽取出實體信息.BERT預訓練模型如圖2所示, 主要包含預訓練和微調兩個階段. BERT只需一個額外的輸出層就可以對預先訓練的模型進行微調[12]. 比如成果地質資料數據中的“受西南地質調查所安排進行調查. 鐵礦產于侏羅紀中下部地層中, 礦石為赤鐵礦, 具鮞狀或礫狀結構”等非結構化數據, 我們需要提取出組織名稱“西南地質調查所”和地質礦產名稱為“赤鐵礦”等實體內容.

圖2 BERT預訓練模型
(3)知識更新. 成果地質資料知識圖譜的構建與應用,將提取到的地質實體、關系和屬性等結合成果地質資料領域知識的特點, 構建了成果地質資料知識圖譜. 利用Neo4j圖數據庫來負責成果地質資料知識圖譜節點的存儲, 將提取到的地質實體、關系和屬性導入到Cypher查詢模板中, 實現成果地質資料知識的精確查詢[13], 從而便于地質資料領域知識更新和到館用戶的查詢.
多源異構數據指的是不同來源、不同結構的數據[14]. 將多源異構數據轉化為符合知識圖譜構造的三元組形式是非常重要和關鍵的技術. 成果地質資料數據主要來源于四川省自然資源資料館、在線百科等.館藏成果地質資料數據具有結構復雜、類型多樣的特征, 研究多源異構數據的采集、清洗、脫密、脫敏和集成關鍵技術, 研究對于半結構化和非結構化數據的實體抽取、關系抽取和屬性抽取等知識抽取技術. 對于結構化的數據可以采用規則映射的方法, 對于半結構化和非結構化的數據需要進行命名實體識別、關系抽取從而將它轉化為結構化的數據, 本文采用深度學習的方法進行處理, 從而獲得地質實體和關系.
語料庫是指大量文本數據的集合, 所以文本數據都需要經過一定的預處理后才能成為后續的研究的基礎數據[15]. 本文采用BIO格式的序列標注方法[16], 將成果地質資料中的一部分數據拿來制作語料庫, 把一部分數據的每個字標注為“B-X”“I-X”或者“O”格式. “BX”表示該字為實體的首字屬于X類型且在實體的開頭, “I-X”表示該字屬于X類型且在實體類型的中間位置, 其中, “X”就在本文中就包括了地質礦產名稱、地理區域名稱、組織機構、地質簡報名稱、人物名稱以及時間等信息. “O”表示不屬于任何類型的實體.BIO格式構建的語料庫如表1所示. 比如“西南地質調查所”的首個字標注為“B-ORG”表示“西”是這個實體的首字且屬于“ORG“類型的實體, 其他部分標注為“IORG”, 表示該字是實體的非首字.

表1 BIO格式構建語料庫
命名實體識別指識別人名、組織名、地名等. 對標注后的語料進行訓練可以得到實體抽取的結果, 如表2所示. 從表中可以看到抽取到的實體包括地理位置、組織機構、地質礦產、人物、時間等信息. 其中“LOC”代表識別到的是地理區域實體, “ORG”代表識別到的是組織機構實體, “ROCK”代表識別到的是地質礦產實體, “PER”代表識別的是人物名稱實體, “TIME”表示識別到的是時間實體.

表2 實體抽取示例
命名實體識別任務常采用的評價指標有精確率:

其中,TP指將正預測為真,FN將正預測為假,FP指將反預測為真,TN指將反預測為假.
在整個成果地質資料檔案知識圖譜構建過程中,關系抽取[17]至關重要, 基于地質檔案的關系抽取包括了空間關系抽取、語義關系抽取[18]、時間關系抽取幾個部分, 其技術流程如圖3所示. 首先, 館藏檔案資料通過規則建立來進行空間關系抽取, 然后通過關系融合進行實體鏈接. 通過對檔案資料數據結構分析, 其中包含了結構化數據、半結構化數據和非結構化數據,然后進行知識抽取, 包括空間、語義、時間的關系抽取, 最后進行實體鏈接.

圖3 地質檔案知識圖譜關系抽取流程圖
知識圖譜是一種對事實的結構化表征. 當獲取的數據比較大并且結構復雜時, 用知識圖譜來表示會更加的清晰準確[19]. 研究知識圖譜動態演化的事件圖譜可視化技術, 滿足不同業務場景的智能服務需求, 進一步提升館藏服務水平. 經過命名實體識別、知識抽取后, 整理成果地質資料包含的地質礦產類型、行政區名稱、礦產名稱等實體. 實體類型設計如表3所示. 比如礦產類型包含了閃鋅礦、磁鐵礦. 行政區類型包含了攀枝花市、會理縣等. 根據地質資料的實體類型和關系模型, 從而構建“地質實體-關系-地質實體”三元組[20], 地質資料領域三元組設計如表4所示, 其中包含了含礦種類的關系, 比如攀西地區含礦類型為釩鈦磁鐵礦. 包含了礦區隸屬地的關系, 比如礦區隸屬于攀枝花市東區銀江鎮馬坎村等.

表3 知識圖譜實體類型設計

表4 知識圖譜關系設計
知識圖譜的核心思想是將數據表示為圖形, 節點表示具體的對象、信息或概念, 邊表示語義關系[21]. 根據館藏成果地質資料來獲取關于地質礦產、組織機構、地理位置、地質簡報名稱等數據. 將數據導入到Neo4j圖數據庫之后, 我們可以得到館藏成果地質資料領域的知識圖譜. 如圖4所示為館藏成果地質資料領域的知識圖譜, 同一種顏色的“圓”屬于同一種地質實體類型, 不同顏色的“圓”代表不同的地質實體類型, 不同顏色的“圓”之間的連線代表地質實體與實體之間的關系.“圓-線-圓”對應“地質資料實體-關系-地質資料實體“三元組. 三元組是知識圖譜的通用表示形式. 其中, 紅色代表地質礦產, 綠色代表地理位置, 黃色代表地質簡報的名稱, 藍色代表組織機構名稱, 不同實體之間的關系通過線來連接, 從而構建了館藏成果地質領域的知識圖譜.

圖4 Neo4j構建的地質資料知識圖譜
知識圖譜的可視化可以讓人直觀地了解到圖譜中的關系信息. Neo4j數據庫里面的Cypher語言可以對數據庫進行CRUD (create, read, updata, delete)的一系列相關操作, 從而方便實現地質資料領域數據的查詢和更新功能. Neo4j圖形化數據庫的高查詢性能以及查詢語言可定制化, 不僅可以查詢地質實體與實體之間的關系, 還可以實現地質礦產的查詢, 以返回快速、精準、結構化的知識. 如圖5所示, 展示了西南地質調查所節點的相關信息, 從圖中可以看到西南地質調查所與它所形成的簡報名稱相連, 從而可以實現成果地質圖譜的可視化.

圖5 地質資料知識圖譜的可視化
目前, 知識圖譜技術是人工智能的熱門研究方向,并且還會在未來很長一段時間有長足的發展. 隨著地質領域信息化的發展, 成果地質數據有了一定的積累.構建成果地質領域的知識圖譜, 可以從海量數據中提煉出地質資料相關知識, 并合理高效的對其進行管理、共享及應用, 對現今的地質行業有著重要意義, 也是許多研究機構的研究熱點. 本文構建了成果地質資料的語料庫, 其中包含了礦產名稱、組織機構、地理區域等相關語料實體. 利用命名實體識別、關系抽取等相關技術將成果地質礦產領域的文本中的非結構化數據轉化為結構數據. 利用Neo4j圖形化數據庫構建了成果地質礦產領域的知識圖譜. 在未來的研究工作中, 我們將結合知識圖譜的問答系統來實現地質資料知識的智能問答, 這也是接下來我們工作的研究重點.雖然目前對于成果地質資料知識圖譜的研究有了許多很有意義的嘗試, 但總的來說還不夠完善和深入, 需要更進一步的研究.