陸智卿 袁 翔 何 旭 李學強
(中國石油大學(華東)計算機與通信工程學院 青島 266580)
隨著領域本體和語義網[1]的快速發展,人們對高效組織與獲取領域知識提出了更高的要求。在多個領域,相關人員構建了各種專題知識庫[2]來對領域知識進行組織與利用。然而,基于傳統的數據庫構建的專題知識庫的實質只是一種資源庫,對領域知識的揭示極其有限。因而,無法實現知識檢索、推理等更高層次的知識服務。近年來,在語義網描述語義的推動下,越來越多的描述不同領域的本體產生了[3]。利用本體思想從不同角度對信息集合進行標引,表示信息內容與知識組織體系之間的鏈接關系,可以將本體與信息系統進行鏈接,從而使用戶在使用信息的過程中更加便捷地瀏覽和理解相關概念和資源,還可以利用本體中的語義關系及推理規則集合進行推理[4~5]。
領域本體是用于描述指定領域知識的一種專門本體[6]。目前,各種領域都開發應用了本體[7~8]。利用本體可快速構建的設計模式和易于信息共享平臺的優勢已經被許多基于領域知識的研究所證明[9]。專家們開發了本體建設的各種方法和工具,如Methontology,On-To-Knowledge,UPON 和NEON[10~14],這些都是本體模型在不同科學領域的應用。為了消除知識概念設計中的盲目性,使此過程更有效率,從而縮短整體設計的周期。從這個角度來看,單獨使用本體是不夠的,因為它提供的層次結構在相當靜態或準靜態描述中是有限的。在哲學本體論中,認識論與實現和正確理解所使用的知識的方法有關。因此,認識論必須與動態意識或信息流的建模以及設計思想中涉及的認知過程相結合。此外,由于計算機的內在缺陷,人的經驗和知識仍然是決策和評估的必要條件。因此,基于圖像思維理論[15]提出了人機界面,為統一機器邏輯思維和人的直覺思維提供了基礎。這個理論可以在指導推理過程中輔助決策。
沉積相是地質學中重要的一個研究領域。沉積相,指沉積環境及其產物,也專指環境的“物質表現”,是反映一定自然環境特征,具有特定巖性和古生物標志的地質單元。依據沉積相能夠了解沉積環境、儲集巖成因及其分布規律,揭示了沉積相和微相對儲集巖及其物性的控制關系,進而幫助油藏工程師建立油藏地質概念模型,指導油藏開發。因此,沉積相的研究對油氣勘探具有重要意義。
本文的目的是提出一種基于本體的概念設計方法,用于對地質學中的沉積相的領域知識進行建模,并建立一個知識庫作為知識搜索的平臺,并在引導設計過程中對沉積相進行標準化。基于想象思維理論,將搜索結果和指導以圖像的形式呈現,以促進決策和概念的可視化。整個方法通過沉積相本體知識庫的設計案例來驗證。
本體明確了領域內共同認可的概念術語,利用領域知識的語義模型表達了概念含義,并在內部層次當中規定了這些概念之間的關系,為知識獲取以及表示奠定了基礎。通過本體的無歧義性描述語言OWL2(用特定的形式化語言對本體模型進行描述)可以使機器和用戶都能達到統一的理解。TOVE 法、ENTERPRISE 法、METHONTOLOGY 法以及斯坦福大學開發的七步法是主流的領域本體構建方法。因此,本文綜合上述幾種方法的優缺點,通過Protégé對沉積相領域知識和知識體系,構建沉積相本體。領域本體是一個五元組,記作O={C,A,R,I,M}[16]。其中,C 是概念集,指特定領域中屬于概念的集合;A 是屬性集,主要用來表現概念自身的特征;R是關系,指領域中概念間的相互作用;I為實例集;M是實例與概念之間的映射關系集合。
本體建模實現過程如下。
1)確定沉積相本體的知識范疇,劃分出一個能夠清楚表達和解釋沉積相內各類現象與專業術語的知識范圍。
2)列出沉積相本體中的重要術語,主要包括相、相標志、沉積類型、沉積巖類型以及各類測井方法和特征。
3)定義各類相和相之間的等級體系,采用目前公認度最高的“相-亞相-微相”三級體系。以海相組、陸相組、海陸過渡相組為三個組,然后根據陸相、海相和海陸交互相中的次級環境及沉積物特征,建立相級別的沉積相類型。進而,根據各相級別類型中亞環境、微環境及相應沉積物特征,建立對應的沉積亞相和微相。
4)定義沉積相的屬性,包括巖性特征,測井響應特征(自然伽馬,電阻率,自然電位)等,定義屬性之間的關系和分面,各個特征之間的相互獨立,且規定屬性特征取值范圍。
5)創建實例,將已知劃分好的沉積相實例加入到沉積相本體。

圖1 沉積相本體示意圖
建立的沉積相本體如圖1 所示,展示了本體所包含的相一級別的沉積相類型,箭頭代表分屬關系,其中OWL:THING是所有事物的父集。
在建立的沉積相本體基礎上,開始構建沉積相知識庫。整個知識庫基本結構如圖2 所示,其中,知識庫劃分為兩層:知識層和圖片層。
知識層主要包含語義識別與知識查詢兩個功能部分。語義識別部分是通過建立的沉積相本體,通過語義相似度計算的識別算法,實現沉積相的語義識別。
知識查詢部分以建立的沉積相本體為基礎,通過Jena 技術[17]和SPARQL[18]查詢語言,實現對本體模型的沉積相知識查詢。其中,由于SPARQL 查詢語句屬于主謂賓結構,查詢語句如下所示。
1)SELECT ?A WHERE ?A rdfs:subClassOf?B
2)SELECT ?A WHERE?B rdfs:coment?B
其中,rdfs:subClassOf和rdfs:coment為OWL語言中RDFS 的構造子。A 代表已知項,B 為查詢項,問號?代表查詢占位符。語句1代表求B(沉積相)的所有亞相和微相。語句2 代表求B 相的相關特征和知識描述。
沉積相本體模型是使用OWL 語言建立的,利用Jena技術,可以實現本體模型映射到數據庫的過程。Jena 將本體模型中的OWL 語句表示為一組陳述,會在模型Model 中新增一個與原有陳述有著相同的主體,謂詞和客體的陳述。Jena 中表示資源、屬性和文本的接口為Resource、Property 和Literal,所包含的知識與數據封裝在內存存儲的模型Model里。
圖片層主要包括圖片查詢與自動擴充兩個功能部分。圖片層是以地質領域專業圖片庫為基礎,該圖片庫主要以沉積相領域內垂向序列圖、沉積模式圖和測井響應圖三大類圖片構成。

圖2 沉積相知識庫結構圖
圖片查詢通過查詢MySQL 數據庫里存放的專業圖片的相對路徑查詢圖片庫里的圖片。對應沉積相類型與圖片的相對路徑類型相關聯。
圖片層的自動擴充功能通過爬蟲技術實現,在百度等大型圖片網站以及地質領域專業的圖片網站爬取相關的專業圖片。以每種沉積相類型作為關鍵詞,生成一個關鍵詞列表,進而,對每個搜索結果頁面,根據廣度優先策略,將圖片下載到圖片庫對應的沉積相類型的路徑下。然而,由于百度等大型圖片網站不是專業的地質圖片庫,所以可能會出現很多雜亂且不相關的圖片。因此,在爬蟲的爬取算法中,將引入Trie樹。Trie樹[19~20],又稱單詞查找樹,利用字符串的公共前綴來減少查詢時間,最大限度地減少無謂的字符串比較,查詢效率較高。使用Trie 樹以過濾不相關的圖片。過濾功能實現如下。
1)根據所建立的沉積相本體,提取其中重要的概念名詞作為關鍵詞,主要包括各個沉積相類型,各種屬性特征以及地質專有名詞等;
2)根據關鍵詞建立Trie 樹,建立的Trie 樹合并化簡,組成Trie樹森林;
3)在爬取每張圖片的URL 地址時,將圖片相對應的圖片名稱(在百度網站中是pageTitle 屬性)抓取下來;
4)將圖片名稱與建立的Trie 樹森林進行搜索匹配。若匹配成功,則返回成功并且下載該圖片。若匹配失敗,則跳過該圖片;
5)重復上述1)~4)過程,直到圖片搜索深度達到預設值。
本文基于本體技術建立了沉積相知識庫,為領域本體知識庫構建方面提供了參考和借鑒經驗。該知識庫分為圖片層和知識層,包含知識查詢、語義識別、圖片查詢和自動擴充四大功能,主要用到本體、SPARQL 和Trie 樹等技術。所建立的沉積相知識庫包含大部分常用的沉積相知識與專業圖片,可以服務于相關地質研究人員的日常工作研究。考慮到知識庫的智能化與自動化問題,可以在已構建的知識庫上添加相應圖像識別與OCR 文字識別的功能部分。總之,該沉積相知識庫對地質沉積學方面的研究發展提供新的思路和方法。